AI进化的“新燃料”从哪来?答案就在“数据工厂”里
2026-02-08 06:40:49  网易   [查看原文]

0分享至

用微信扫码二维码

分享至好友和朋友圈

当人工智能以惊人的速度重塑世界,你是否想过,支撑它不断进化的“燃料”从何而来?这个答案就藏在“数据工厂”的新兴业态里。它不像传统工厂那样生产钢铁或汽车,而是专门“生产”高质量的数据集,为AI大模型提供源源不断的“粮食”。

“数据工厂”是什么?

当前,整个AI行业正面临一个巨大的瓶颈——高质量数据严重短缺。一个名为“数据工厂”的新兴事物,正试图成为这个瓶颈的破局者。它专门“生产”和“加工”数据,就是将散乱、原始的庞大数据资源,转化为人工智能可以直接吸收、高效利用的“高质量数据集”。

北京交通大学信息管理理论与技术国际研究中心教授张向宏介绍,我们在农业社会效率很低,是因为没有基础设施。工业社会效率提高的一个很重要的突破点就是有了基础设施,有自来水、燃气的供应。

如今进入数智社会,数据成为核心生产要素,同样需要类似“水厂”“电厂”这样的基础设施来规模化供给,这就是“数据工厂”。

张向宏表示,现在这些大模型其实都遇到了这个问题,原因就是数据就是那些公域数据,私域数据确实开发不出来,数据瓶颈非常突出。

这个瓶颈导致了一个怪圈:一边是手握海量数据的企业“有数不采、采而不存、存而不加工”;另一边是渴求数据的大模型公司,不得不重复“自己打井自己喝”,从采集、清洗到标注全部自己来,成本高昂且效率低下。“数据工厂”,正是破局的关键。

“数据工厂”建设路径如何走?

我国的“数据工厂”建设之路该如何走?张向宏指出,“数据工厂”本就有不同的形态,主要分为集中式、半集中式和分布式三种:

集中式是统一采集、统一汇聚、统一加工。目前做“数据工厂”的,90%以上采取的都是集中式。

半集中式是通用的技术根据不同的应用搭建不同的平台。

分布式是没有一个工厂的物理的形态,数据“采存算管用”技术就是数据编织技术。

业界认为,从长远看,能实现“数据可用不可见”的分布式数据工厂是必然趋势,因为它从根本上解决了数据持有者对安全和控制权的担忧。但短期内,三种模式将并行发展。

政策出台助力数据生产与人工智能深度对接

国家层面,国家数据局、工业和信息化部、公安部、证监会2月7日联合发布《关于培育数据流通服务机构 加快推进数据要素市场化价值化的意见》(以下简称《意见》),首次明确我国将培育三类数据流通服务机构。三类数据流通服务机构包括:数据交易所(中心)、数据流通服务平台企业、数据商。《意见》提出,支持各类数据流通服务机构加强与人工智能企业等合作,依托数据基础设施提供数据汇聚、治理、模型训练等服务。

国务院发展研究中心研究员马源表示,当前人工智能企业普遍面临数据荒问题,现在数据流通服务机构就有了一个新的核心使命:汇聚、整合跨行业、跨领域的数据资源,促进数据供方和AI企业需求高效匹配。

展望未来,“数据工厂”不仅为AI“供粮”,它将成为国家数据基础设施的核心单元。它或许没有传统工厂的喧嚣,但它“生产”出的数据洪流,必将无声却深刻地重塑我们的时代。

(来源:中央广播电视总台中国之声)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.var loadMessageError2 = function () {

// message加载失败降级到nginx,产品可以在load事件重新初始化

var cdnPath = 'https://dl.reg.163.com/webzj/ngx/message.js';

var script = document.createElement('script');

script.src = cdnPath;

document.body.appendChild(script);

}

var loadMessageError1 = function () {

// message加载失败降级备份cdn域名,产品可以在load事件重新初始化

var cdnPath = 'https://webzj.netstatic.net/webzj_cdn101/message4.js';

var script = document.createElement('script');

script.src = cdnPath;

script.onerror = loadMessageError2

document.body.appendChild(script);

}//初始化反作弊

var wm = null;

// 只需初始化一次

initWatchman({

productNumber: 'YD00157343455660',

onload: function (instance) {

wm = instance

}

});

关闭

注册|手机发跟贴

登录并发贴

网友评论仅供其表达个人看法,并不表明网易立场。

目前没有热门跟贴

目前没有跟贴,欢迎你发表观点查看更多跟贴去跟贴广场看看var isShowComments = true, tieChannel = "";(function () {

if (window.isShowComments === undefined) {

window.isShowComments = true;

}

var config = {

"productKey": "a2869674571f77b5a0867c3d71db5856",

"docId": "KL8JVPB60519814N", //"data.article.postid", "FNMG85GQ0514HDQI"

"target": document.getElementById("tie"),

"operators": ["up", "down", "reply", "share"],

"isShowComments": isShowComments, //是否显示帖子列表

"hotSize": 3, //热门跟贴列表 展示3 条

"newSize": 2, //最新跟贴列表 展示 10 条

"showPaging": false, //显示分页栏

"submitType": "commentPage" //新发帖子的展现形式:停留在当前页面(currentPage) | 跳转到跟贴详情页(commentPage)

};

Tie.init(config, function(data) {});

})();

/阅读下一篇/我国首次明确培育三类数据流通服务机构 助力“人工智能+”行动

返回网易首页 下载网易新闻客户端

本栏目中的所有页面均系自动生成,自动分类排列,采用联索网络信息采集、网页信息提取、语义计算等智能搜索技术。内容源于公开的媒体报道,包括但不限于新闻网站、电子报刊、行业门户、客户网站等。使用本栏目前必读