快报

两会聚焦新基建,高质量数据成为AI发展的幕后“推手”

字号+ 作者: 来源: 2020-07-04 我要评论

两会聚焦新基建,高质量数据成为AI发展的幕后“推手”-新基建,两会,数据

作为经济发展的底座,基础设施建设决定了经济发展的可能性和未来边界。

过去40年,以“铁公基”为代表的老基建支撑了中国经济高速发展,成就了中国经济“快”的奇迹。

未来40年,以5G、AI、物联网、智能计算等新一代技术为驱动的新基建,将肩负起中国经济由“快”向“好”的重担。

图片1.png


在刚刚结束的全国“两会”中,“新基建”首次进入政府工作报告,成为会议期间被代表提及最多的高频词汇。

在新基建分支中,又以AI最为引人瞩目。百度、阿里、腾讯、搜狗、科大讯飞等一众中国科技巨头CEO,纷纷提交与AI相关的提案。

在“新基建”浪潮下,AI场景规模化落地与应用的速度不断被刷新,但随着AI应用由浅层向深层推进,不免出现根基不牢、“虚火”旺盛的症结,导致其在商业化应用方面仍然裹足不前。

是什么让这样一项拥有巨大潜力的技术面临窘境?又是什么扼住了AI应用的“咽喉”?这一切都指向了一个看似微不足道,却可以决定AI前途命运的基本要素——AI数据。



两会聚焦新基建,高质量数据成为AI发展的幕后“推手”


上层建筑与底层基座“失衡”,数据扼住AI应用的“咽喉”

如果想要聚沙成塔,那么塔基的坚实程度将决定塔顶的高度。

当AlphaGo战胜李世石,AI领域遂掀起热潮,ImageNet数据集、GPU算力支持和深度学习算法“三驾马车”整装待发,AI商业落地到了爆发前夕。

然而,人们期待中的爆发却迟迟未能到来,一切犹如一场海市蜃楼。

纵观整个AI行业,如今在算力、算法层面已达到阶段性成熟,但是在决定AI能力最基本的数据领域,却鲜有企业攀越高峰,这就造成上层应用与底层基座的严重失衡。

俗话说:根基不牢,地动山摇。

缺乏牢固的根基,再华丽的上层建筑也终究逃脱不了坍塌的命运,这也是扼住AI应用咽喉的症结所在。

根据中国信息通信研究院发布的《2018年人工智能发展白皮书》显示,在数据层面,主要存在流通不畅、数据质量良莠不齐和关键数据集缺失等问题。

当大部分AI企业在应用层面激战正酣,支撑AI技术的算法就像新生儿一样稚嫩,需要数以百万计有标注的高质量数据来教它们“分辨”。

比如,要想让自动驾驶汽车算法学会识别路标,或者区分孩子和动物,人们必须采集所有可能遇到的所有道路场景,并对其中的物体进行“标签化”的标注。

对于深度学习算法而言,没有标注的数据,就没有AI算法模型。而模型迭代和调整,则需要更多的精准数据。越是准确的算法,就越依赖于大量高质量的标注数据。

Google技术大牛Jeff Dean曾在公开课上展示过海量数据的训练结果,神经网络算法中准确率和数据规模及质量持续成正比。

而业界也达成了普遍共识,即“大量高质数据+普通模型”往往会比“普通数据+高级模型”的效果要好。

想要更加契合AI商业落地需求、解决行业具体痛点,就需要大量经过标注处理的数据做算法训练支撑。

如果没有高质量的标注数据,即使是初期具备算法优势的公司,也会被后起具备数据优势的公司所碾压。

如美国加州科技大学校长秦志刚教授所说:“数据标注是AI产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。”

可以说,数据标注的质和量,将决定AI落地的最终效果。

两会聚焦新基建,高质量数据成为AI发展的幕后“推手”

场景化的数据标注服务,成为新基建下AI产业化的“催化剂”

从整个数据标注行业看,过去这一行业曾长期处于粗放的发展模式,数据粗制、混乱、复用的情况屡见不鲜。

但随着AI与各个产业结合得愈加紧密,AI商业化程度进入新的高度,数据小作坊的模式也已不适用于AI产业化落地的数据需求。

在这其中,定制化、场景化的数据服务更是成为AI商业化的关键,这意味着必须有能力超群的企业站出来,重新定义数据标注行业的规则

目前,数据标注行业的企业机构主要分为三类:第一类是AI公司内部的标注部门,第二类是数据标注众包平台,第三类是以场景化数据采集和标注见长的公司。

第一种以金融、安防等领域企业为代表,大量数据标注任务由公司内部完成。

第二种是众包平台,以亚马逊众包平台Mechanical Turk为代表,基本按照“需求公司——众包平台——多个互联网用户”的模式完成。

第三种是以云测数据为代表的,专门从事定制化数据采集和标注的企业。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • “心理大数据+AI智能”,连信科技与杭师大共同组建人工智能研发合作基地

    “心理大数据+AI智能”,连信科技与杭师大共同组建

  • 对更多互联网数据的需求推动了中国的能源使用

    对更多互联网数据的需求推动了中国的能源使用

  • 泉州热电开设专题党课学习两会精神

    泉州热电开设专题党课学习两会精神

  • 链飞科技推出「链飞健康码」,保障防疫期间数据隐私安全

    链飞科技推出「链飞健康码」,保障防疫期间数据隐

网友点评

关注微信
手机网站
关于我们