聚焦新基建，高质量数据成为AI发展的幕后“推手”

为什么全国两会上，科技大佬都在关心人工智能？

作为经济发展的底座，基础设施建设决定了经济发展的可能性和未来边界。
过去40年，以“铁公基”为代表的老基建支撑了中国经济高速发展，成就了中国经济“快”的奇迹。

未来40年，以5G、AI、物联网、智能计算等新一代技术为驱动的新基建，将肩负起中国经济由“快”向“好”的重担。

在刚刚结束的全国“两会”中，“新基建”首次进入政府工作报告,成为会议期间被代表提及最多的高频词汇。

在新基建分支中，又以AI最为引人瞩目。百度、阿里、腾讯、搜狗、科大讯飞等一众中国科技巨头CEO，纷纷提交与AI相关的提案。

在“新基建”浪潮下，AI场景规模化落地与应用的速度不断被刷新，但随着AI应用由浅层向深层推进，不免出现根基不牢、“虚火”旺盛的症结，导致其在商业化应用方面仍然裹足不前。

是什么让这样一项拥有巨大潜力的技术面临窘境？又是什么扼住了AI应用的“咽喉”？这一切都指向了一个看似微不足道，却可以决定AI前途命运的基本要素——AI数据。

上层建筑与底层基座“失衡” 数据扼住AI应用的“咽喉”

如果想要聚沙成塔，那么塔基的坚实程度将决定塔顶的高度。

当AlphaGo战胜李世石，AI领域遂掀起热潮，ImageNet数据集、GPU算力支持和深度学习算法“三驾马车”整装待发，AI商业落地到了爆发前夕。

然而，人们期待中的爆发却迟迟未能到来，一切犹如一场海市蜃楼。

纵观整个AI行业，如今在算力、算法层面已达到阶段性成熟，但是在决定AI能力最基本的数据领域，却鲜有企业攀越高峰，这就造成上层应用与底层基座的严重失衡。

俗话说：根基不牢，地动山摇。

缺乏牢固的根基，再华丽的上层建筑也终究逃脱不了坍塌的命运，这也是扼住AI应用咽喉的症结所在。

根据中国信息通信研究院发布的《2018年人工智能发展白皮书》显示，在数据层面，主要存在流通不畅、数据质量良莠不齐和关键数据集缺失等问题。

当大部分AI企业在应用层面激战正酣，支撑AI技术的算法就像新生儿一样稚嫩，需要数以百万计有标注的高质量数据来教它们“分辨”。

比如，要想让自动驾驶汽车算法学会识别路标，或者区分孩子和动物，人们必须采集所有可能遇到的所有道路场景，并对其中的物体进行“标签化”的标注。

对于深度学习算法而言，没有标注的数据，就没有AI算法模型。而模型迭代和调整，则需要更多的精准数据。越是准确的算法，就越依赖于大量高质量的标注数据。

Google技术大牛Jeff Dean曾在公开课上展示过海量数据的训练结果，神经网络算法中准确率和数据规模及质量持续成正比。

而业界也达成了普遍共识，即“大量高质数据+普通模型”往往会比“普通数据+高级模型”的效果要好。

想要更加契合AI商业落地需求、解决行业具体痛点，就需要大量经过标注处理的数据做算法训练支撑。

如果没有高质量的标注数据，即使是初期具备算法优势的公司，也会被后起具备数据优势的公司所碾压。

如美国加州科技大学校长秦志刚教授所说：“数据标注是AI产业的基础，是机器感知现实世界的起点。从某种程度上来说，没有经过标注的数据就是无用数据。”

可以说，数据标注的质和量，将决定AI落地的最终效果。

场景化的数据标注服务成为新基建下AI产业化的“催化剂”

从整个数据标注行业看，过去这一行业曾长期处于粗放的发展模式，数据粗制、混乱、复用的情况屡见不鲜。

但随着AI与各个产业结合得愈加紧密，AI商业化程度进入新的高度，数据小作坊的模式也已不适用于AI产业化落地的数据需求。

在这其中，定制化、场景化的数据服务更是成为AI商业化的关键，这意味着必须有能力超群的企业站出来，重新定义数据标注行业的规则。

目前，数据标注行业的企业机构主要分为三类：第一类是AI公司内部的标注部门，第二类是数据标注众包平台，第三类是以场景化数据采集和标注见长的公司。

第一种以金融、安防等领域企业为代表，大量数据标注任务由公司内部完成。

第二种是众包平台，以亚马逊众包平台Mechanical Turk为代表，基本按照“需求公司——众包平台——多个互联网用户”的模式完成。

第三种是以云测数据为代表的，专门从事定制化数据采集和标注的企业。

这类企业具备非常完整的数据服务链条，能够满足于定制化、场景化、高质量的数据服务需求，以精细化的数据采集和标注标准，彻底撕掉了传统数据标注行业的“草莽”标签。

以云测数据为例，通过自建数据场景实验室和数据标注基地，实现了从数据采集、数据清洗，数据标注、标注平台私有化部署、到标注驻场服务的高质量、场景化的一站式数据采集标注服务。

针对AI每个细分领域的特点，云测数据都配备了专业人员进行AI数据服务，针对企业遇到的数据需求提供最优方案。

项目前期，云测数据项目经理会帮助客户梳理更贴合实际情况的需求，之后再逐渐引入标注和质检人员，通过每天的沟通和培训，以确保每个人能够理解并掌握标注有关技术，试标验收合格后，再进行大批量的规模性标注。

为了确保标注人员能够做出正确的判断，云测数据还配备专门的培训师，对每个行业细分领域的专业知识进行培训，以及标注技能和业务流程的培训。

在数据标注完成后，云测数据还会进行质检和抽检，对于准确率达不到要求的数据会打回重新标注，从而确保数据的高质量输出。

在智慧城市领域，云测数据可以提供全类型的数据标注与定制化数据采集，如：人脸打点、人体拉框、目标跟踪、语义分割标注，异常行为、步态、Re-ID、路面物体采集等。

在自动驾驶领域，云测数据提供多维度、多模态的数据服务，如：在车内场景中涉及到疲劳监测、动作识别、场景光线等一切场景，以及在车外环境中更复杂的障碍物、道路、天气、地点、车道线、路标，以及一些长尾场景。

同时，可实现连续帧标注、2D图像框选、图像分割、3D点云标注、2D和3D融合标注等众多功能。

在AI技术中重要分支的自然语言处理(NLP)领域，云测数据已经为许多商业化应用提供高质量的NLP数据支撑，如：机器翻译、舆情监测、问答机器人、客服机器人、智能音箱、智能问诊等。

以智能客服应用为例，云测数据为单个场景提供的NLP数据的意图标注，就分为10-20个大类，上百个子类，根据业务需求可能还会有进一步的标注细分。

同时，云测数据除了对NLP数据进行对话意图、领域、槽位等进行判断和标注，还可以进行多角度的泛化。

目前，云测数据业务范围已经覆盖智能驾驶、智慧城市、智能家居、智慧金融、新零售等多个领域，成为众多AI企业和各个行业龙头企业的合作伙伴。

正如云测数据总经理贾宇航所说，“通过使用定制场景化数据服务，企业可以将自己算法的识别精度推到一个新的高度，进而落地成为产品被用户使用。”

从野蛮生长走向精耕细作 AI数据标注手握新基建未来的“密钥”

AI领域流行一种说法：如果AI是一辆车，那么数据是燃料，算力是车轮，算法则是发动机。也就是说，没有优质的数据，AI只能是空中楼阁。

根据《2019年中国人工智能基础数据服务行业白皮书》统计，早在2018年，高质量的数据资源定制服务就占中国AI基础数据服务的86%，可见优质数据市场之潜力巨大。

事实上，AI对于标注数据质量的新要求，也是数据标注行业未来发展方向的一个重要缩影。越来越多的AI企业意识到，高质量的数据采集和标注是影响人工智能项目落地的关键。

当新基建的大潮席卷而来，作为AI新基建的核心生产要素，数据标注如今迎来了品质化、精细化、场景化的全新发展阶段。

以云测数据为代表的数据标注行业领军企业，正在通过提升AI数据采集和标注的质量、效率和安全，驱动AI成为推动社会前进的新引擎。

例如，在AI数据的质量和效率方面，云测数据在软、硬件的投入上下足了功夫。

一方面，云测数据在华北、华东、华南搭建了专业的场景实验室和数据标注基地，进行相应的AI数据交付。同时，自研出专业的、拥有自主知识产权的数据标注工具，提升标注效率。

另一方面，云测数据设计了从创建任务、分配任务、标注流转、到质检/抽检环节和最后的验收等更完善的管理流程，每个环节有相应专业人员来把控数据标注的质量和时间节点，进行上下游工作环节衔接，得以在保证数据交付质量的前提下，真正提高生产效率。

在AI数据的安全方面，云测数据也始终坚守着AI数据安全隐私的红线。

对于AI行业而言，如何在合理使用数据的前提下保障用户隐私、杜绝数据滥用行为一直都是每个AI企业必须要面对的课题。

作为一家为独立第三方身份的数据服务商，云测数据在数据交付客户后清毁数据不留底，绝不进行二次使用。

同时，云测数据与所有数据采集的用户都签订数据授权协议，确保AI企业用于训练的数据合法合规。

此外，还建立一整套相关的数据保障机制，如从防火墙的设置、内部信息系统的管护、乃至标准化的流程作业体系等，充分保障数据安全。

舍恩伯格在《大数据时代》中预言：“数据可以量化一切，文字变成了数据，方位变成了数据，沟通变成了数据，直到万物的数据化。”

以数据价值为支撑的数字经济正成为推动社会前进的主要模式，由AI等创新技术驱动的数字化转型成为新基建的核心。

而驱动这趟科技列车前行的却是一个个看似微不足道的数据，这些被标注的数据就像娟娟细流，最终将汇聚在AI新基建的大江大河之中，幻化成澎湃的时代波涛奔涌向前。

为您推荐

“神仙打架”的容器背后，竟是混合云的赛跑

野蛮增长时代远去，增强分析开启大数据未来

阿里云首次年度盈利，国内云厂商何时迎来集体回报期？

一波未平一波又起？AI大模型再出邪恶攻击工具

推进工业新质生产力，机器人有望成为AI下一个“新引擎”？

5G时代加速到来，边缘计算何时取代“核心”计算？