数据标注员:时代的一粒沙,落到每个人身上都是一座山丨曼孚科技

​深夜11点,赵明在提交最后一个数据包后,终于长舒了一口气。

作为一名普通的数据标注员,这是他一周以来第一次早于午夜12前点下班。

十几天以前,他所在的团队接到了一个“大项目”:在发了无数封邮件、打了无数次电话后,某甲方终于答应分拨给他们团队一个新任务。

时至今日,赵明依然清晰地记得当时老板脸上那掩饰不住的喜悦表情以及激动的呐喊声。毕竟,他所在的这个小团队已经有半个月没有开工了,这是他们重振旗鼓的一个好机会。

然而,这份喜悦却并没有维持多久,当大家看到任务需求详情后,所有人都沉默了。

这次争取得到的任务是一份图像语义分割类的项目,相似的项目赵明所在的团队不是没有做过,但这次的数据场景要复杂的多,而且最重要的一点是,甲方更换了标注平台,这意味着他们要额外腾出一定时间去学习使用新平台,项目周期被变相压缩了。

从风险管理的角度考量,接下这个项目盈利的概率微乎其微,但是老板最终还是拍板决定尝试一下。对此,团队内很多人表示有些不理解,不过赵明却很清楚背后的原因。

对于他所在的这个只有十几个人的小团队而言,一个月不接任务即意味着团队解散。这个项目虽然难度很高,但已经是他们在短时间内可以拿到的最合适项目了,纵然有风险与难度,但无论如何也要努力搏一下,于是就出现了文章开头的一幕。

而赵明团队所正在经历的场景,其实也是当下很多数据标注小团队内的真实写照。

01

赵明第一次接触到“数据标注”这个新鲜词还是在2018年,彼时也正是国内数据标注行业起步兴盛的阶段。

“初中毕业后,我就一直在外打工,长时间在外漂泊让我感到毫无归属感,于是2018年我回到老家,想在老家物色一份新工作,也正是在那段时间,我接触到了数据标注这个行业。”

赵明回忆起刚接触数据标注行业时的场景:“那个时候,老家已经有很多人从事这个行业了,大的团队上百人,小的团队只有几个人。

我当时还很疑惑,心想人工智能这么高端的行业我们普通人也能做吗,后来经过别人介绍才发现,数据标注这份职业门槛较低,属于重复性劳动,经过简单的培训就可以上手,于是我就进入了这个行业中。”

“刚开始时候,项目都比较简单,以图像类的项目为主,描点拉框的类型居多。虽然我们这里大大小小的团队很多,但是每个团队都能拿到一定量的任务,作为标注员日常收入也较为可观,虽然不如外出打工赚得多,但胜在稳定离家近。”

“不过,这种好日子很快就到头了。2019年开始,项目来源开始不稳定起来,而且任务的类型、场景也越来越复杂。

传统的拉框、描点等简单类项目利润空间越来越少,复杂标注类型比如全景语义分割、3D点云标注类型开始多起来,但由于这类标注类型对我们标注员的能力要求比较高,学习掌握周期也很久,所以很多团队都解散了,我们标注员的收入也开始不稳定起来,感觉行业进入了一个瓶颈期。”

02

赵明的经历其实也正是近些年数据标注行业发展的一个缩影。

作为人工智能行业的基础,数据与算法、算力一起共同构成了人工智能最重要的三要素。

由于现阶段提升AI认知世界能力的最有效途径仍然是监督学习,而监督学习下的深度学习算法训练需要海量已标注好的数据集,所以为机器学习算法训练提供数据标注服务就成为近年人工智能热潮中必不可少的一环。

行业发展早期,由于众多AI企业对算法的训练更多是以实验为主,并无具体的应用要求,所以彼时对标注数据集的质量要求较低,这在无形中催生了大量中小型数据标注团队的诞生。

此时打在数据标注行业身上的标签为“劳动密集型”、“门槛低”、“鱼龙混杂”。

但人工智能基础数据服务本质上却并非人们想象中的数据作坊,其发展依赖于基于技术的数据处理平台和工具,以及科学高效的管理。

随着人工智能从业企业的算法模型经过多年的打磨,基本达到阶段性成熟,数据标注行业也在悄然发生着改变。

AI企业对训练数据集的质量要求不断提高,并且当产业落地成为主旋律时,需求方对垂直场景的定制化数据标注需求成为主流,各类复杂场景下的标注类型提升了行业技术门槛,众多小型AI基础数据服务供应商无论在数据质量还是在服务能力上均无法满足要求,摆在其面前的选择要么是被淘汰,要么是依附大平台,亦或者是走最难的一条路——独立研发。

“像我们这种小团队,没有技术研发实力,一般是甲方提供什么标注平台,我们就使用什么平台。一旦甲方更换,我们可能就需要重新学习新平台的使用,这就会压缩本就不富裕的项目周期,造成项目交付拖延。

此外,这个行业内的人员流动也极为频繁,短短几个月内,一个团队内的成员可能就会完全换成新的一批人,管理和培训就需要重新再走一遍。”

“我们也想尝试稳定住团队,同时提升团队成员的标注能力,以接一些利润率高一些、技术难度大一些的项目,比如自动驾驶3D点云类项目。

但是一来我们能接触到这些项目的机会很有限,二来市面上也没有公开的提供点云标注能力的工具供我们训练,最后的结果就是被行业所淘汰,像我们这种行业底层的数据标注员,可供选择的机会并不多。”

时代的一粒沙,落到每个人身上都是一座山。

03

“虽然中小型数据供应商的体量仍然可观,但随着业务门槛提升、客户需求多样化、价格战中利润被压缩等情况成为常态,越来越多的中小型数据供应商在苦恼生存问题,加之业务断档期人员成本的压力,该群体在未来1-2年内将迎来一阵倒闭潮。”

这是艾瑞咨询在《2020年中国AI基础数据服务行业研究报告》中,对赵明所在的这类中小规模团队给出的分析内容。

与中小团队的“惨状”相对应,则是行业快速扩张的市场需求与经营规模不断扩大的品牌数据服务商。

“通过数据显示,2019年中小型数据供应商份额比预期值缩小了20.8%,而这部分份额按7:3的比例,向品牌数据服务商和需求方自建团队释放,作为行业的头部阵营品牌数据服务商在这一阶段受益最多,不仅营收方面得以增长,也逐步稳固了自身领头羊的地位。

而根据增量市场的特征,品牌数据服务商在品牌效益、团队建设、资质、服务意识、业务能力等方面均有优势,在未来增量市场成为主要拉动力的竞争阶段将占有更大的主动性,从这两方面看,未来品牌数据服务商阵营将替代中小型供应商阵营,占有市场的主要份额。”

这是艾瑞咨询对于行业未来的一种预测。在经历了初期野蛮生长阶段后,数据标注行业迎来了一段相对残酷的洗牌期。

“2020年开始,我们这里数据标注团队的数量就开始明显减少了,我也陆陆续续换了几家团队,不过都不稳定。对于我们这种没有技术研发实力与商务拓展能力的团队来说,以后的日子只怕是会越来越不好过。”

在谈及自身未来发展时,赵明说道:“从我自身角度而言,我想继续在这个行业中做下去。现在我们标注员内部的竞争也越来越激烈了,只有提升自身能力,尽可能掌握更多标注技能,或许才是最正确的选择。”

赵明顿了顿,继续说道:“不过很少有人愿意教我们,行业内也没有养成接受职业培训的习惯。”

04

数据标注行业里有着这样的一段话:“有多少智能,就有多少人工”。这句话在某种程度上道出了人工智能的本质。

作为数据标注行业重要的“底层架构师”,数据标注员为人工智能行业的发展贡献了重要的数据能源。但从一门职业的角度考量,数据标注员的社会重要性以及职业发展却长久被人忽略。

正如赵明所说的一样:“很少有人愿意教我们,行业内也没有养成接受职业培训的习惯。”

不过,这种状况正在发生改变。

2020年2月,数据标注员被正式定义为“人工智能训练师”并纳入国家职业分类目录。

人工智能训练师新职业隶属于软件和信息技术服务人员小类,主要工作任务包括:标注和加工原始数据、分析提炼专业领域特征,训练和评测人工智能产品相关的算法、功能和性能,设计交互流程和应用解决方案,监控分析管理产品应用数据、调整优化参数配置等。

国家政策层面,也多次强调人工智能领域人才培养的重要性,无论是国务院印发的《新一代人工智能发展规划》,还是国家教育主管部门制定的《高等学校人工智能创新行动计划》,内容中均提及要大力加强人工智能人才培训,满足我国人工智能发展带来的高技能、高质量专业人才需求。

而从行业内部角度考量,加强数据标注员能力素质培养,提升其就业竞争力也有着重要的现实意义。

2020年4月人力资源与社会保障部发布的《新职业——人工智能工程技术人员就业景气现状分析报告》中指出,近三成期望在人工智能领域大展身手的求职者与雇主所要求的各项指标相距甚远,主要原因是求职者对人工智能了解不足,缺乏实际AI技能与实践经验。

由于合格的人工智能人才培养需要的时间远高于于一般IT人才,因此不断加强人工智能教育,补齐人才短板,是我国高等教育的当务之急。

《报告》同时指出,目前我国人工智能人才缺口超过500万,供需比例严重失衡。而与之相对应,则是行业较低的薪资水平。相关统计数据显示,目前从事简单类数据标注工作的员工,平均时薪只有十几元,而高薪酬标注项目则由于自身技能水平不达标等原因而无法参与。

这既是数据标注员自身的损失,同时也是行业的损失,高素质人才的缺口已在无形中成为阻碍行业发展的头等因素。

所以,加强数据标注行业内的职业技能培训,建立起通用的行业人才培训标准,真正意义上填补员工职业发展与企业用人的需求,是推动数据标注行业有序健康发展的重中之重。

“时代的一粒沙,落到每个人身上都是一座山,但是我们也有选择的机会不是,不断提升自己,主动适应行业的发展,才是永保竞争力的关键。”

(本文中出现的人物为化名)

你可能感兴趣的