郑雯回忆起几个月前的一个下午,她在数据标注的工作中只赚了2毛钱。作为一名毕业于湖南专科学校的数据标注师,她的工作主要是为原始数据添加标签。
然而,大模型对数据质量的要求极高,那天她处理的一张图片经过了8次修改才最终通过,花费了整整一个小时。这样算来,她在这一小时的工作中仅获得了2毛钱,而在正常情况下,她可以赚到12块,标注600个框。
这一收入水平几乎是所有数据标注从业者的共识。他们的月薪普遍不足5000元,像蚂蚁般默默为大模型构建基础,而另一端,则是希望通过这些数据超越Chat GPT 4的互联网大厂。
数据标注的工资采用计件制,职场竞争相对较小。唯一的困扰是这份工作过于枯燥,使得大部分人很难坚持超过3个月。几乎所有人都对Tech星球表示,最好不要尝试这份工作。
然而,他们并不知道,很快他们中的许多人可能会失去这份单调的工作,因为AI即将取代这些简单的数据标注任务。
林双在2017年获得了一笔“快钱”:短短15天内赚了6000多元。对于大专毕业的她来说,这笔收入非常可观。那时,大家对AI的期望极高,投资机构普遍相信这一领域将会产生十亿、百亿甚至千亿规模的企业。
所有AI技术的背后,都是算法、算力和数据的竞争。庞大的数据支撑着技术的优劣,程序员们在一线城市的办公室中通过代码不断优化算法,而大专生和宝妈们则在三四线城市处理大量的数据。
ChatGPT也不例外。一位百度文心一言项目组的员工表示,大模型本身并没有新技术或高技术壁垒,关键在于算力和参数的壁垒。
如今的数据标注员与以前并无太大区别,唯一的变化可能是办公环境更加舒适,以及对标注质量的要求提高。一位数据标注从业者向Tech星球介绍,刚入行时通常会组建一个10人左右的团队,其中一人负责质检,若标注不合格则需重做。数据质量直接影响大模型的效果。
数据从业者们并不关心AI技术的新发展,他们更关注的是收入,因为工资是按件计算的。
拉框是数据标注中常见的操作,标注员需按照要求为图片中的物体,如车辆和红绿灯,画框。拉框分为2D和3D,后者的单价更高。
但这种热度并未持久,随着越来越多的人涌入行业,以及AI整体发展遇挫,单个图片的标注费用逐渐降低。林双表示,现在最低的单价仅为4分钱。
“在拉框方面,行业平均单价大约为0.15元,但具体还要看项目。如果能接到单子,最低要求通常是100个入职员工,规模较大,3D框的单价可能达到3毛钱,不过5毛钱的情况非常少。”
如果从业者具备医疗或金融领域的专业知识,单价可能会更高。例如,某些医疗大模型要求标注员具有临床专业背景和相关从业经验。
大多数从业者的收入都在5000元左右,少数幸运者的收入更高。杨硕曾在四川经营服装店,但疫情让他的生意受挫,今年转型做数据标注,现在每月收入达8000元。
阿里、腾讯、字节等互联网大厂,以及上汽、领克等车企是数据标注业务的源头。数据标注公司需要具备一定规模,才能以最优价格从源头获取订单。
一位数据标注公司员工表示,他们直接与大厂合作,但大厂要求有500人,因此会通过加盟或设立子公司来达到人员要求。
加盟适合初入行的人组建工作室,费用在2.5万到3万之间。若成立子公司,需缴纳5万,且只能在一个区域内独家经营。他们承诺三年内保证充足订单,并提供技术培训,这些工作室和子公司共同组成一个大型工会。
上述数据标注公司员工称,大模型的火热再次将数据标注行业推向高潮,几乎每天都有新公司前来拜访。
然而,经营一家数据标注公司并不容易。公司告诉你,前1到2个月较为艰难,因为员工需要适应期,前期只需5-8个人即可,40多岁的阿姨也能胜任。
稳定性是数据标注公司或工作室最重要的因素。Tech星球接触的大多数标注员工因工作枯燥,在3个月内迅速离职。新员工未必能立即上岗,人员流动性高导致数据标注的质量和周期不够稳定。
通过肯尼亚工人们的共同努力,OpenAI的语言对话大模型能力逐渐凸显。这些被称为数据民工的普通人支撑着AI的梦想,但不久后,他们的工作可能会被自己所参与创造的新产品取代。
在国外,OpenAI前员工于2021年成立的Anthropic今年融资达51.5亿美元,是过去两年融资总额的7倍多。这家公司提供了一种新方法,可以在较少人工参与的情况下训练模型。
今年,AI初创公司Refuel推出的开源工具Autolabel可使用主流大模型对数据集进行标注。测试结果显示,Autolabel的标注效率提高了100倍,成本仅为人工的1/7。
在国内,视智未来等公司也在开发标注大模型。他们在采访中表示,某些项目已经使用GPT进行交付,准确率达80%以上,接近人工水平。
几乎所有经历过数据标注的人员都向Tech星球表示,数据标注是一项门槛极低的工作,只需熟练使用电脑即可。
但如果简单的标注工作可由AI完成,那么人工参与的将是更高难度的数据筛选和标准工作,行业门槛将逐步提高,尤其在ChatGPT等大语言模型的影响下。
作为对比,早在ChatGPT崛起前,OpenAI就组建了十几位博士生进行标注。而百度在海口的数据标注基地拥有数百名专职大模型数据标注师,标注师的本科率高达100%。
这些大语言模型的特点是,标注员需具备一定知识和逻辑分析能力。根据《财经十一人》报道,标注师需判断问题类型,并对5个回答进行打分和排序,分数范围为0-5分,若分数低于3分,还需说明具体原因。
数据标注的另一个热门领域是自动驾驶。德勤报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%,预计到2027年这一比例将升至52%。相较于大语言模型,自动驾驶领域的模型对学历要求相对宽松。
标注员是人类从移动互联网时代迈向人工智能时代的基石。Tech星球接触的大部分从业者对AI将带来的改变并不清楚,也不明白他们为AI发展所做的贡献。他们只是互联网时代的新一代螺丝钉,随时可能被替代。
