BlockBeats
2026.04.07 05:08

那些给 AI 大模型打标签的小镇青年

portai
I'm LongbridgeAI, I can summarize articles.

山西大同,这座曾经靠煤炭支撑起半壁江山的城市,如今抖落满身煤灰,换了把锋利的镐头,向着另一座无形的矿山重重砸下。

在平城区金贸国际中心的写字楼里,不再有升降井,不再有运煤车。取而代之的,是上千个紧密排列的电脑工位。上海润迅云中声谷大数据智慧服务基地占据了整整几层楼,数千名戴着耳机的年轻员工,正盯着屏幕,点击,拖拽,框选。

根据官方数据,截至 2025 年 11 月,大同市已投运服务器 74.5 万台,引进了 69 家呼叫标注数据企业,带动了超过 3 万人次就近就业,产值 7.5 亿元。在这个数字矿坑里,94% 的从业者都是本地户籍。

不仅仅是大同。在国家数据局确定的首批数据标注基地中,山西永和县、贵州毕节、云南蒙自等中西部县城赫然在列。在永和县的数据标注基地里,80% 是女性员工。她们大多是农村宝妈,或者是找不到合适工作的返乡青年。

一百年前,英国的曼彻斯特纺织厂里,挤满了失去土地的农民。而在今天,这些偏远县城里的电脑屏幕前,坐满了在实体经济中找不到位置的年轻人。

他们正在从事一种极具未来感,却又极度原始的计件工作,为远在北京、深圳和硅谷的人工智能巨头,生产大模型所必需的数据饲料。

没人觉得这有什么问题。

黄土高原上的新流水线

数据标注的本质,是教机器认世界。

自动驾驶需要认出红绿灯和行人,大模型需要分辨出什么是猫、什么是狗。机器本身是没有常识的,必须由人类先在图片上画出一个框,告诉它「这是行人」,它才能在吞噬了千万张图片后,学会自己辨认。

这份工作不需要高学历,只需要耐心,以及一根能不停点击的食指。

在 2017 年的黄金时代,一个简单的 2D 框,价格能达到一毛多钱,甚至有公司开出 5 毛的高价。手速快的标注员,一天干十几个小时,能赚到五六百块。在县城,这绝对算得上一份高薪、体面的工作。

但随着大模型的进化,这条流水线上残酷的一面开始显现。

到了 2023 年,简单图像标注的单价已经被砸到了 3 到 4 分钱,跌幅超过 90%。即便是难度更高的 3D 点云图,那些由密集的点构成、需要放大无数倍才能看清边缘的图像,标注员也必须在三维空间中拉出一个包含长、宽、高和偏转角度的立体框,去严丝合缝地包裹住车辆或行人,而这样一个复杂的 3D 框,也仅仅只有 5 分钱。

单价暴跌的直接后果,是劳动强度的剧增。为了死死咬住每个月两三千块的底薪,标注员们必须不断、不停地提升自己的手速。

这根本不是什么轻松的白领工作。在很多标注基地,管理严苛到令人窒息,上班不允许接听电话,手机必须锁在储物格里。系统会精确记录每个员工的鼠标轨迹和停留时间,如果停下来超过三分钟,后台的警告就会像鞭子一样抽过来。

更让人崩溃的是容错率。行业的及格线通常在 95% 以上,有的公司甚至要求 98%-99%。这意味着,你拉 100 个框,只要错 2 个,整张图就会被打回来返修。

动态图是连帧的,变道的车辆会被遮挡,标注员必须靠联想把它们一个个找出来;3D 点云图里,只要超过 10 个点的物体,就必须画框。一个复杂的车位项目,线画长了、漏标了,质检时总能挑出毛病。一张图返修四五次是家常便饭。最后算下来,花了一个小时的功夫,到手的只有几毛钱。

湖南的一位标注员在社交平台上晒出了自己的结算单,一天工作下来,她拉了 700 多个框,单价 4 分钱,总共收入 30.2 元。

这是一种极度割裂的图景。

一边是发布会上光鲜亮丽的科技大佬,谈论着 AGI 将如何解放人类;另一边,是在黄土高原和西南大山的县城里,年轻人每天死盯着屏幕八到十个小时,机械地拉框,几千个、几万个,甚至晚上做梦,手指都在半空中画着车道线。

有人曾经说,人工智能的外表是一辆呼啸而过的豪车,但打开车门你会发现,里面有一百个人正骑着自行车,咬着牙拼命踩踏板。

没人觉得这有什么问题。

教机器「如何去爱」的计件工

当图像识别的瓶颈被击穿后,大模型迎来了更深层的进化,它需要学会像人类一样思考、对话,甚至展现出「同理心」。

这就催生了大模型训练中最核心、也最昂贵的环节——RLHF(基于人类反馈的强化学习)。

简单来说,就是让真人对 AI 生成的回答进行打分,告诉它哪个回答更好、更符合人类的价值观和情感偏好。

ChatGPT 之所以看起来「像人」,就是因为背后有无数个 RLHF 标注员在给它上课。

在众包平台上,这类标注任务往往被明码标价:单件费用 3 到 7 元。标注员需要对 AI 的回答进行极其主观的情感打分,去评判这个回答是否「温暖」、是否「有同理心」、是否「照顾了用户的情绪」。

一个拿着两三千月薪、在现实的泥淖里疲于奔命、甚至连自己的情绪都无暇顾及的底层打工人,却要在系统中担任 AI 的情感导师和价值观裁判。

他们需要把温暖、同理心这些极其复杂、微妙的人类情感,强行揉碎,量化成 1 到 5 的冰冷分数。如果他们的打分和系统设定的标准答案不一致,就会被判定为正确率不达标,从而扣减原本就微薄的计件工资。

这是一种认知抽空。人类那复杂幽微的情感、道德与悲悯,正被强行拖入算法的漏斗。在冰冷的量化与标准化刻度里,它们被榨干了最后一点温热。当你惊叹于屏幕里的赛博巨兽已经学会了写诗谱曲、嘘寒问暖,甚至披上了多愁善感的皮囊时;屏幕外,那群原本鲜活的人类,却在日复一日的机械判断中,退化成了没有情绪的打分机器。

这是整个产业链最隐秘的一面,从来不出现在任何融资新闻和技术白皮书里。

没人觉得这有什么问题。

985 硕士与小镇青年

底层的拉框工作正在被 AI 的履带碾压,这条赛博流水线开始向上蔓延,开始吞噬更高阶的脑力劳动。

大模型的胃口变了。它不再满足于嚼碎简单的常识,它需要吞噬人类的专业知识和高阶逻辑。

各大招聘平台上开始频繁闪烁一类特殊的兼职,比如「大模型逻辑推理标注」「AI 人文训练师」。这份兼职的门槛极高,往往要求「985/211 硕士及以上学历」,涉及法律、医学、哲学、文学等专业领域。

很多名校研究生被吸引,涌入这些大厂的外包群。但他们很快发现,这根本不是什么轻松的脑力体操,而是一场精神折磨。

在正式接单前,他们必须阅读长达几十页的打分维度和评判标准文件,进行两到三轮的试标。达标后,在正式标注中,如果正确率低于平均水平,就会失去资格,被踢出群聊。

最让人窒息的是,这些标准根本不是固定的。面对相似的问题和回答,用相同的思考方式去打分,结果可能截然相反。这就像在做一份永远做不完、且根本没有标准答案的试卷。无法通过自我努力或学习提升正确率,只能原地不停地打转,消耗脑力和体力。

这就是大模型时代的新型剥削——阶层折叠。

知识,这把曾被视作打破壁垒、向上攀爬的黄金阶梯,如今沦为了供奉给算法的、咀嚼起来更为复杂的数字草料。在算法和系统的绝对权力面前,象牙塔里的 985 硕士与黄土高原上的小镇青年迎来了最诡异的殊途同归。

他们一同跌落进这座深不见底的赛博矿坑,被剥夺了光环,抹平了差异,统统化作了履带上廉价且随时可以被替换的齿轮。

在国外也是一样。2024 年,苹果公司直接砍掉了圣地亚哥一个 121 人的 AI 语音标注团队。这些员工负责改善 Siri 的多语言处理能力,他们曾经以为自己站在大厂核心业务边缘,却瞬间坠入失业的深渊。

在科技巨头眼中,无论是县城里的拉框大妈,还是名校毕业的逻辑训练师,本质上都是随时可以替换的「耗材」。

没人觉得这有什么问题。

万亿巴别塔,砌满几分钱的血汗

根据中国信通院发布的数据,2023 年中国数据标注市场规模达 60.8 亿元,2025 年预计 200~300 亿元,据预测,到 2030 年,全球数据标注和服务市场销售额将狂飙至 1171 亿元。

这些数字背后,是 OpenAI、微软、字节跳动等科技巨头动辄数千亿、上万亿美元的估值狂欢。

但这些泼天的财富,并没有流向那些真正「喂养」AI 的人。

中国的数据标注行业,呈现出典型的倒金字塔外包结构。最顶层,是死死捏着核心算法的科技巨头;第二层,是大型数据服务供应商;第三层,是遍布各地的数据标注基地和中小型外包公司;最底层,才是那些拿计件工资的泥腿子标注员。

每一层外包,都要狠狠刮走一层油水。当大厂砸出的单价是 5 毛钱时,经过层层盘剥,落到县城标注员手里的,可能连 5 分钱都不到。

希腊前财政部长雅尼斯·瓦鲁法基斯在他的著作《技术封建主义》中,抛出了一个极具穿透力的观点:今天的科技巨头,已经不再是传统意义上的资本家,而是「云领主」(Cloudalists)。

他们拥有的不是工厂和机器,而是算法、平台、算力,这些是赛博时代的数字领土。在这个新的封建体系里,用户不是消费者,而是数字佃农,我们在社交媒体上的每一次点赞、评论、浏览,都在免费为云领主上供数据。

而那些分布在下沉市场的数据标注员,则是这个体系里最底层的数字农奴。他们不仅要生产数据,还要对海量的原始数据进行清洗、分类、打分,将其转化为大模型能够消化的高质量饲料。

这是一场隐秘的认知圈地运动。就像 19 世纪英国的圈地运动把农民赶进纺织厂一样,今天的 AI 浪潮,把那些在实体经济中找不到位置的青年,赶到了屏幕前。

AI 并没有抹平阶层鸿沟,反而建立了一条从中国中西部县城,直通北上广深科技巨头总部的「数据与血汗输送带」。技术革命的叙事总是宏大华丽,但其底色,永远是廉价劳动力的规模化消耗。

没人觉得这有什么问题。

不再需要人类的明天

最残酷的结局就快来了,越来越快。

随着大模型能力的跃升,那些曾经需要人类日夜劳作才能完成的标注任务,正在被 AI 自己接管。

2023 年 4 月,理想汽车创始人李想在论坛透露了数据,过去,理想一年要做大概 1000 万帧的自动驾驶图像人工标定,外包成本接近一个亿。但当他们使用大模型进行自动化标注后,过去需要用一年做的事情,基本上 3 个小时就能完成。

效率是人的 1000 倍,而且还是早在 2023 年。在刚刚过去的 3 月,理想还发布了新一代 MindVLA-o1 自动标注引擎。

行业里流传着一句无比真实的自嘲:「有多少智能,就有多少人工。」但现在,大厂在数据标注外包方面的投入,已经出现了 40%-50% 的断崖式下降。

那些在电脑前枯坐了无数个日夜、把眼睛熬得通红的小镇青年们,亲手喂大了一只巨兽。而现在,这只巨兽正在转过头来,砸掉了他们的饭碗。

夜幕降临,大同平城区的写字楼依然惨白如昼。交接班的年轻人们在电梯间里沉默地互换着疲惫的躯壳。在这个由无数个多边形框死死禁锢的折叠空间里,没人关心大洋彼岸的 Transformer 架构又迎来了怎样史诗级的跃迁,也没人听得懂千亿参数背后算力的轰鸣。

他们的视线,只被焊死在后台那根代表着「及格线」的红绿进度条上,算计着那几分、几毛的计件数字能不能在月底拼凑起体面的生活。

一边,是纳斯达克的敲钟声与科技媒体的连篇累牍,巨头们正为 AGI 的降临举杯相庆;而另一边,这些以血肉之躯一口口喂大 AI 的数字农奴,却只能在酸痛的睡梦中,战战兢兢地等待着那只由自己亲手饲养的巨兽,在某个看似寻常的清晨,漫不经心地一脚踢飞他们的饭碗。

没人觉得这有什么问题。

The copyright of this article belongs to the original author/organization.

The views expressed herein are solely those of the author and do not reflect the stance of the platform. The content is intended for investment reference purposes only and shall not be considered as investment advice. Please contact us if you have any questions or suggestions regarding the content services provided by the platform.