那些给 AI 大模型打标签的小镇青年

山西大同，这座曾经靠煤炭支撑起半壁江山的城市，如今抖落满身煤灰，换了把锋利的镐头，向着另一座无形的矿山重重砸下。

在平城区金贸国际中心的写字楼里，不再有升降井，不再有运煤车。取而代之的，是上千个紧密排列的电脑工位。上海润迅云中声谷大数据智慧服务基地占据了整整几层楼，数千名戴着耳机的年轻员工，正盯着屏幕，点击，拖拽，框选。

根据官方数据，截至 2025 年 11 月，大同市已投运服务器 74.5 万台，引进了 69 家呼叫标注数据企业，带动了超过 3 万人次就近就业，产值 7.5 亿元。在这个数字矿坑里，94% 的从业者都是本地户籍。

不仅仅是大同。在国家数据局确定的首批数据标注基地中，山西永和县、贵州毕节、云南蒙自等中西部县城赫然在列。在永和县的数据标注基地里，80% 是女性员工。她们大多是农村宝妈，或者是找不到合适工作的返乡青年。

一百年前，英国的曼彻斯特纺织厂里，挤满了失去土地的农民。而在今天，这些偏远县城里的电脑屏幕前，坐满了在实体经济中找不到位置的年轻人。

他们正在从事一种极具未来感，却又极度原始的计件工作，为远在北京、深圳和硅谷的人工智能巨头，生产大模型所必需的数据饲料。

没人觉得这有什么问题。

黄土高原上的新流水线

数据标注的本质，是教机器认世界。

自动驾驶需要认出红绿灯和行人，大模型需要分辨出什么是猫、什么是狗。机器本身是没有常识的，必须由人类先在图片上画出一个框，告诉它「这是行人」，它才能在吞噬了千万张图片后，学会自己辨认。

这份工作不需要高学历，只需要耐心，以及一根能不停点击的食指。

在 2017 年的黄金时代，一个简单的 2D 框，价格能达到一毛多钱，甚至有公司开出 5 毛的高价。手速快的标注员，一天干十几个小时，能赚到五六百块。在县城，这绝对算得上一份高薪、体面的工作。

但随着大模型的进化，这条流水线上残酷的一面开始显现。

到了 2023 年，简单图像标注的单价已经被砸到了 3 到 4 分钱，跌幅超过 90%。即便是难度更高的 3D 点云图，那些由密集的点构成、需要放大无数倍才能看清边缘的图像，标注员也必须在三维空间中拉出一个包含长、宽、高和偏转角度的立体框，去严丝合缝地包裹住车辆或行人，而这样一个复杂的 3D 框，也仅仅只有 5 分钱。

单价暴跌的直接后果，是劳动强度的剧增。为了死死咬住每个月两三千块的底薪，标注员们必须不断、不停地提升自己的手速。

这根本不是什么轻松的白领工作。在很多标注基地，管理严苛到令人窒息，上班不允许接听电话，手机必须锁在储物格里。系统会精确记录每个员工的鼠标轨迹和停留时间，如果停下来超过三分钟，后台的警告就会像鞭子一样抽过来。

更让人崩溃的是容错率。行业的及格线通常在 95% 以上，有的公司甚至要求 98%-99%。这意味着，你拉 100 个框，只要错 2 个，整张图就会被打回来返修。

动态图是连帧的，变道的车辆会被遮挡，标注员必须靠联想把它们一个个找出来；3D 点云图里，只要超过 10 个点的物体，就必须画框。一个复杂的车位项目，线画长了、漏标了，质检时总能挑出毛病。一张图返修四五次是家常便饭。最后算下来，花了一个小时的功夫，到手的只有几毛钱。

湖南的一位标注员在社交平台上晒出了自己的结算单，一天工作下来，她拉了 700 多个框，单价 4 分钱，总共收入 30.2 元。

这是一种极度割裂的图景。

一边是发布会上光鲜亮丽的科技大佬，谈论着 AGI 将如何解放人类；另一边，是在黄土高原和西南大山的县城里，年轻人每天死盯着屏幕八到十个小时，机械地拉框，几千个、几万个，甚至晚上做梦，手指都在半空中画着车道线。

有人曾经说，人工智能的外表是一辆呼啸而过的豪车，但打开车门你会发现，里面有一百个人正骑着自行车，咬着牙拼命踩踏板。

没人觉得这有什么问题。

教机器「如何去爱」的计件工

当图像识别的瓶颈被击穿后，大模型迎来了更深层的进化，它需要学会像人类一样思考、对话，甚至展现出「同理心」。

这就催生了大模型训练中最核心、也最昂贵的环节——RLHF（基于人类反馈的强化学习）。

简单来说，就是让真人对 AI 生成的回答进行打分，告诉它哪个回答更好、更符合人类的价值观和情感偏好。

ChatGPT 之所以看起来「像人」，就是因为背后有无数个 RLHF 标注员在给它上课。

在众包平台上，这类标注任务往往被明码标价：单件费用 3 到 7 元。标注员需要对 AI 的回答进行极其主观的情感打分，去评判这个回答是否「温暖」、是否「有同理心」、是否「照顾了用户的情绪」。

一个拿着两三千月薪、在现实的泥淖里疲于奔命、甚至连自己的情绪都无暇顾及的底层打工人，却要在系统中担任 AI 的情感导师和价值观裁判。

他们需要把温暖、同理心这些极其复杂、微妙的人类情感，强行揉碎，量化成 1 到 5 的冰冷分数。如果他们的打分和系统设定的标准答案不一致，就会被判定为正确率不达标，从而扣减原本就微薄的计件工资。

这是一种认知抽空。人类那复杂幽微的情感、道德与悲悯，正被强行拖入算法的漏斗。在冰冷的量化与标准化刻度里，它们被榨干了最后一点温热。当你惊叹于屏幕里的赛博巨兽已经学会了写诗谱曲、嘘寒问暖，甚至披上了多愁善感的皮囊时；屏幕外，那群原本鲜活的人类，却在日复一日的机械判断中，退化成了没有情绪的打分机器。

这是整个产业链最隐秘的一面，从来不出现在任何融资新闻和技术白皮书里。

没人觉得这有什么问题。

985 硕士与小镇青年

底层的拉框工作正在被 AI 的履带碾压，这条赛博流水线开始向上蔓延，开始吞噬更高阶的脑力劳动。

大模型的胃口变了。它不再满足于嚼碎简单的常识，它需要吞噬人类的专业知识和高阶逻辑。

各大招聘平台上开始频繁闪烁一类特殊的兼职，比如「大模型逻辑推理标注」「AI 人文训练师」。这份兼职的门槛极高，往往要求「985/211 硕士及以上学历」，涉及法律、医学、哲学、文学等专业领域。

很多名校研究生被吸引，涌入这些大厂的外包群。但他们很快发现，这根本不是什么轻松的脑力体操，而是一场精神折磨。

在正式接单前，他们必须阅读长达几十页的打分维度和评判标准文件，进行两到三轮的试标。达标后，在正式标注中，如果正确率低于平均水平，就会失去资格，被踢出群聊。

最让人窒息的是，这些标准根本不是固定的。面对相似的问题和回答，用相同的思考方式去打分，结果可能截然相反。这就像在做一份永远做不完、且根本没有标准答案的试卷。无法通过自我努力或学习提升正确率，只能原地不停地打转，消耗脑力和体力。

这就是大模型时代的新型剥削——阶层折叠。

知识，这把曾被视作打破壁垒、向上攀爬的黄金阶梯，如今沦为了供奉给算法的、咀嚼起来更为复杂的数字草料。在算法和系统的绝对权力面前，象牙塔里的 985 硕士与黄土高原上的小镇青年迎来了最诡异的殊途同归。

他们一同跌落进这座深不见底的赛博矿坑，被剥夺了光环，抹平了差异，统统化作了履带上廉价且随时可以被替换的齿轮。

在国外也是一样。2024 年，苹果公司直接砍掉了圣地亚哥一个 121 人的 AI 语音标注团队。这些员工负责改善 Siri 的多语言处理能力，他们曾经以为自己站在大厂核心业务边缘，却瞬间坠入失业的深渊。

在科技巨头眼中，无论是县城里的拉框大妈，还是名校毕业的逻辑训练师，本质上都是随时可以替换的「耗材」。

没人觉得这有什么问题。

万亿巴别塔，砌满几分钱的血汗

根据中国信通院发布的数据，2023 年中国数据标注市场规模达 60.8 亿元，2025 年预计 200～300 亿元，据预测，到 2030 年，全球数据标注和服务市场销售额将狂飙至 1171 亿元。

这些数字背后，是 OpenAI、微软、字节跳动等科技巨头动辄数千亿、上万亿美元的估值狂欢。

但这些泼天的财富，并没有流向那些真正「喂养」AI 的人。

中国的数据标注行业，呈现出典型的倒金字塔外包结构。最顶层，是死死捏着核心算法的科技巨头；第二层，是大型数据服务供应商；第三层，是遍布各地的数据标注基地和中小型外包公司；最底层，才是那些拿计件工资的泥腿子标注员。

每一层外包，都要狠狠刮走一层油水。当大厂砸出的单价是 5 毛钱时，经过层层盘剥，落到县城标注员手里的，可能连 5 分钱都不到。

希腊前财政部长雅尼斯·瓦鲁法基斯在他的著作《技术封建主义》中，抛出了一个极具穿透力的观点：今天的科技巨头，已经不再是传统意义上的资本家，而是「云领主」（Cloudalists）。

他们拥有的不是工厂和机器，而是算法、平台、算力，这些是赛博时代的数字领土。在这个新的封建体系里，用户不是消费者，而是数字佃农，我们在社交媒体上的每一次点赞、评论、浏览，都在免费为云领主上供数据。

而那些分布在下沉市场的数据标注员，则是这个体系里最底层的数字农奴。他们不仅要生产数据，还要对海量的原始数据进行清洗、分类、打分，将其转化为大模型能够消化的高质量饲料。

这是一场隐秘的认知圈地运动。就像 19 世纪英国的圈地运动把农民赶进纺织厂一样，今天的 AI 浪潮，把那些在实体经济中找不到位置的青年，赶到了屏幕前。

AI 并没有抹平阶层鸿沟，反而建立了一条从中国中西部县城，直通北上广深科技巨头总部的「数据与血汗输送带」。技术革命的叙事总是宏大华丽，但其底色，永远是廉价劳动力的规模化消耗。

没人觉得这有什么问题。

不再需要人类的明天

最残酷的结局就快来了，越来越快。

随着大模型能力的跃升，那些曾经需要人类日夜劳作才能完成的标注任务，正在被 AI 自己接管。

2023 年 4 月，理想汽车创始人李想在论坛透露了数据，过去，理想一年要做大概 1000 万帧的自动驾驶图像人工标定，外包成本接近一个亿。但当他们使用大模型进行自动化标注后，过去需要用一年做的事情，基本上 3 个小时就能完成。

效率是人的 1000 倍，而且还是早在 2023 年。在刚刚过去的 3 月，理想还发布了新一代 MindVLA-o1 自动标注引擎。

行业里流传着一句无比真实的自嘲：「有多少智能，就有多少人工。」但现在，大厂在数据标注外包方面的投入，已经出现了 40%-50% 的断崖式下降。

那些在电脑前枯坐了无数个日夜、把眼睛熬得通红的小镇青年们，亲手喂大了一只巨兽。而现在，这只巨兽正在转过头来，砸掉了他们的饭碗。

夜幕降临，大同平城区的写字楼依然惨白如昼。交接班的年轻人们在电梯间里沉默地互换着疲惫的躯壳。在这个由无数个多边形框死死禁锢的折叠空间里，没人关心大洋彼岸的 Transformer 架构又迎来了怎样史诗级的跃迁，也没人听得懂千亿参数背后算力的轰鸣。

他们的视线，只被焊死在后台那根代表着「及格线」的红绿进度条上，算计着那几分、几毛的计件数字能不能在月底拼凑起体面的生活。

一边，是纳斯达克的敲钟声与科技媒体的连篇累牍，巨头们正为 AGI 的降临举杯相庆；而另一边，这些以血肉之躯一口口喂大 AI 的数字农奴，却只能在酸痛的睡梦中，战战兢兢地等待着那只由自己亲手饲养的巨兽，在某个看似寻常的清晨，漫不经心地一脚踢飞他们的饭碗。

没人觉得这有什么问题。