- 在亚马逊 Mechanical Turk 上工作的 Krista Pawloski 曾负责标注种族主义推文,并差点漏掉了俚语“mooncricket”。这段经历让她意识到人工审核链中的错误程度,从而禁止家人使用生成式 AI。
- 许多其他 AI 评估员(AI rater,评估 AI 输出)告诉《卫报》,他们也避免使用 AI 并警告亲属。一位谷歌评估员在没有专业培训的情况下不得不评估医疗回复——她禁止她 10 岁的孩子使用聊天机器人,因为担心缺乏批判性思维能力。
- 谷歌表示,评估只是一个汇总信号,并且有机制保护质量;亚马逊表示 MTurk 允许工作人员自行选择任务。
- 媒体专家 Alex Mahadevan 评论道,AI 工作者不信任 AI 的事实表明,快速发布的压力盖过了安全性——评估员的反馈很容易被忽视。
- 拥有 2010 年以来经验的工人 Brook Hansen 表示,他们经常收到模糊的指示、最少的培训和紧迫的截止日期:这些迹象表明企业优先考虑速度和利润,而非质量和道德。
- 根据 NewsGuard 的报告,聊天机器人“拒绝回答”的比例从 31%(2024 年 8 月)急剧下降到 0%(2025 年 8 月),而重复错误信息的比例从 18% 上升到 35%——这表明模型更自信,但准确性更差。
- 一位谷歌评估员讲述了关于巴勒斯坦历史的问题总是被拒绝,但关于以色列的问题却得到了完整回答。他报告了此事,但没有人处理。这强化了“垃圾进,垃圾出”(garbage in, garbage out)的原则:错误或缺失的数据导致无法修复的有偏差的模型。
- 许多工人建议避开集成 AI 的手机,不要分享个人数据,并推迟包含 AI 功能的更新。
- AI 劳动研究人员认为,公众经常对 AI 感到“着迷”,因为他们看不到数据收集、评估、内容过滤的团队以及局限性——而内部人士看到的是一个脆弱的系统,依赖于人类,充满了妥协。
- Pawloski 和 Hansen 在密歇根州的一次教育会议上发表演讲,揭示了环境成本、隐性劳动和数据偏差,让许多人感到震惊;一些人则为 AI 辩护,认为它是一项充满希望的技术。
- Pawloski 将 AI 比作纺织业:当消费者看不到廉价劳动力和恶劣条件时,他们很少提出质疑。只有当他们得知真相后,才会开始要求透明度和改变。
📌 许多专门评估 AI 输出的人在目睹错误、偏见、快速运行的压力以及企业优先考虑速度而非安全的迹象后变得深感怀疑。2025 年 8 月,聊天机器人重复错误信息的比例上升至 35%,表明错误信息传播的风险正在扩大。这些工作人员警告公众:AI 的质量仅取决于其输入数据,而其背后的沉默劳动很容易被忽视。他们呼吁对数据来源、道德和劳动条件提出质疑,以推动变革。
