- 一种新趋势正在 AI 初创公司界蔓延:自行收集专有数据,而不是像以前那样抓取互联网或雇佣廉价劳动力进行数据标注。
- 2025 年夏天,自由职业艺术家泰勒(Taylor)和她的室友戴着 GoPro 摄像机在额头上,拍摄绘画、烹饪、打扫房间等场景,以创建用于图灵(Turing)公司视觉 AI 模型训练的数据。
- 她们每天必须创建 5 小时的同步视频,但由于需要休息和恢复,实际上需要 7 小时的工作时间。泰勒说,持续佩戴摄像机“会导致头痛,并在额头上留下红色的痕迹”。
- 图灵雇佣了数百名体力劳动者——包括厨师、建筑工人、电工——以从多个角度收集真实的视频,帮助 AI 学习序列思维和视觉推理。
- 图灵的 AGI 总监 Sudarshan Sivaraman 表示:“我们需要来自体力劳动的多样化数据,因为只有这样模型才能理解人类实际是如何工作的。”
- 图灵 75-80% 的数据是合成数据(synthetic),由真实视频扩展而来。然而,原始数据的质量决定了整个系统的准确性:“如果输入数据质量差,合成数据也会变差。”
- 专注于电子邮件处理的 AI 初创公司 Fyxer 也遵循这一方向。他们不是使用大众数据,而是用一组专业的行政助理来训练模型,这些助理清楚地知道何时应该回复电子邮件——这是一项“非常人性化”的任务。
- 创始人 Richard Hollingsworth 说:“决定性能的是数据质量,而不是数量。” 他称之为竞争优势(moat),对手难以复制。
- 像图灵和 Fyxer 这样的初创公司表明了转变:AI 现在不仅仅是强大的算法,而是由人类精炼、具有高保真度和实际应用性的精确数据。
📌 一种新趋势正在 AI 初创公司界蔓延:自行收集专有数据,而不是像以前那样抓取互联网或雇佣廉价劳动力进行数据标注。“决定性能的是数据质量,而不是数量。” 这是竞争优势,对手难以复制。这一趋势标志着数据质量的革命——最有效的模型是基于真实数据、真人操作和真实行动构建的。

