- AI スタートアップ界で新しいトレンドが広まっています。以前のようにインターネットをスクレイピングしたり、安価な労働力を雇ってデータにラベル付けしたりするのではなく、独占的なデータを自ら収集することです。
- 2025 年の夏、フリーランスのアーティストであるテイラー氏(Taylor)と彼女のルームメイトは、額に GoPro カメラを装着し、絵を描いたり、料理をしたり、掃除をしたりする様子を撮影しました。これは、Turing 社の視覚 AI モデルの訓練データを作成するためです。
- 彼女たちは毎日 5 時間の同期ビデオを作成する必要がありましたが、休憩と回復が必要なため、実際には 7 時間の作業を要しました。テイラー氏は、カメラを装着し続けることが「頭痛を引き起こし、額に赤い跡を残した」と述べています。
- Turing は、シェフ、建設作業員、電気技師など、数百人の肉体労働者を雇い、複数の視点からの実世界のビデオを収集しています。これは、AI が順序立てた思考と視覚的な推論を学ぶのに役立っています。
- Turing の AGI ディレクターである Sudarshan Sivaraman 氏は、「肉体労働からの多様なデータが必要です。なぜなら、そうして初めてモデルは人間が実際にどのように機能するかを理解できるからです」と述べています。
- Turing のデータの 75〜80% は、実際のビデオから拡張された合成データ(synthetic data)です。しかし、オリジナルデータの品質がシステム全体の精度を決定します。「入力データが不十分であれば、合成データも不十分になります。」
- メール処理に特化した AI スタートアップ Fyxer もこの方向に進んでいます。彼らは一般的なデータを使用する代わりに、プロの役員秘書のグループを使用してモデルを訓練しています。これらのアシスタントは、いつメールに返信すべきかを正確に理解しており、これは「非常に人間的な」タスクです。
- 創設者の Richard Hollingsworth 氏は、「性能を決定するのはデータの『量』ではなく『質』です」と述べています。彼はこれを、競合他社が複製するのが難しい競争上の優位性(moat)と呼んでいます。
- Turing や Fyxer のようなスタートアップは、AI が強力なアルゴリズムだけでなく、人間によって洗練され、高い忠実度と実用性を備えた正確なデータであることを示しています。
📌 AI スタートアップ界で新しいトレンドが広まっています。以前のようにインターネットをスクレイピングしたり、安価な労働力を雇ってデータにラベル付けしたりするのではなく、独占的なデータを自ら収集することです。「性能を決定するのはデータの『量』ではなく『質』です。」 これは、競合他社が複製するのが難しい競争上の優位性です。このトレンドはデータ品質における革命を示しており、最も効果的なモデルは実際のデータ、実際の人々、そして実際の行動から構築されています。
