• Une nouvelle tendance se propage parmi les start-ups d’IA : l’auto-collecte de données propriétaires, au lieu de parcourir Internet ou d’engager de la main-d’œuvre bon marché pour l’étiquetage des données comme auparavant.
  • À l’été 2025, Taylor – une artiste indépendante – et sa colocataire ont porté des caméras GoPro sur le front pour s’enregistrer en train de peindre, cuisiner, nettoyer la maison, etc., afin de créer des données d’entraînement pour le modèle d’IA visuelle de la société Turing.
  • Chaque jour, elles devaient créer 5 heures de vidéo synchronisée, mais cela prenait en réalité 7 heures de travail en raison de la nécessité de pauses et de récupération. Taylor a déclaré que porter la caméra en permanence « provoquait des maux de tête et laissait des marques rouges sur le front ».
  • Turing a embauché des centaines de travailleurs manuels – des chefs, des ouvriers du bâtiment, des électriciens – pour collecter des vidéos du monde réel sous plusieurs angles, aidant l’IA à apprendre la pensée séquentielle et le raisonnement visuel.
  • Sudarshan Sivaraman, directeur de l’AGI chez Turing, a déclaré : « Nous avons besoin de données diversifiées provenant de travaux manuels, car ce n’est qu’ainsi que le modèle peut comprendre comment les humains travaillent réellement. »
  • 75 à 80 % des données de Turing sont des données synthétiques, étendues à partir de vidéos réelles. Cependant, la qualité des données originales détermine la précision de l’ensemble du système : « Si les données d’entrée sont mauvaises, les données synthétiques le seront aussi. »
  • Fyxer, une start-up d’IA spécialisée dans le traitement des e-mails, suit également cette voie. Au lieu d’utiliser des données de masse, ils entraînent leur modèle en utilisant un groupe d’assistants de direction professionnels, qui comprennent exactement quand répondre à un e-mail – une tâche « très humaine ».
  • Le fondateur Richard Hollingsworth a déclaré : « C’est la qualité des données, et non la quantité, qui détermine la performance. » Il appelle cela un avantage concurrentiel (fossé) que les concurrents ont du mal à reproduire.
  • Des start-ups comme Turing et Fyxer montrent un changement : l’IA ne se résume plus à un algorithme puissant, mais à des données précises, affinées par l’humain, avec une grande fidélité et une applicabilité pratique.

📌 Une nouvelle tendance se propage parmi les start-ups d’IA : l’auto-collecte de données propriétaires, au lieu de parcourir Internet ou d’engager de la main-d’œuvre bon marché pour l’étiquetage des données comme auparavant. « C’est la qualité des données, et non la quantité, qui détermine la performance. » Ceci est un avantage concurrentiel que les concurrents ont du mal à reproduire. Cette tendance marque une révolution dans la qualité des données – où les modèles les plus efficaces sont construits à partir de données réelles, de personnes réelles et d’actions réelles.

Share.
© 2025 Vietmetric
Exit mobile version