• Среди стартапов в области ИИ распространяется новая тенденция: самостоятельный сбор проприетарных данных, вместо сканирования Интернета или найма дешевой рабочей силы для маркировки данных, как это было раньше.
  • Летом 2025 года Тейлор (Taylor) — внештатная художница — и ее соседка по комнате носили камеры GoPro на лбу, чтобы записывать себя во время рисования, приготовления пищи, уборки и т. д., для создания обучающих данных для модели визуального ИИ компании Turing.
  • Каждый день им приходилось создавать 5 часов синхронизированного видео, но фактически это занимало 7 часов работы из-за необходимости перерывов и восстановления. Тейлор сказала, что постоянное ношение камеры «вызывало головные боли и оставляло красные следы на лбу».
  • Turing наняла сотни работников ручного труда — от поваров, строителей, электриков — для сбора реального видео с разных ракурсов, помогая ИИ изучать последовательное мышление и визуальное рассуждение.
  • Сударшан Сивараман (Sudarshan Sivaraman), директор AGI в Turing, заявил: «Нам нужны разнообразные данные из рутинных работ, потому что только тогда модель сможет понять, как люди на самом деле работают».
  • 75–80% данных Turing — это синтетические данные, расширенные из реальных видео. Однако качество исходных данных определяет точность всей системы: «Если входные данные плохие, синтетические данные тоже будут плохими».
  • Fyxer, стартап в области ИИ, специализирующийся на обработке электронной почты, также следует этому направлению. Вместо использования массовых данных, они обучают свою модель с помощью группы профессиональных исполнительных помощников, которые точно понимают, когда следует отвечать на электронное письмо — «очень человеческая» задача.
  • Основатель Ричард Холлингсворт (Richard Hollingsworth) сказал: «Именно качество данных, а не их количество, определяет производительность». Он называет это конкурентным преимуществом (moat), которое конкурентам трудно воспроизвести.
  • Стартапы, такие как Turing и Fyxer, показывают сдвиг: ИИ теперь — это не просто мощный алгоритм, а точные, уточненные человеком данные с высокой достоверностью и практической применимостью.

📌 Среди стартапов в области ИИ распространяется новая тенденция: самостоятельный сбор проприетарных данных, вместо сканирования Интернета или найма дешевой рабочей силы для маркировки данных, как это было раньше. «Именно качество данных, а не их количество, определяет производительность». Это конкурентное преимущество, которое конкурентам трудно воспроизвести. Эта тенденция знаменует собой революцию в качестве данных — где самые эффективные модели строятся на основе реальных данных, реальных людей и реальных действий.

Share.
© 2025 Vietmetric
Exit mobile version