- AI 스타트업들 사이에서 새로운 트렌드가 확산되고 있습니다. 이전처럼 인터넷을 스크래핑하거나 저가 노동력을 고용하여 데이터에 라벨을 붙이는 대신, 독점적인 데이터를 자체적으로 수집하는 것입니다.
- 2025년 여름, 프리랜서 아티스트 테일러(Taylor)와 그녀의 룸메이트는 이마에 고프로(GoPro) 카메라를 착용하고 그림 그리기, 요리하기, 집 청소하기 등의 장면을 녹화하여 튜링(Turing)이라는 회사의 시각 AI 모델 훈련 데이터를 만들었습니다.
- 그들은 매일 5시간의 동기화된 비디오를 만들어야 했지만, 휴식과 회복 시간 때문에 실제로는 7시간의 작업이 필요했습니다. 테일러는 카메라를 계속 착용하는 것이 “두통을 유발하고 이마에 붉은 자국을 남겼다”고 말했습니다.
- 튜링은 요리사, 건설 노동자, 전기 기술자 등 수백 명의 육체 노동자를 고용하여 다양한 각도에서 실제 비디오를 수집하고 있으며, 이는 AI가 순차적 사고와 시각적 추론을 배우는 데 도움이 됩니다.
- 튜링의 AGI 이사인 수다르샨 시바라만(Sudarshan Sivaraman)은 다음과 같이 말했습니다. “우리는 수동 작업에서 나오는 다양한 데이터가 필요합니다. 그래야만 모델이 인간이 실제로 어떻게 일하는지 이해할 수 있기 때문입니다.”
- 튜링 데이터의 75–80%는 실제 비디오에서 확장된 합성 데이터(synthetic data)입니다. 그러나 원본 데이터의 품질이 전체 시스템의 정확도를 결정합니다. “입력 데이터가 나쁘면 합성 데이터도 나쁠 것입니다.”
- 이메일 처리를 전문으로 하는 AI 스타트업 픽서(Fyxer)도 이 경로를 따르고 있습니다. 그들은 대량 데이터를 사용하는 대신, 언제 이메일에 응답해야 하는지를 정확히 이해하는 전문 경영 보조원 그룹을 사용하여 모델을 훈련합니다. 이는 “매우 인간적인” 작업입니다.
- 창립자 리처드 홀링스워스(Richard Hollingsworth)는 다음과 같이 말했습니다. “성능을 결정하는 것은 데이터의 양이 아니라 품질입니다.” 그는 이것을 경쟁자들이 복제하기 어려운 경쟁 우위(moat)라고 부릅니다.
- 튜링과 픽서와 같은 스타트업은 AI가 강력한 알고리즘뿐만 아니라 인간이 정제하고 높은 충실도와 실제 적용 가능성을 가진 정확한 데이터임을 보여주는 변화를 나타냅니다.
📌 AI 스타트업들 사이에서 새로운 트렌드가 확산되고 있습니다. 이전처럼 인터넷을 스크래핑하거나 저가 노동력을 고용하여 데이터에 라벨을 붙이는 대신, 독점적인 데이터를 자체적으로 수집하는 것입니다. “성능을 결정하는 것은 데이터의 양이 아니라 품질입니다.” 이는 경쟁자들이 복제하기 어려운 경쟁 우위입니다. 이 트렌드는 데이터 품질의 혁명을 의미하며, 가장 효과적인 모델은 실제 데이터, 실제 사람, 그리고 실제 행동으로부터 구축됩니다.
