- Ein neuer Trend breitet sich unter KI-Startups aus: die Selbstbeschaffung proprietärer Daten, anstatt das Internet zu durchforsten oder billige Arbeitskräfte für die Datenbeschriftung einzustellen, wie es früher der Fall war.
- Im Sommer 2025 trugen Taylor – eine freiberufliche Künstlerin – und ihre Mitbewohnerin GoPro-Kameras auf der Stirn, um sich beim Malen, Kochen, Putzen usw. aufzuzeichnen, um Trainingsdaten für das visuelle KI-Modell der Firma Turing zu erstellen.
- Jeden Tag mussten sie 5 Stunden synchronisiertes Video erstellen, aber es dauerte tatsächlich 7 Stunden Arbeit aufgrund der Notwendigkeit von Pausen und Erholung. Taylor sagte, das ständige Tragen der Kamera habe „Kopfschmerzen verursacht und rote Abdrücke auf der Stirn hinterlassen“.
- Turing engagierte Hunderte von manuellen Arbeitskräften – von Köchen, Bauarbeitern, Elektrikern –, um reale Videos aus mehreren Blickwinkeln zu sammeln, was der KI hilft, sequenzielles Denken und visuelles Schlussfolgern zu lernen.
- Sudarshan Sivaraman, AGI-Direktor bei Turing, erklärte: „Wir brauchen vielfältige Daten aus manuellen Arbeiten, denn nur dann kann das Modell verstehen, wie Menschen tatsächlich arbeiten.“
- 75–80 % der Daten von Turing sind synthetische Daten, die aus realen Videos erweitert wurden. Die Qualität der Originaldaten bestimmt jedoch die Genauigkeit des gesamten Systems: „Wenn die Eingabedaten schlecht sind, werden die synthetischen Daten auch schlecht sein.“
- Fyxer, ein KI-Startup, das sich auf die E-Mail-Verarbeitung spezialisiert hat, folgt ebenfalls diesem Trend. Anstatt Massendaten zu verwenden, trainieren sie ihr Modell mit einer Gruppe professioneller Executive Assistants, die genau wissen, wann auf eine E-Mail geantwortet werden sollte – eine „sehr menschliche“ Aufgabe.
- Gründer Richard Hollingsworth sagte: „Es ist die Qualität der Daten, nicht die Quantität, die die Leistung bestimmt.“ Er nennt dies einen Wettbewerbsvorteil (moat), den Konkurrenten schwer kopieren können.
- Startups wie Turing und Fyxer zeigen einen Wandel: KI ist jetzt nicht nur ein starker Algorithmus, sondern genaue, von Menschen verfeinerte Daten mit hoher Wiedergabetreue und praktischer Anwendbarkeit.
📌 Ein neuer Trend breitet sich unter KI-Startups aus: die Selbstbeschaffung proprietärer Daten, anstatt das Internet zu durchforsten oder billige Arbeitskräfte für die Datenbeschriftung einzustellen, wie es früher der Fall war. „Es ist die Qualität der Daten, nicht die Quantität, die die Leistung bestimmt.“ Dies ist ein Wettbewerbsvorteil, den Konkurrenten schwer kopieren können. Dieser Trend markiert eine Revolution in der Datenqualität – wobei die effektivsten Modelle aus realen Daten, realen Menschen und realen Handlungen aufgebaut werden.
