- Una nuova tendenza si sta diffondendo tra le startup di IA: la raccolta autonoma di dati proprietari, invece di eseguire lo scraping di Internet o di assumere manodopera a basso costo per l’etichettatura dei dati come in precedenza.
- Nell’estate del 2025, Taylor – un’artista freelance – e la sua coinquilina hanno indossato telecamere GoPro sulla fronte per filmare se stesse mentre dipingevano, cucinavano, pulivano la casa, ecc., al fine di creare dati di addestramento per il modello di IA visiva dell’azienda Turing.
- Ogni giorno dovevano creare 5 ore di video sincronizzati, ma in realtà ci volevano 7 ore di lavoro a causa della necessità di pause e recupero. Taylor ha detto che indossare la telecamera continuamente “le causava mal di testa e le lasciava segni rossi sulla fronte”.
- Turing ha assunto centinaia di lavoratori manuali – da cuochi, muratori, elettricisti – per raccogliere video del mondo reale da più angolazioni, aiutando l’IA ad apprendere il ragionamento sequenziale e visivo.
- Sudarshan Sivaraman, Direttore AGI di Turing, ha dichiarato: “Abbiamo bisogno di dati diversi provenienti da lavori manuali, perché solo così il modello può capire come lavorano effettivamente gli esseri umani”.
- Il 75–80% dei dati di Turing sono dati sintetici, ampliati da video reali. Tuttavia, la qualità dei dati originali determina l’accuratezza dell’intero sistema: “Se i dati di input sono scadenti, anche i dati sintetici lo saranno.”
- Fyxer, una startup di IA specializzata nell’elaborazione di e-mail, sta anche seguendo questa direzione. Invece di utilizzare dati di massa, addestrano il loro modello utilizzando un gruppo di assistenti esecutivi professionali, che capiscono esattamente quando rispondere a un’e-mail — un compito “molto umano”.
- Il fondatore Richard Hollingsworth ha detto: “È la qualità dei dati, non la quantità, a determinare le prestazioni”. Egli lo definisce un vantaggio competitivo (moat) che i concorrenti difficilmente possono replicare.
- Le startup come Turing e Fyxer mostrano un cambiamento: l’IA ora non è solo un algoritmo potente, ma dati precisi, raffinati dall’uomo, con un’alta fedeltà e applicabilità pratica.
📌 Una nuova tendenza si sta diffondendo tra le startup di IA: la raccolta autonoma di dati proprietari, invece di eseguire lo scraping di Internet o di assumere manodopera a basso costo per l’etichettatura dei dati come in precedenza. “È la qualità dei dati, non la quantità, a determinare le prestazioni.” Questo è un vantaggio competitivo che i concorrenti difficilmente possono replicare. Questa tendenza segna una rivoluzione nella qualità dei dati – dove i modelli più efficaci sono costruiti su dati reali, persone reali e azioni reali.

