• Il 16 dicembre 2025, OpenAI ha annunciato FrontierScience, un nuovo benchmark volto a valutare le capacità di ragionamento scientifico di livello esperto dell’IA in tre campi fondamentali: fisica, chimica e biologia.
  • Il fulcro di FrontierScience non è la memorizzazione della conoscenza, ma il vero pensiero scientifico: formulazione di ipotesi, verifica, perfezionamento e sintesi interdisciplinare.
  • OpenAI ha affermato che modelli avanzati come GPT-5 sono stati utilizzati dagli scienziati nella ricerca reale, dalla ricerca bibliografica interdisciplinare e sintesi di ricerche multilingue alla dimostrazione matematica complessa.
  • Grazie all’IA, molti lavori di ricerca che un tempo richiedevano giorni o settimane ora richiedono solo poche ore per essere completati.
  • La nascita di FrontierScience deriva dal fatto che i vecchi benchmark scientifici sono diventati obsoleti, saturi o limitati a domande a scelta multipla, non riflettendo il vero ragionamento.
  • Ad esempio, il benchmark GPQA del 2023 vedeva GPT-4 raggiungere solo il 39% rispetto al livello esperto del 70%, ma nel 2025 GPT-5.2 ha raggiunto il 92%, indicando la necessità di valutazioni più difficili.
  • FrontierScience consiste in oltre 700 domande testuali, di cui 160 appartenenti al “gold standard”, compilate e convalidate direttamente da esperti.
  • Il benchmark è diviso in due rami: FrontierScience-Olympiad con 100 domande a risposta breve di difficoltà equivalente alle Olimpiadi scientifiche internazionali, e FrontierScience-Research con 60 problemi di ricerca a più fasi costruiti da dottori di ricerca (PhD).
  • La sezione Research utilizza una scala di valutazione a 10 punti basata su una rubrica, valutando sia i risultati che i passaggi intermedi di ragionamento; un punteggio di 7/10 o superiore è considerato corretto.
  • I risultati iniziali mostrano che GPT-5.2 ha raggiunto il 77% nelle Olimpiadi e il 25% nella Ricerca, mentre Gemini 3 Pro ha raggiunto il 76% nelle Olimpiadi, riflettendo grandi progressi ma ancora molto spazio per miglioramenti.

📌 OpenAI ha annunciato FrontierScience, un nuovo benchmark che valuta le capacità di ragionamento scientifico di livello esperto dell’IA in tre campi fondamentali: fisica, chimica e biologia, segnando il passaggio dalla memorizzazione delle conoscenze al vero pensiero scientifico: formulazione di ipotesi, verifica, perfezionamento e sintesi interdisciplinare. Con oltre 700 domande difficili costruite da esperti, i risultati mostrano che GPT-5.2 ha raggiunto il 77% nei problemi teorici ma solo il 25% nei compiti di ricerca aperti. Ciò indica che l’IA è abbastanza potente da supportare la scienza, ma rimane un grande divario prima di creare davvero nuove scoperte scientifiche.

Share.
CONTATTI

Email: info@vietmetric.vn
Indirizzo: Numero 34, Vicolo 91, Via Tran Duy Hung, Quartiere Yen Hoa, Città di Hanoi

© 2026 Vietmetric
Exit mobile version