Il 12 dicembre, l’Università di Harvard ha annunciato il lancio di un dataset innovativo composto da quasi un milione di libri di dominio pubblico, accessibile liberamente per la formazione di modelli linguistici avanzati e altre applicazioni di intelligenza artificiale.
Questo progetto è stato sviluppato nell’ambito dell’Institutional Data Initiative (IDI), un’iniziativa di Harvard finanziata da Microsoft e OpenAI, che raccoglie libri scansionati nell’ambito di Google Books, ormai privi di copyright.
Greg Leppert, direttore esecutivo dell’IDI, ha sottolineato che l’obiettivo del progetto è rendere i dati accessibili a tutti, inclusi i piccoli sviluppatori e i ricercatori indipendenti, che di solito non hanno accesso alle risorse delle grandi aziende tecnologiche. Ha inoltre evidenziato che il dataset è stato accuratamente revisionato per garantirne l’affidabilità e che può essere integrato con dati concessi in licenza per creare modelli AI avanzati.
L’IDI sta anche collaborando con la BostonPublicLibrary per digitalizzare milioni di articoli di giornale, con l’intento di arricchire ulteriormente il dataset. Sebbene i dettagli relativi alla distribuzione siano ancora in fase di definizione, Google ha già espresso il proprio sostegno al progetto.










