21/12/2024

1 minuto di lettura

Il 12 dicembre, l’Università di Harvard ha annunciato il lancio di un dataset innovativo composto da quasi un milione di libri di dominio pubblico, accessibile liberamente per la formazione di modelli linguistici avanzati e altre applicazioni di intelligenza artificiale.

Questo progetto è stato sviluppato nell’ambito dell’Institutional Data Initiative (IDI), un’iniziativa di Harvard finanziata da Microsoft e OpenAI, che raccoglie libri scansionati nell’ambito di Google Books, ormai privi di copyright.

Greg Leppert, direttore esecutivo dell’IDI, ha sottolineato che l’obiettivo del progetto è rendere i dati accessibili a tutti, inclusi i piccoli sviluppatori e i ricercatori indipendenti, che di solito non hanno accesso alle risorse delle grandi aziende tecnologiche. Ha inoltre evidenziato che il dataset è stato accuratamente revisionato per garantirne l’affidabilità e che può essere integrato con dati concessi in licenza per creare modelli AI avanzati.

L’IDI sta anche collaborando con la BostonPublicLibrary per digitalizzare milioni di articoli di giornale, con l’intento di arricchire ulteriormente il dataset. Sebbene i dettagli relativi alla distribuzione siano ancora in fase di definizione, Google ha già espresso il proprio sostegno al progetto.

Marco Zonza

Redattore Worldy Tech

Harvard lancia un dataset di quasi un milione di libri di dominio pubblico per l'IA

Ho 20 anni e vivo a Valencia. Attualmente, sto studiando informatica con una specializzazione nella programmazione di pagine web presso il centro MasterD. Sono appassionato di sport e tecnologia e seguo con attenzione le ultime notizie in questi ambiti.All'inizio del 2024, ho iniziato una collaborazione con Worldy, con l'obiettivo di fornire informazioni chiare e trasparenti ai lettori. Questa esperienza mi permette di combinare la mia passione per la tecnologia e l'informazione, contribuendo a una piattaforma che valorizza l'integrità e la precisione delle notizie.