
I video di YouTube come materiale di addestramento per l'intelligenza artificiale: i creatori di contenuti sono svantaggiati

Internet offre troppo pochi testi utilizzabili per l'addestramento dei sistemi di intelligenza artificiale vocale. OpenAI ha quindi fatto ricorso ai video su YouTube. Tuttavia, questo non è consentito.
L'intelligenza artificiale (AI) è sulla bocca di tutti, o meglio sullo schermo di tutti. Scrivono testi, generano immagini e video, compongono canzoni e programmano. Tuttavia, un'IA è tanto buona quanto il materiale di addestramento a cui può accedere: più materiale c'è, meglio è. Secondo un report del New York Times, l'azienda di AI OpenAI ha avuto accesso a milioni di ore di materiale video dalla piattaforma YouTube per questo scopo, nonostante le linee guida di YouTube vietino tale accesso.
Non ci sono abbastanza dati per un ulteriore addestramento dell'IA
Da tempo è chiaro che chi sa usare l'IA si assicurerà enormi vantaggi in futuro. Al contrario, ciò significa che coloro che sviluppano la migliore IA otterranno le quote di mercato più redditizie. Le principali aziende che operano nel settore dell'IA vocale, tra cui OpenAI, Google e Meta, sono quindi in corsa per sviluppare l'IA migliore.
A questo scopo, però, è necessario disporre del più ampio bacino possibile di materiale di addestramento prodotto dagli esseri umani. Le aziende che si occupano di IA stanno già facendo girare i loro algoritmi su tutti i tipi di contenuti internet per trasferirli ai loro sistemi di IA.
I dati di alta qualità, come articoli specialistici, libri, pagine di Wikipedia e altri contenuti creati tenendo conto della qualità, sono particolarmente preziosi. Secondo l'organizzazione di ricerca sull'intelligenza artificiale Epoch, questi contenuti potrebbero essere completamente indicizzati tra il 2024 e il 2026. Un altro problema è che molti di questi contenuti sono protetti da copyright, ma questo non impedisce agli sviluppatori di AI di utilizzarli comunque.
I video di YouTube come fonte illegale di dati di addestramento
Per ottenere più dati per la sua AI vocale, OpenAI ha sviluppato nel 2021 lo strumento Whisper, in grado di trascrivere il linguaggio parlato nei video di YouTube. I testi risultanti possono essere utilizzati come ulteriore materiale di addestramento per l'intelligenza artificiale vocale. Secondo i dipendenti citati dal New York Times, circa un milione di ore di video sono state incorporate nella versione attuale di Chat-GPT. I criteri di selezione di questi video non sono ancora chiari. Rispetto al tempo totale di riproduzione su YouTube, un milione di ore non è molto: secondo Statista, nel 2022 sono state aggiunte circa 720.000 ore di nuovi video al giorno.
Tuttavia, tale accesso non è consentito: secondo le condizioni d'uso di YouTube, non è consentito "accedere al servizio [cioè YouTube] utilizzando processi automatizzati (ad esempio robot, botnet o scrapers) [...]". Secondo il New York Times, gli sviluppatori di OpenAI hanno violato consapevolmente questo divieto. E Google, che è proprietaria di YouTube, ne era a conoscenza.
Tuttavia, Google è a conoscenza di questa violazione.
Tuttavia, Google stessa è in difficoltà: ha riconosciuto il potenziale dei video di YouTube e li utilizza come materiale di formazione. Anche questo è sbagliato, perché YouTube non possiede il copyright dei video presenti sulla sua piattaforma. Questo spetta ai creatori di contenuti che creano e caricano i video. Pertanto, YouTube non può certo protestare contro l'accesso non autorizzato da parte di OpenAI se l'IA della società madre Google utilizza illegalmente i creatori di contenuti.
Ricorsi dei detentori di copyright
Il New York Times ha parlato di questa nuova potenziale violazione del copyright da parte delle aziende di AI per un motivo. Ha già citato in giudizio OpenAI a dicembre per l'uso illegale dei suoi articoli https://www.rosepartner.de/blog/urheberrechtsverletzung-durch-ki-training.html. I contenuti caricati possono essere replicati dall'IA e quindi contribuire al successo commerciale di OpenAI senza alcun compenso economico o menzione di paternità.
L'utilizzo di opere protette da parte delle aziende di IA non è un problema.
L'uso di opere protette sta diventando un problema per artisti, autrici e altri creatori di contenuti. Secondo il New York Times, l'ufficio statunitense per il copyright ha già ricevuto più di 10.000 reclami. Tuttavia, una prima azione legale collettiva da parte degli artisti è già stata rifiutata da un giudice.
Al momento non esistono regolamenti legali che specifichino l'uso dell'IA in relazione alla legge sul copyright.


Si sente a casa sia davanti al PC da gaming che sull'amaca in giardino. È affascinata dall'Impero Romano, dalle navi container e dai libri di fantascienza, tra le altre cose. Fiuta soprattutto le ultime notizie dal settore IT e smart gadget.