banner
Centro notizie
Qualità di prim'ordine e assistenza clienti personalizzata

Guarda i siti Web che fanno sembrare i robot AI come ChatGPT così intelligenti

Aug 18, 2023

La popolarità dei chatbot IA è esplosa negli ultimi quattro mesi, sorprendendo il pubblico con le loro straordinarie capacità, dallo scrivere tesine sofisticate al tenere conversazioni lucide e inquietanti.

I chatbot non possono pensare come gli esseri umani: in realtà non capiscono quello che dicono. Possono imitare il linguaggio umano perché l’intelligenza artificiale che li alimenta ha ingerito una quantità gigantesca di testo, per lo più recuperato da Internet.

[Big Tech si stava muovendo con cautela sull'intelligenza artificiale. Poi è arrivato ChatGPT.]

Questo testo è la principale fonte di informazioni dell'IA sul mondo mentre viene costruito e influenza il modo in cui risponde agli utenti. Se supera il test di ammissione alla facoltà di giurisprudenza, ad esempio, probabilmente è perché i suoi dati di formazione includevano migliaia di siti di pratica LSAT.

Le aziende tecnologiche sono diventate riservate su ciò che alimentano l’intelligenza artificiale. Quindi il Washington Post ha deciso di analizzare uno di questi set di dati per rivelare completamente i tipi di siti Web proprietari, personali e spesso offensivi che entrano nei dati di addestramento di un'intelligenza artificiale.

Per guardare all'interno di questa scatola nera, abbiamo analizzato il set di dati C4 di Google, un'enorme istantanea dei contenuti di 15 milioni di siti Web che sono stati utilizzati per istruire alcune IA di alto profilo in lingua inglese, chiamati modelli linguistici di grandi dimensioni, tra cui T5 di Google e LLaMA di Facebook. . (OpenAI non rivela quali set di dati utilizza per addestrare i modelli che supportano il suo popolare chatbot, ChatGPT)

Il Post ha collaborato con i ricercatori dell'Allen Institute for AI su questa indagine e ha classificato i siti Web utilizzando i dati di Similarweb, una società di analisi web. Circa un terzo dei siti web non è classificabile, soprattutto perché non compaiono più in Internet. Quelli non vengono mostrati.

Tocca le caselle in alto per visualizzare i siti principali

Abbiamo quindi classificato i restanti 10 milioni di siti web in base al numero di "token" apparsi da ciascuno nel set di dati. I token sono piccoli frammenti di testo utilizzati per elaborare informazioni disorganizzate, in genere una parola o una frase.

Il set di dati era dominato da siti web di settori tra cui giornalismo, intrattenimento, sviluppo di software, medicina e creazione di contenuti, contribuendo a spiegare perché questi campi potrebbero essere minacciati dalla nuova ondata di intelligenza artificiale. I tre siti più grandi erano patents.google.com n. 1, che contiene testi di brevetti rilasciati in tutto il mondo; wikipedia.org n. 2, l'enciclopedia online gratuita; e scribd.com No. 3, una biblioteca digitale solo in abbonamento. In cima alla lista c'è anche b-ok.org n. 190, un noto mercato di e-book piratati che da allora è stato sequestrato dal Dipartimento di Giustizia degli Stati Uniti. Nel set di dati erano presenti almeno altri 27 siti identificati dal governo statunitense come mercati di pirateria e contraffazione.

Alcuni siti importanti sembravano arbitrari, come wowhead.com n. 181, un forum di giocatori di World of Warcraft; thriveglobal.com n. 175, un prodotto per sconfiggere il burnout fondato da Arianna Huffington; e almeno 10 siti che vendono cassonetti, incluso dumpsteroid.com n. 183, che non sembrano più accessibili.

Altri hanno sollevato notevoli preoccupazioni sulla privacy. Due siti tra i primi 100, coloradovoters.info n. 40 e flvoters.com n. 73, avevano ospitato privatamente copie dei database statali di registrazione degli elettori. Sebbene i dati degli elettori siano pubblici, i modelli potrebbero utilizzare queste informazioni personali in modi sconosciuti.

Principali siti aziendali e industriali:

pazzo.com

kickstarter.com

sec.gov

marketwired.com

city-data.com

miaemail.constantcontact.com

finanza.yahoo.com

prweb.com

imprenditore.com

globalresearch.ca

I siti Web aziendali e industriali costituivano la categoria più grande (16% dei token classificati), guidata da Fool.com n. 13, che fornisce consulenza sugli investimenti. Non molto indietro c'erano kickstarter.com n. 25, che consente agli utenti di raccogliere fondi per progetti creativi, e più in basso nell'elenco, patreon.com n. 2.398, che aiuta i creatori a raccogliere commissioni mensili dagli abbonati per contenuti esclusivi.

Kickstarter e Patreon potrebbero fornire all'intelligenza artificiale l'accesso alle idee degli artisti e ai testi di marketing, sollevando preoccupazioni sul fatto che la tecnologia possa copiare questo lavoro nei suggerimenti agli utenti. Attualmente, gli artisti non ricevono alcun compenso o credito quando il loro lavoro è incluso nei dati di formazione dell’intelligenza artificiale e hanno presentato reclami per violazione del copyright contro i generatori di testo in immagini Stable Diffusion, MidJourney e DeviantArt.