EconomiaNotizia

Guarda un’intelligenza artificiale Impara a scrivere leggendo nient’altro che Jane Austen

[ad_1]

Il nucleo di un programma di intelligenza artificiale come ChatGPT è qualcosa chiamato modello di linguaggio di grandi dimensioni: un algoritmo che imita la forma del linguaggio scritto.

Sebbene il funzionamento interno di questi algoritmi sia notoriamente difficile da decifrare, l’idea di base dietro di essi è sorprendentemente semplice. Sono addestrati montagne di testo su Internetscorrendole alcune frasi o paragrafi alla volta, indovinando ripetutamente la parola successiva (o frammento di parola) e poi classificandosi rispetto alla cosa reale.

Per mostrarti come si presenta questo processo, abbiamo addestrato sei minuscoli modelli linguistici partendo da zero. Per iniziare, scegli in base a cosa vorresti che l’IA imparasse selezionando una delle immagini sottostanti. (Puoi sempre cambiare idea in seguito.)

Prima dell’allenamento: Gibberish

All’inizio, BabyGPT produce un testo come questo:

Vengono addestrati i modelli linguistici più grandi oltre un terabyte di testo Internet, contenente centinaia di miliardi di parole. La loro formazione costa milioni di dollari e comporta calcoli che richiedono settimane o addirittura mesi su centinaia di computer specializzati.

BabyGPT ha le dimensioni di una formica in confronto. L’abbiamo addestrato per circa un’ora su un laptop con pochi megabyte di testo, abbastanza piccolo da essere allegato a un’e-mail.

A differenza dei modelli più grandi, che iniziano la loro formazione con un ampio vocabolario, BabyGPT non conosce ancora nessuna parola. Fa le sue ipotesi una lettera alla volta, il che rende un po’ più facile per noi vedere cosa sta imparando.

Inizialmente, le sue ipotesi sono completamente casuali e includono molti caratteri speciali: ‘?kZhc,TK996’) sarebbe un’ottima password, ma è ben lontana da qualsiasi cosa assomigli a Jane Austen o Shakespeare. BabyGPT non ha ancora imparato quali lettere sono tipicamente usate in inglese o che esistono parole.

Questo è il modo in cui i modelli linguistici di solito iniziano: indovinano in modo casuale e producono parole senza senso. Ma imparano dai loro errori e, nel tempo, le loro supposizioni migliorano. Nel corso di molti, molti cicli di formazione, i modelli linguistici possono imparare a scrivere. Imparano modelli statistici che mettono insieme le parole in frasi e paragrafi.

Dopo 250 round: lettere inglesi

Dopo 250 turni di allenamento – circa 30 secondi di elaborazione su un laptop moderno – BabyGPT ha imparato il suo ABC e sta iniziando a balbettare:

In particolare, il nostro modello ha appreso quali lettere sono usate più frequentemente nel testo. Vedrai molto la lettera “e” perché quella è la lettera più comune in inglese.

Se guardi da vicino, scoprirai che ha imparato anche alcune piccole parole: io, a, il, tu e così via.

Ha un vocabolario minuscolo, ma ciò non gli impedisce di inventare parole come alingedimpe, ratlabus e mandiered.

Ovviamente, queste ipotesi non sono grandiose. Ma – e questa è una chiave per come apprende un modello linguistico – BabyGPT tiene un punteggio di quanto siano pessime le sue ipotesi.

Ad ogni ciclo di addestramento, passa attraverso il testo originale, poche parole alla volta, e confronta le sue ipotesi per la lettera successiva con ciò che viene effettivamente dopo. Quindi calcola a puntoConosciuto come il “perdita”, che misura la differenza tra le sue previsioni e il testo effettivo. Una perdita di zero significherebbe che le sue ipotesi corrispondevano sempre correttamente alla lettera successiva. Più piccola è la perdita, più vicine sono le sue ipotesi al testo.

Dopo 500 giri: Piccole parole

Ad ogni round di allenamento, BabyGPT cerca di migliorare le sue ipotesi riducendo questa perdita. Dopo 500 giri – o circa un minuto su un laptop – può scrivere alcune piccole parole:

Sta anche iniziando a imparare un po’ di grammatica di base, come dove posizionare punti e virgole. Ma fa un sacco di errori. Nessuno confonderà questo output con qualcosa scritto da un essere umano.

Dopo 5.000 round: parole più grandi

Dieci minuti dopo, Il vocabolario di BabyGPT è cresciuto:

Le frasi non hanno senso, ma si stanno avvicinando nello stile al testo. BabyGPT ora commette meno errori di ortografia. Inventa ancora alcune parole più lunghe, ma meno spesso di una volta. Sta anche iniziando a imparare alcuni nomi che ricorrono frequentemente nel testo.

Anche la sua grammatica sta migliorando. Ad esempio, ha appreso che un punto è spesso seguito da uno spazio e da una lettera maiuscola. Occasionalmente apre anche una citazione (anche se spesso si dimentica di chiuderla).

Dietro le quinte, BabyGPT è un rete neurale: un tipo estremamente complicato di funzione matematica che coinvolge milioni di numeri che converte un input (in questo caso, una sequenza di lettere) in un output (la sua previsione per la lettera successiva).

Ad ogni ciclo di addestramento, un algoritmo regola questi numeri per cercare di migliorare le sue ipotesi, utilizzando una tecnica matematica nota come retropropagazione. Il processo di messa a punto di questi numeri interni per migliorare le previsioni è ciò che significa per una rete neurale “imparare”.

Ciò che questa rete neurale genera effettivamente non sono lettere ma probabilità. (Queste probabilità sono il motivo per cui ottieni una risposta diversa ogni volta che generi una nuova risposta.)

Ad esempio, quando vengono date le lettere staipredice che la lettera successiva è N, R o forse Dcon probabilità che dipendono dalla frequenza con cui ha incontrato ogni parola nel suo addestramento.

Ma se lo diamo downstaiè molto più probabile prevedere R. Le sue previsioni dipendono dal contesto.

Dopo 30.000 giri: frasi complete

Un’ora nel suo allenamento, BabyGPT sta imparando a parlare con frasi complete. Non è poi così male, considerando che solo un’ora fa non sapeva nemmeno che esistessero le parole!

Le parole continuano a non avere senso, ma sicuramente Aspetto più simile all’inglese.

Le frasi che questa rete neurale genera raramente ricorrono nel testo originale. Di solito non copia e incolla le frasi alla lettera; invece, BabyGPT li cuce insieme, lettera per lettera, sulla base di modelli statistici che ha appreso dai dati. (I modelli linguistici tipici uniscono le frasi poche lettere alla voltama l’idea è la stessa.)

Man mano che i modelli linguistici diventano più grandi, i modelli che apprendono possono diventare sempre più complessi. Possono imparare la forma di un sonetto o di un limerick, o come codificare in vari linguaggi di programmazione.

Grafico a linee che mostra la “perdita” del modello selezionato nel tempo. Ogni modello inizia con una perdita elevata che produce caratteri senza senso. Nel corso delle successive centinaia di cicli di addestramento, la perdita diminuisce precipitosamente e il modello inizia a produrre lettere inglesi e alcune piccole parole. La perdita quindi diminuisce gradualmente e il modello produce parole più grandi dopo 5.000 cicli di allenamento. A questo punto, ci sono rendimenti decrescenti e la curva è piuttosto piatta. Entro 30.000 giri, il modello sta pronunciando frasi complete.

I limiti dell’apprendimento di BabyGPT

Con un testo limitato con cui lavorare, BabyGPT non beneficia molto di ulteriore formazione. I modelli linguistici più grandi utilizzano più dati e potenza di calcolo per imitare il linguaggio in modo più convincente.

Le stime di perdita sono leggermente livellate.

BabyGPT ha ancora molta strada da fare prima che le sue frasi diventino coerenti o utili. Non può rispondere a una domanda o eseguire il debug del codice. Per lo più è solo divertente vedere migliorare le sue ipotesi.

Ma è anche istruttivo. In appena un’ora di addestramento su un laptop, un modello linguistico può passare dalla generazione di caratteri casuali a un’approssimazione molto grezza del linguaggio.

I modelli linguistici sono una sorta di mimica universale: imitano qualunque cosa su cui sono stati addestrati. Con dati e cicli di addestramento sufficienti, questa imitazione può diventare abbastanza inquietante, come ci hanno mostrato ChatGPT e i suoi colleghi.

Cos’è anche un GPT?

I modelli addestrati in questo articolo usano un algoritmo chiamato nanoGPTsviluppato da Andrej Karpathy. Il signor Karpathy è un importante ricercatore di intelligenza artificiale che recentemente è entrato a far parte di OpenAI, la società dietro ChatGPT.

Come ChatGPT, nanoGPT è un GPT modello, un termine AI che sta per trasformatore generativo pre-addestrato:

Generativo perché genera parole.

Pre-addestrato perché è addestrato su un mucchio di testo. Questo passaggio è chiamato pre-formazione perché molti modelli linguistici (come quello alla base di ChatGPT) passano attraverso importanti fasi aggiuntive di formazione note come messa a punto per renderle meno tossiche e con cui è più facile interagire.

Trasformatori sono relativamente recenti svolta nel modo in cui le reti neurali sono cablate. Sono stati introdotti in a Carta 2017 dai ricercatori di Google e sono utilizzati in molti dei più recenti progressi dell’intelligenza artificiale, dalla generazione di testo alla creazione di immagini.

I trasformatori sono migliorati rispetto alla precedente generazione di reti neurali, note come reti neurali ricorrenti – includendo passaggi che elaborano le parole di una frase in parallelo, piuttosto che uno alla volta. Questo li ha resi molto più veloci.

Di più è diverso

Oltre alle ulteriori fasi di messa a punto, la differenza principale tra nanoGPT e il modello linguistico alla base di chatGPT è la dimensione.

Ad esempio, GPT-3 è stato addestrato su un numero di parole fino a un milione di volte superiore rispetto ai modelli in questo articolo. Il ridimensionamento fino a quella dimensione è un’enorme impresa tecnica, ma i principi sottostanti rimane lo stesso.

Man mano che i modelli linguistici crescono di dimensioni, sono noti sviluppare sorprendente nuovo abilitàcome la capacità di rispondere a domande, riassumere il testo, spiegare barzellette, continuare uno schema e correggere bug nel codice del computer.

Alcuni ricercatori li hanno definiti “capacità emergenti” perché sorgono inaspettatamente a una certa dimensione e non sono programmati a mano. Il ricercatore di intelligenza artificiale Sam Bowman ha paragonato la formazione di un grande modello linguistico a “l’acquisto di una scatola misteriosa”, perché è difficile prevedere quali abilità acquisirà durante la sua formazione e quando queste abilità emergeranno.

Possono emergere anche comportamenti indesiderati. I modelli di linguaggio di grandi dimensioni possono diventare altamente imprevedibili, come evidenziato dalle prime interazioni di Microsoft Bing AI con il mio collega Kevin Roose.

Sono anche inclini a inventare fatti e ragionare in modo errato. I ricercatori non capiscono ancora come questi modelli generino il linguaggio, e faticano a farlo guidare il loro comportamento.

Quasi quattro mesi dopo che il ChatGPT di OpenAI è stato reso pubblico, Google ha lanciato un chatbot AI chiamato Bard, a causa delle obiezioni sulla sicurezza di alcuni dei suoi dipendenti, secondo segnalazione di Bloomberg.

“Questi modelli vengono sviluppati in una corsa agli armamenti tra aziende tecnologiche, senza alcuna trasparenza”, ha affermato Peter Bloomun esperto di intelligenza artificiale che studia i modelli linguistici.

OpenAI non rivela qualsiasi dettaglio sui dati su cui è addestrato il suo enorme modello GPT-4, adducendo preoccupazioni su concorrenza e sicurezza. Non sapere cosa c’è nei dati rende difficile dire se queste tecnologie sono sicure e quali tipi di pregiudizi sono incorporati al loro interno.

Ma mentre il signor Bloem è preoccupato per la mancanza di regolamentazione dell’IA, è anche entusiasta del fatto che i computer stiano finalmente iniziando a “capire cosa vogliamo che facciano” – qualcosa che, dice, i ricercatori non erano stati vicini a raggiungere in oltre 70 anni di tentativi.



[ad_2]
Source link

Related Articles

Back to top button