Come viene addestrato Chat GPT?

Se sei familiare con ChatGPT, potresti aver sentito che è stato addestrato su un vasto corpus di dati. Ma cosa significa esattamente? In questo articolo, esamineremo le complessità di come è addestrato ChatGPT?”

ChatGPT è un modello di linguaggio pre-addestrato che è stato regolato attraverso una combinazione di tecniche di apprendimento supervisionato e di rinforzo. Il processo di formazione di ChatGPT ha comportato l'input di una grande quantità di dati di testo nel modello e la regolazione dei suoi parametri in modo che possa generare testo simile al testo nel corpus di formazione.

Per questo processo è stato utilizzato l'approccio di apprendimento non supervisionato, il modello non ha ricevuto feedback espliciti sulla correttezza o l'erroneità del testo generato. Invece il modello, si regola sulla base della probabilità che il testo generato sia simile al testo presente nel corpus di formazione.

GPT-3, il modello principale di ChatGPT-3, è uno dei più grandi modelli di lingua mai creati, con 175 miliardi di parametri e un contesto di 2048 token di lunghezza. È allenato su centinaia di miliardi di parole provenienti da Common Crawl, WebText2, Books1/2, Wikipedia in inglese, e su esempi di codice in CSS, JSX, Python e altri linguaggi di programmazione.

Il metodo di formazione utilizzato per GPT-3 è la preformazione generativa, il che significa che viene addestrato a prevedere il prossimo token o parola nella frase di input.

Migliori alternative di Chat GPT

Apprendimento supervisionato

Il modello ChatGPT è stato ottimizzato attraverso un processo di apprendimento supervisionato da formatori umani. Questi formatori hanno partecipato a conversazioni, assumendo sia il ruolo dell'utente che dell'assistente AI.

Gli è stato fornito suggerimenti dal modello per guidarli nella composizione delle loro risposte, che sono stati poi mescolati con l'insieme di dati InstructGPT convertito in un formato di dialogo.

Apprendimento di rinforzo

Il modello è stato ulteriormente migliorato attraverso l'apprendimento per rinforzo con l'utilizzo di Proximal Policy Optimization (PPO). Trainer umani hanno valutato le risposte generate dal modello durante una precedente conversazione e utilizzato quelle valutazioni per sviluppare modelli di ricompensa. Il modello è stato poi ottimizzato ulteriormente sulla base di questi modelli di ricompensa.

Il processo di perfezionamento è stato effettuato più volte per ottenere migliori prestazioni. Gli algoritmi PPO sono economici rispetto ad altri algoritmi e hanno prestazioni più veloci, rendendoli ideali per questo processo.

OpenAI continua a raccogliere informazioni dagli utenti che interagiscono con ChatGPT, che possono quindi essere utilizzate per migliorare e affinare ulteriormente il modello.

Gli utenti hanno la possibilità di votare sulle risposte di ChatGPT sia con voti positivi che negativi, e hanno anche l'opportunità di offrire feedback aggiuntivi. Questi dati vengono utilizzati per migliorare ulteriormente le prestazioni del modello e renderlo migliore nella generazione di testo simile a quello umano.

Dati utilizzati per addestrare il modello

ChatGPT-3 è un modello linguistico ottimizzato dalla serie GPT-3.5, che è stato addestrato utilizzando un'infrastruttura supercomputing Azure AI. È stato addestrato su una massiccia quantità di testo raccolto da internet, che include libri, forum di chat, articoli, siti web, articoli accademici, codice, e altre fonti.

Il corpus di dati testuali utilizzato per addestrare ChatGPT-3 era di oltre 45 terabyte, dimensione estremamente grande che contribuisce alla capacità del modello di generare testi simili a quelli che potrebbe produrre un giornalista o un autore.

Come viene addestrato Chat GPT?

Apprendimento supervisionato

Apprendimento di rinforzo

Dati utilizzati per addestrare il modello

Articoli correlati