Come Google ha cambiato il linguaggio nell‘AI

Fin dalla loro comparsa, i computer hanno sempre operato su linguaggi artificiali. Questi linguaggi erano stati creati per comunicare istruzioni alle macchine, e di conseguenza era impossibile per loro comprendere il linguaggio naturale, cioè le espressioni che effettivamente le persone usano nella loro quotidianità mentre parlano, scrivono o chattano. Il linguaggio umano, infatti, rispetto a quello formale è complesso, diversificato e presenta molte sfumature.

Da questa esigenza si è sviluppato il Natural Language Processing (NLP), cioè il campo di ricerca nell’ambito dell’intelligenza artificiale che mira a sviluppare modelli per la comprensione del linguaggio naturale, ossia la lingua che usiamo nella vita di tutti i giorni. Ma, come si insegna ad una macchina a parlare? Il linguaggio viene “insegnato” alla macchina a vari livelli di granularità: parole, relazione tra le parole e il loro uso in un dato contesto, dipendenze sintattiche e relazioni semantiche. Tale approccio è integrato da algoritmi di apprendimento automatico, cioè di Machine Learning, e di Deep Learning (‘apprendimento profondo’), che cercano di “imitare” il funzionamento del cervello umano.

Il primo grande passo di Google in termini di elaborazione del linguaggio naturale avviene con l’introduzione di Hummingbird (nel 2013) e RankBrain (nel 2015). Hummingbird è un Core Update che ha mostrato tutto l'impegno di Google nell’ottenere una comprensione sempre più sofisticata dell'intento delle query di ricerca, allo scopo di fornire risultati sempre più pertinenti all’utente. RankBrain opera sotto Hummingbird: è un algoritmo di Deep Learning che sfrutta i vettori matematici per trasformare il linguaggio in entità comprensibili da un computer, e quindi aiutare l’algoritmo core ad interpretare meglio le query degli utenti.

Google BERT: Bidirectional Encoder Representations from Transformers

BERT, che sta per Bidirectional Encoder Representations from Transformers, è una tecnica basata sulla rete neurale per la pre-formazione sull'elaborazione del linguaggio naturale. In parole povere, può essere utilizzato per aiutare Google a discernere meglio il contesto delle parole nelle query di ricerca.

Se i modelli precedenti a questo update lavoravano sulle singole parole, nell’esatto ordine in cui erano state scritte, infatti erano stati progettati in modo unidirezionale (vale a dire che, il significato di una parola in una finestra di contesto, poteva spostarsi solo in una direzione, da sinistra a destra o da destra a sinistra, ma mai nello stesso momento), BERT è capace di osservare tutte le parole di una frase nello stesso istante, in maniera bidirezionale e quindi di capire come ogni singola parola influenzi tutte le altre, al pari di una mente umana.

Ad esempio, se in passato un utente digitava la query “2019 brazil traveler to USA need a visa” prima dell’update dell’algoritmo, il browser forniva in risposta dei link utili per i cittadini USA intenzionati a spostarsi in Brasile. Il search intent corretto, però, non è questo bensì quello di capire se i viaggiatori brasiliani diretti in USA hanno bisogno di un visto. BERT interviene cogliendo l’intento di ricerca esatto, grazie alla sua capacità di comprendere la correlazione tra i diversi termini della frase.

Per fare questo sfrutta due differenti modelli di pre-allenamento neurale:

il primo modello si chiama Mask Language Model (MLM) e serve a predire alcune parole e auto-verificare che abbia effettivamente capito di cosa si stia parlando. Sostanzialmente funziona in questo modo: gli ingegneri mascherano parole casuali all'interno di alcune frasi e l’algoritmo cerca di indovinarle; man mano che l'algoritmo apprende, viene ottimizzato per fare meno errori sui dati di addestramento.
il secondo modello è chiamato Next Sentence Prediction (NSP) e serve a BERT per relazionare tra loro le frasi. Nel processo di formazione, riceve coppie di frasi come input e impara a prevedere se la seconda frase della coppia può essere quella che in successione è più corretta.

Google Smith: Siamese Multi-depth Transformer-based Hierarchical Encoder

Nel 2020 Google ha iniziato a parlare di SMITH, acronimo che sta per “Siamese Multi-depth Transformer-based Hierarchical Encoder”. Cosa cambierebbe rispetto al passato? I modelli basati sull'auto-attenzione, come BERT, hanno raggiunto prestazioni all'avanguardia nella comprensione delle parole di una singola frase, tuttavia erano ancora limitati nella corrispondenza semantica dei testi di una lunghezza superiore.

I motivi sono diversi:

1) Quando i testi sono lunghi, la corrispondenza tra i termini richiede una comprensione più approfondita delle relazioni semantiche incluso il modello di corrispondenza tra frammenti di testo più distanti.

2) I documenti lunghi sono strutturati in frasi, paragrafi e sezioni, che giocano un ruolo chiave nella comprensione del contenuto, sia per il lettore umano, che per il modello.

3) L'elaborazione di testi lunghi potrebbe innescare problemi pratici in termini di gestione della memoria.

Il modello SMITH è addestrato a comprendere i passaggi all'interno del contesto dell'intero documento, in quanto aumenta la lunghezza massima del testo di input da 512 a 2048.

Una parte importante di SMITH è un paradigma di "pre-formazione e messa a punto", che viene fornito anche a BERT. La differenza è che qui non vengono nascoste solo singole parole, ma anche blocchi di frasi.

Tutto quello che sappiamo dell’algoritmo Smith è che Google ha rilasciato il documento di ricerca che descrive i suoi principali vantaggi, ma non ha annunciato ufficialmente la sua implementazione. Alcuni ipotizzano che sia stato implementato con l'aggiornamento di dicembre 2020 di Google, ma non sia stato convalidato, altri invece credono che sia solo un progetto rimasto “sulla carta”, ma mai implementato.

Google MUM: Multitask Unified Model.

Durante la conferenza annuale Google I/O 2021 Prabhakar Raghavan di Google ha presentato una nuova tecnologia chiamata MUM, acronimo di Multitask Unified Model.

Con MUM, Google potrebbe essere in grado di comprendere meglio domande e bisogni molto più complessi. Come BERT è costruito su un'architettura Transformer, ma è 1000 volte più potente ed è in grado di svolgere più attività contemporaneamente. MUM è addestrato in ben 75 lingue diverse e comprende le informazioni da diversi formati come testo e immagini, ma in futuro, potrà estendersi ad ulteriori modalità come audio e video.

All'I/O, Raghavan ha fatto questo esempio "Ho camminato sul Monte Adams e il prossimo autunno voglio fare un'escursione sul Monte Fuji. Cosa dovrei fare di diverso per prepararmi?". Per dare questa risposta oggi Google dovrebbe ricevere ricerche specifiche, ad esempio “qual’è l’altezza del Monte Fuji?”, “qual’è la temperatura media in autunno sul Monte Fuji?”, “qual’è la difficoltà dei sentieri escursionistici dei Monte Fuji”, “qual’ è l'attrezzatura giusta da usare per un’escursione sul Monte Fuji”, etc.

Con una sola query argomentata, invece, MUM potrebbe essere in grado di capire che stai confrontando due montagne, quindi fornirebbe automaticamente informazioni in merito all’altitudine e al sentiero. Inoltre, comprenderebbe che nel contesto dell'escursionismo la "preparazione" potrebbe includere informazioni riguardo l'allenamento e l'attrezzatura giusta. MUM potrebbe far emergere argomenti correlati per un'esplorazione più approfondita, con riferimenti ad articoli utili, video e immagini da tutto il web. Inoltre l’utente potrebbe scattare foto degli scarponi da trekking e chiedere: "Posso usarli per fare un'escursione sul Monte Fuji?". MUM capirebbe l'immagine e la collegherebbe alla domanda, riuscendo a fornire una risposta in merito all’adeguatezza dell’attrezzatura scelta. Infine è bene sapere che MUM può imparare da fonti che non sono scritte nella lingua usata dall’utente che effettua la ricerca. Ipotizziamo che ci siano informazioni utili sul Monte Fuji nei risultati di ricerca in giapponese: oggi, probabilmente l’utente non riuscirebbe a trovarle, mentre con questo aggiornamento risulterebbero, restituite nella lingua italiana.

Attualmente MUM è ancora nelle sue fasi sperimentali. Google sta eseguendo progetti pilota interni per comprendere meglio i tipi di query che potrebbe essere in grado di risolvere e utilizzerà valutatori umani per supervisionare attentamente i risultati della ricerca che MUM sta generando. Potrebbe essere che già nei prossimi mesi si possa intravedere qualche miglioramento nelle funzionalità di ricerca.

Google LaMDA

Sempre durante il Google I/O, l’amministratore delegato di Alphabet Sundar Pichai ha parlato di LaMDA (acronimo di Language Model for Dialogue Applications), un nuovo modello di applicazioni di dialogo che promette grandi avanzamenti nell'elaborazione del linguaggio naturale.

Anche LaMDA si basa su Transformer e può essere educata per leggere parole o intere frasi, ma a differenza della maggior parte degli altri modelli linguistici è stato addestrato sul dialogo. I fattori su cui si concentra questo modello sono la sensibilità (ovvero il dare una risposta che abbia senso per l’utente), la specificità delle risposte e la correttezza.

Per ora anche LaMDA "si trova ancora nelle prime fasi di sviluppo”. Pichai ha sottolineato che per ora è solo un progetto di ricerca. A oggi, quindi, va inteso come un'aspirazione di Google più che come un aggiornamento.

Se funzionerà e verrà ampiamente adottato (e questo è un grande "se" a questo punto), potremo vedere un cambiamento nel comportamento di ricerca, il che potrebbe significare che le aziende dovranno adattarsi per garantire che i loro contenuti o prodotti siano ancora rilevabili.

Conclusioni

Negli ultimi anni sono stati fatti passi da giganti nell’elaborazione del linguaggio naturale, grazie a Rankbrain, Hummingbird, BERT, Smith, ed ora MUM e LaMDA.
A tal proposito… ci sono modifiche significative da apportare al sito? Al momento NO! Il punto da tenere a mente è che Google premia i contenuti che forniscono risultati di ricerca soddisfacenti per l’utente che lo interroga.

Perciò è bene:

dimostrare competenza in materia
scrivere il contenuto nel modo più naturale possibile
evitare gli errori SEO più comuni

Da Bert a Smith, da Mum a laMDA: come Google rivoluziona il linguaggio

Google BERT: Bidirectional Encoder Representations from Transformers

Google Smith: Siamese Multi-depth Transformer-based Hierarchical Encoder

Google MUM: Multitask Unified Model.

Google LaMDA

Conclusioni