
Semantica distribuzionale
La semantica distribuzionale nasce da un insieme di approcci all’interno della linguistica computazionale e delle scienze cognitive, basati sull’ipotesi che i termini che tendono a ricorrere in contesti linguistici simili siano anch’essi simili, anche semanticamente. Uno dei contributi piĂą interessanti offerti dalla semantica distribuzionale è dato dalla rivoluzione copernicana che essa realizza nel rapporto tra significato e contesto. Si tratta di un aspetto dell’analisi linguistica che era stato escluso a favore dell’analisi fonetica, morfologica, sintattica e semantica. Ferdinand de Saussure, pur riconoscendo che l’atto della comunicazione verbale si attua nelle fasi psichica, fisiologica e fisica, non considerò l’influenza del “contesto”, cosa che fecero invece gli strutturalisti Leonard Bloomfield e Zellig Harris e, con la sua teoria contestuale del significato, John Rupert Firth. Che cos’è una parola? Saussure e BloomfieldL’ipotesi distribuzionale nasce dalle intuizioni del linguista Leonard Bloomfield, caposcuola dello strutturalismo americano, sviluppatosi fra gli anni Venti e Cinquanta, spesso in antitesi con quello europeo, che era invece piĂą fedele all’opera di de Saussure. Prendiamo l’esempio di un tavolo appena acquistato da Ikea. Analizzarne la struttura significa cercarne le “unitĂ minori” (costituenti immediati) smontandolo pezzo per pezzo, in modo da poterlo anche rimontare sempre come tavolo rispettando la funzione di ogni singola unitĂ . Avremo un’unitĂ che si riferisce alle 4 gambe con la funzione di sostegno, un piano con quella di ripiano orizzontale e così via. In questa prospettiva innovativa le “categorie grammaticali” (nome, aggettivo, verbo ecc.) dovrebbero essere riformulate in base alla loro “distribuzione”, cioè al fatto che possano o no occupare un certo insieme di “posizioni combinatorie”. In seguito, Noam Chomsky avrebbe criticato questo approccio definendolo “tassonomico”, cioè focalizzato sulla ricerca di regolaritĂ statistiche delle unitĂ da classificare.
Quando uno stimolo esterno (S) induce qualcuno a parlare (r), la risposta linguistica del parlante costituisce per l’ascoltatore uno stimolo linguistico (s) che provoca una risposta pratica (R). S e R sono dunque eventi che appartengono al mondo extralinguistico, mentre r e s sono elementi dell’atto di comunicazione linguistica. Il significato dalla parola alla frase: Zellig HarrisIl matematico e linguista Zellig Harris, riprendendo il lavoro del suo maestro Leonard Bloomfield, estende l’analisi strutturale di segmentazione e classificazione dalla frase al testo. Per il linguista americano due elementi si dicono equivalenti se compaiono negli stessi contesti e in Elementary transformations (1954) definisce la “distribuzione” di un elemento come l’insieme dei suoi possibili contesti, ovvero da tutti quegli elementi che possono liberamente co-occorrere con esso, nella medesima posizione. Infine se due elementi sono equivalenti possiamo anche dedurre che lo sia anche il loro significato. Che cos’è tesgĂĽino?Immaginate di non aver mai sentito la parola tesgĂĽino e che io vi dia le seguenti quattro frasi (Lin, 1998):
Riuscireste a comprendere il significato della parola tesgüino? Dalle frasi date è possibile ricavare che si tratta di una bibita alcolica fermentata dal mais o intuire dal contesto (bottiglia, ubriacare) che si tratta di un liquore come la tequila, qualcosa che si beve o una tipologia di birra. Teoria contestuale del significato: Malinowski e FirthJohn Rupert Firth fu un linguista inglese che insegnò all’università di Punjab e in quella di Londra prima di recarsi alla Scuola di studi Orientali e Africani dove divenne Professore di Linguistica generale. Secondo Firth il significato di una parola dipende dal “contesto situazionale” in cui essa si trova riprendendo così le considerazioni etno-linguistiche dell’antropologo Bronislaw Malinowski, che nel secondo volume di Coral Gardens and Their Magic (1935) aveva affermato che durante il corso della sua analisi linguistica gli era “diventato via via più evidente che la definizione contestuale di ogni enunciato” è “della massima importanza ai fini della comprensione” degli enunciati prodotti dagli aborigeni (ibidem). Costruzione di uno spazio semanticoFormalmente possiamo descrivere uno spazio semantico di parole con una quadrupla di valori: T è l’insieme delle parole target. Costruiamo la matriceOra dobbiamo rappresentare ogni parola come un vettore a n dimensioni, ciascuna delle quali conterà la frequenza con cui la parola appare in un determinato contesto linguistico definito dalla base B. Ogni parola target T corrisponderà a una riga della matrice M e le cui colonne invece agli elementi nella base B. Per costruire i 4 vettori di auto, gatto, cane e camion utilizzeremo come primo componente la frequenza di co-occorrenza con mangiare, come secondo guidare e infine come terzo correre. v1 = auto = (0, 3, 2) Ora dobbiamo fissare l’origine all’incrocio degli assi cartesiani che saranno i contesti linguistici e le dimensioni nello spazio, invece le parole saranno punti nello spazio rappresentate come vettori, i cui componenti sono la frequenza di co-occorrenza. Quale contesto?I modelli di semantica distribuzionale (DSM) differiscono fra di loro per la diversa nozione di contesto linguistico, quelli più tipicamente usati sono tre:
All’interno della cella della matrice oltre al valore della frequenza di co-occorrenza, possiamo utilizzare altri pesi statistici (weighting) come: tf-idf, mutual information, log-likelihood ratio etc. E’ meglio contare o predire?Per la costruzione delle rappresentazioni distribuzionali possiamo impiegare due approcci distinti: count models e prediction models. Il primo approccio, che abbiamo descritto prima, si basa sul conteggio delle co-occorrenze estratte dai corpora per poi pesarle e opzionalmente ridimensionarle per ottenere dei “vettori densi” (dense vectors). Il secondo approccio proposto da Google (Mikolov et al., 2013), invece si basa sui prediction models cioè sull’addestrare reti neurali artificiali a predire una parola target in base al suo contesto (CBOW model) o il contesto dalla parola (SkipGram model). Avendo così da subito vettori densi che prendono il nome di word embedding. RegolaritĂ linguisticheNel 2013 Mikolov e collaboratori hanno dimostrato che nei prediction models alcuni problemi di analogia semantica fra le parole del tipo A sta a B come C a D sono risolvibili semplicemente sommando e sottraendo le loro rappresentazioni vettoriali.
L’analogia di genere uomo sta a donna come re a regina viene così risolta:
Sottoponendo i count models agli stessi compiti dei prediction models non si registrano sostanziali differenze nelle prestazioni. Per esempio, entrambi catturano le stesse analogie (O. Levy, Goldberg, 2014). Nonostante la crescente popolaritĂ dei prediction models, grazie anche al contributo di Google, contare e predire rimangono semplicemente due approcci diversi di costruire rappresentazioni distribuzionali, ma soprattutto due tentavi diversi di far comprendere il linguaggio umano ai computer. SitografiaArticolo comparso per la prima volta in:Semantica distribuzionale, Â Kasparhauser, 2017
|