Ecco come il machine learning può aiutare a decifrare lingue sconosciute. “Lineare A” e “Lineare B” sono due sistemi di scrittura scoperti a Creta nel 1900 dal celebre archeologo britannico Arthur Evans. I segni di “Lineare A” che si leggono da sinistra a destra hanno molti simboli in comune con Lineare B, tuttavia – a differenza della seconda – non sono mai stati tradotti.
Secondo un articolo apparso su Mit Technology Review questo sistema di scrittura è diventato la “cavia” ideale per sperimentare nuovi sistemi di traduzione automatica basati sul machine learning.
Come funziona. Come sappiamo, per interpretare una scrittura del passato servono molti testi e reperti archeologici. L’applicazione del machine learning, cioè di sistemi di apprendimento automatico, non è una idea nuova. Studiosi di scienza del linguaggio stanno sfruttando queste tecniche da diversi anni.
L’idea alla base è quella di individuare le relazioni tra le parole mappando una lingua specifica. Serve un database di testo che permette al software di calcolare, per esempio, per ogni parola, quanto spesso essa si ripete accanto a determinati termini.
Lo studio del “comportamento” di ogni singola parola permette di creare uno spazio multidimensionale con dei parametri che descrivono la sintassi della lingua in base a quel termine specifico.
Il sistema non capisce il significato, ogni frase è concepita come un insieme di vettori nello spazio che occupano gli stessi punti e ripetono il loro comportamento. Sovrapponendo le mappe “spaziali” di una lingua rispetto a una sconosciuta si possono individuare “pattern” simili e quindi tentare una traduzione.
Cosa cambia. Per la prima volta due ricercatori del Mit e uno del Ai Lab di Google hanno sviluppato un sistema basato su tecniche di machine learning per decifrare lingue perdute, in modo automatico. Lo hanno usato come test su Lineare B e sull’ugarico, una delle prime scritture alfabetiche, nata intorno al XIV secolo a.C. La prima è stata tradotta autonomaticamente usando il greco antico, la seconda l’ebraico. «Siamo stati in grado di tradurre correttamente il 67,3% di Linear B – hanno dichiarato i ricercatori sul Mit Technology Review – e il 5% dell’ugarico ».
Ma, come si legge nel paper, la sfida vera è sull’analisi di Lineare A. Il tentativo di usare il greco antico è fallito. Il vantaggio di questa tecnica consisterebbe nel provare a usare “come base” altre lingue di cui è stata estratta “una mappa spaziale”. L’approccio è muscolare e più veloce: il grande vantaggio degli approcci basati su macchine learning è che possono testare rapidamente una lingua dopo l’altra senza affaticarsi, nel senso che si tenterà di decifrare Lineare A usando tutte le lingue per le quali la traduzione automatica funziona già.
Lascia un commento