L’intelligenza artificiale che risolve i problemi giocando

Vinci tutto supernealotto e giochi Sisal

L'intelligenza artificiale che risolve i problemi giocando
L'intelligenza artificiale che risolve i problemi giocando
Condividi l'Articolo
RSS
Twitter
Visit Us
Follow Me
INSTAGRAM

DeepMind ha creato l’intelligenza artificiale MuZero che risolve i problemi come gli essere umani. Invece di conoscere approfonditamente l’ambiente in cui opera, MuZero si concentra sugli elementi più semplici per ottenere la soluzione del problema. Serve un ombrello per non bagnarsi e non importa sapere come funziona la pioggia. L’agilità di MuZero le potrebbe permettere di vivere anche in uno smartphone.

DeepMind di Google ha pubblicato una ricerca sulla nuova intelligenza artificiale MuZero, in grado di apprendere i giochi che le vengono messi di fronte imparando le loro regole e senza conoscerle prima, come un essere umano.La ricerca è stata pubblicata su Nature a dicembre 2020, ma esiste nella sua versione pre-print già dall’anno prima. A differenza di altre IA sviluppate da DeepMind, MuZero non ha bisogno di essere foraggiata con milioni di partite giocate da essere umani, ma impara dalle regole del gioco, una mossa alla volta, ed è premiata con delle ricompense. In realtà, il modello usato da MuZero è un po’ più complesso di questa spiegazione, ma è servita per rompere il ghiaccio.

Non ci chiediamo perché piove: prendiamo l’ombrello per non bagnarci

L’essere umano è in grado di pianificare le sue azioni e risolvere problemi anche senza la necessità di comprendere completamente l’ambiente che genera i problemi o nel quale troverà le soluzioni.

DeepMind usa un esempio azzeccato per descriverlo: se vediamo formarsi delle nuvole scure, potremmo prevedere che pioverà e decidere di portare con noi un ombrello prima di uscire. Per farlo non abbiamo bisogno di sapere perché si sono formate quelle nuvole, tanto meno di capire quali sono i fenomeni atmosferici che generano la pioggia. Ci basta associare le nuvole scure al rischio di bagnarci, e quindi alla decisione di portare con noi un ombrello.

I due approcci classici delle IA

Generalmente le intelligenze artificiali “classiche” usano due approcci principali per la risoluzione dei problemi: la ricerca lookahead o la pianificazione basata su modelli.

DeepMind ha creato l’intelligenza artificiale MuZero che risolve i problemi come gli essere umaniAlphaZero, l’intelligenza artificiale di DeepMind campionessa di Go e scacchi, è basata sulla ricerca lookahead e si adatta benissimo a giochi classici con regole ben definite, ma si basa sulla conoscenza delle dinamiche del suo ambiente; il che rende difficile applicare l’IA a problemi del mondo reale, che sono tipicamente complessi e difficili da ridurre in semplici regole.

Le intelligenze basate sui modelli invece fotografano diverse dinamiche dell’ambiente in cui devono operare e creano dei modelli applicabili al problema. Tuttavia, la complessità della modellazione di ogni aspetto di un ambiente ha fatto sì che questi algoritmi non siano in grado di competere in domini visivamente ricchi. È il caso delle IA che sono state modellate per giocare con i vecchi videogiochi Atari.

Per questi scenari specifici, legati alla conoscenza del problema nel momento in cui si manifesta, come la vista di un nemico in un videogioco, alcuni algoritmi privi di modelli, come DQN, R2D2 e Agent57, avevano già dato buoni risultati.

MuZero ha un approccio simile ma molto più semplice. Invece di cercare di modellare l’intero ambiente, MuZero modella solo gli aspetti importanti per il processo decisionale dell’agente che risolverà il problema. Tornando alla pioggia, se il risultato che si vuole ottenere è quello di non bagnarsi, sapere che un ombrello terrà l’IA all’asciutto è più utile di sapere come determinare il modello delle gocce di pioggia nell’aria.

Tre semplici elementi, non serve altro

La semplicità di MuZero arriva dalla modellazione di solo tre elementi nell’ambiente e che poi saranno usati per la pianificazione: Il valore, cioè quanto è buona la situazione/posizione in cui l’IA si trova attualmente; la politica, ovvero quale azione è la migliore da intraprendere; e infine la ricompensa, cioè la valutazione di quanto è stata buona l’ultima azione compiuta. Questi tre elementi sono appresi utilizzando una rete neurale profonda.

Tornando ai giochi, MuZero prova prima un’azione, poi un’altra, imparando ciò che le regole permettono, e allo stesso tempo notando le ricompense che le vengono offerte, per esempio, negli scacchi, mangiando i pezzi e dichiarando scacco matto; in Pac-Man, ingoiando un punto giallo. Poi cambia i suoi metodi fino a quando non trova un sistema per ottenere tali ricompense più facilmente: in questo modo migliora il suo gioco. Questo apprendimento attraverso l’osservazione è ideale per qualsiasi intelligenza artificiale che si trovi ad affrontare problemi che non possono essere specificati facilmente, come appunto quelli che abbondano nel mondo reale.

Allo stesso tempo, MuZero non è solo più adattabile, ma è anche più agile, perché modella solo quegli aspetti del suo ambiente – in un gioco o nel mondo – che contano nel processo decisionale.

Fare la stessa cosa con intelligenze complesse come AlphaZero, che devono conoscere approfonditamente l’ambiente in cui operano sarebbe lento ed energeticamente dispendioso.

Una volta che MuZero è allenata ha bisogno di così poca elaborazione per prendere le sue decisioni che l’intera operazione potrebbe essere gestita su uno smartphone, ha riferito Julian Schrittwieser, un co-autore della ricerca. Anche la durata dell’addestramento è contenuta. “Un gioco Atari richiederebbe 2-3 settimane per allenarsi su una singola GPU” dice Schrittwieser.

MuZero potrebbe essere utile in ambienti con problemi “fluidi” come quelli della guida autonoma, ma anche per la progettazione di un farmaco a base proteica che deve agire su qualcosa impersonato dalla stessa IA, per esempio il ricettore glicoproteico di un virus.

Condividi l'Articolo
RSS
Twitter
Visit Us
Follow Me
INSTAGRAM

Ricerca in Scienza @ Magia

Generic selectors
Exact matches only
Search in title
Search in content
Inviami gli Articoli in Email:

Be the first to comment

Leave a Reply

L'indirizzo email non sarà pubblicato.


*


Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.