Reinforcement Learning e metodi Model-Free (2)

Course Access: Lifetime
Course Overview

Negli ultimi anni l’intelligenza artificiale ha fatto passi da gigante. Dal Go a StarCraft II, dal riconoscimento di immagini alla salute pubblica, dall’arte alla guida autonoma, i progressi dell’ultimo decennio sono sotto gli occhi di tutti. Le cause di tutto questo sono molteplici, e certamente non riassumibili in una singola eclatante scoperta. Ma sicuramente uno dei paradigmi più di successo dal 2013 ad oggi è il Deep Reinforcement Learning, ovvero la sinergia tra Deep Learning e Reinforcement Learning: non a caso la rivista “MIT Technology Review” ha inserito DL e RL tra le “10 Breakthrough Technologies” nel 2013 e nel 2017, rispettivamente.

In questa serie di mini degree impariamo le basi del Reinforcement Learning, ovvero le tecniche che permettono alle macchine di imparare a prendere decisioni. Queste tecniche sono tanto potenti quanto naturali – non a caso sono nate più di 100 anni fa nell’ambito della psicologia!

In breve: qualunque problema che richieda una successione di azioni per essere risolto – uscire da un labirinto, vincere a un gioco, determinare una strategia di investimento, guidare un veicolo – può essere affrontato da una macchina con queste tecniche, purché la macchina sia in grado di eseguire queste azioni e “capire” quanto una successione di azioni sia “giusta”. Questa comprensione si ottiene associando a ogni azione una ricompensa, e dicendo alla macchina che deve fare le azioni in modo da avere una ricompensa totale il più alta possibile: “più ricompensa ottieni, più giusto è quello che stai facendo”, questa è l’unica cosa che diciamo alla macchina.

Questo mini degree tratta il RL nel caso tabellare per problemi dei quali non si conosce il modello. Tabellare vuol dire che è possibile descrivere gli stati e le azioni tramite tabelle, e questo accade quando il problema presenta relativamente pochi stati.

Il caso tabellare senza modello è il primo vero approccio al RL. Poiché non sappiamo in anticipo come risponderà l’ambiente alle nostre azioni, dobbiamo per forza “sperimentare”: facciamo un’azione, vediamo cosa succede, e la prossima volta agiremo di conseguenza!

Questo mini degree prosegue il discorso iniziato con “Fondamenti di Reinforcement Learning” senza soluzione di continuità (le lezioni partono infatti dalla 4). Lo studente che volesse cominciare con questo mini degree deve studiare autonomamente i primi quattro capitoli del libro di testo del corso “Reinforcement Learning” di Sutton e Barto.

Lezione 4. Predizione model-free, 5 parti. In questa lezione ci mettiamo nella situazione in cui sappiamo poco o nulla di come ragiona l’ambiente, e cerchiamo di usare le tecniche imparate fino ad ora per capire quanto valgono le nostre azioni: se io in questo stato faccio questa azione, alla fine di tutto quanto avrò guadagnato in totale? Cerchiamo cioè di “predire” il valore delle nostre azioni, da cui il nome di questo argomento.

Lezione 5. Controllo model-free, 3 parti. In questa lezione usiamo la predizione imparata nella lezione 4 per capire come fare azioni migliori: so che in questo stato, se faccio questa azione, guadagno tot, quale azione devo allora fare per guadagnare più di tot? Questa parte si chiama “controllo”, perché controlliamo le nostre azioni per migliorarle.

Per quanto possibile, le lezioni cercano di essere interattive: vengono proposti in continuazione esercizi, e viene richiesto al discente di mettere in pausa la riproduzione e provare a fare l’esercizio, prima di ascoltare la soluzione. Si raccomanda di seguire questo suggerimento.

Infine: nonostante l’ingente base teorica necessaria, questo corso comprende una forte componente applicativa, che viene svolta nelle esercitazioni associate a ogni lezione. Le esercitazioni sono in Python, pertanto è altamente consigliato il “Corso Propedeutico: Programmazione in Python per il Deep Learning”.

Inoltre, Fondamenti di Reinforcement Learning e Reinforcement Learning e metodi Model-Free inizialmente è stato pensato come un corso unico, ma per l’esigenza di rilasciare CFU, ci ha costretto a dividerlo in due parti.

Lascia un commento

Torna in alto