Fondamenti di Reiforcement Learning

Course Access: Lifetime
Course Overview

Questo mini degree tratta il RL nel caso tabellare per problemi dei quali si ha una completa descrizione del modello. Tabellare vuol dire che è possibile descrivere gli stati e le azioni tramite tabelle, e questo accade quando il problema presenta relativamente pochi stati; completa descrizione del modello vuol dire che sappiamo in anticipo le conseguenze delle nostre azioni: per esempio, se io tiro un dado non truccato so in anticipo che uscirà 1,2,3,4,5 o 6 con probabilità 1/6, mentre questa stessa cosa non si può dire se il dado è truccato.

Il caso tabellare con modello può essere considerato il caso base, e la sua comprensione è fondamentale per i successivi mini degree: quello model-free, in cui non supporremo più di conoscere il modello; quelli con approssimazione, in cui gli stati e le azioni saranno così tanti da dover essere ridotti a un numero più piccolo tramite tecniche di approssimazione. Questi sono vero e proprio RL, mentre al caso base ci si riferisce spesso come “programmazione dinamica”.

Lezione 1. Introduzione, 3 parti. Qui diamo una panoramica a tutto campo del RL.

Lezione 2. Markov Decision Processes, 4 parti. In questa lezione spieghiamo in dettaglio cosa sono i “processi di decisione di Markov”, ovvero dei grafi con nodi stato e nodi azione che formalizzano i problemi che vogliamo risolvere. Inoltre, introduciamo gli attori, ovvero l’agente, che vuole risolvere il problema tramite azioni successive, e l’ambiente, che fa parte del problema e alle azioni dell’agente risponde con uno stato e una ricompensa.

Lezione 3. Programmazione dinamica, 4 parti. Qui finalmente risolviamo i problemi, nel caso base in cui sappiamo esattamente come ragiona l’ambiente.

Per quanto possibile, le lezioni cercano di essere interattive: vengono proposti in continuazione esercizi, e viene richiesto al discente di mettere in pausa la riproduzione e provare a fare l’esercizio, prima di ascoltare la soluzione. Si raccomanda di seguire questo suggerimento.

Infine: nonostante l’ingente base teorica necessaria, questo corso comprende una forte componente applicativa, che viene svolta nelle esercitazioni associate a ogni lezione. Le esercitazioni sono in Python, pertanto è altamente consigliato il “Corso Propedeutico: Programmazione in Python per il Deep Learning”.

Inoltre, Fondamenti di Reinforcement Learning e Reinforcement Learning e metodi Model-Free inizialmente è stato pensato come un corso unico, ma per l’esigenza di rilesciare CFU, ci ha costretto a dividerlo in due parti.

 

Submit your response