Tuning degli iperparametri nel Machine Learning

Articolo in lingua originale di Emmanuel Odenyire Anyira

Una semplice guida per principianti!

Introduzione

I modelli di machine learning sono diventati sempre più complessi nel corso degli anni. Di conseguenza, per ottenere prestazioni ottimali, il tuning dei parametri di questi modelli è diventato un compito arduo. Il tuning degli iperparametri è il processo di selezione della migliore combinazione di iperparametri per un determinato modello. Questo articolo fornisce una guida pratica al tuning degli iperparametri, includendo le tecniche e gli strumenti più comuni che possono essere utilizzati per ottimizzare le prestazioni dei modelli di machine learning.

Cosa sono gli iperparametri?

Nel machine learning, gli iperparametri sono parametri del modello che non vengono appresi dai dati, ma vengono impostati prima dell’addestramento del modello. Questi parametri controllano il processo di apprendimento e influenzano le prestazioni del modello. Gli iperparametri possono includere, tra gli altri, il learning rate, il parametro di regolarizzazione, il numero di layer e la dimensione del batch. I valori ottimali di questi parametri dipendono dal problema e dai dati in questione e non esiste una soluzione unica per tutti.

Perchè il tuning degli iperparametri è importante

Il tuning degli iperparametri è fondamentale per ottenere prestazioni ottimali nei modelli di machine learning. I valori di default degli iperparametri, forniti dalla maggior parte delle librerie di machine learning, spesso non sono i migliori per il problema in esame. Il tuning di questi iperparametri può portare a una maggiore precisione, a una riduzione dei tempi di addestramento e a una migliore generalizzazione. La regolazione degli iperparametri può anche aiutare a prevenire l’overfitting, un problema comune nel machine learning per cui un modello funziona bene sui dati di addestramento ma male sui dati di test.

Tecniche di tuning degli iperparametri

Esistono svariate tecniche per il tuning degli iperparametri, tra cui la grid search, la random search e l’ottimizzazione Bayesiana.

Grid Search

La Grid Search è una tecnica semplice e intuitiva per la regolazione degli iperparametri. Consiste nel definire una griglia di valori di iperparametri e nell’addestrare un modello per ogni combinazione di iperparametri. La combinazione che produce le migliori prestazioni viene quindi selezionata come set ottimale di iperparametri.

La grid search può richiedere molto tempo, soprattutto per griglie di grandi dimensioni e modelli complessi. Tuttavia, è facile da implementare e fornisce un approccio sistematico alla regolazione degli iperparametri.

Random Search

La random search è un’altra tecnica di tuning degli iperparametri, meno costosa dal punto di vista computazionale rispetto alla grid search. Consiste nel selezionare casualmente gli iperparametri da una distribuzione e nell’addestrare il modello con ciascun set di iperparametri. L’insieme ottimale di iperparametri viene quindi selezionato in base alle migliori prestazioni.

La random search ha meno probabilità di rimanere bloccata in un minimo locale rispetto alla grid search e può esplorare una gamma più ampia di iperparametri. Tuttavia, può non essere efficiente come altre tecniche e può essere difficile definire una distribuzione appropriata per gli iperparametri.

Ottimizzazione Bayesiana

L’ottimizzazione bayesiana è una tecnica più avanzata per il tuning degli iperparametri, utilizza modelli probabilistici per prevedere le prestazioni di diverse combinazioni di iperparametri. Si tratta di creare una funzione surrogata che modella le prestazioni del modello in funzione degli iperparametri. La funzione surrogata viene quindi utilizzata per determinare l’insieme più promettente di iperparametri da provare successivamente, in base al miglioramento atteso delle prestazioni.

L’ottimizzazione bayesiana può essere più efficiente della grid search e della random search, in quanto può identificare rapidamente gli iperparametri più promettenti da provare successivamente. Può anche gestire spazi di ricerca non lineari e non convessi. Tuttavia, può essere più impegnativa da implementare rispetto ad altre tecniche e può richiedere maggiori risorse computazionali.

Strumenti per il tuning degli iperparametri

CI sono diversi strumenti disponibili per il tuning degli iperparametri, tra questi:

Scikit-learn: diffusa libreria di machine learning che offre strumenti per il tuning degli iperparametri, ad esempio GridSearchCV e RandomizedSearchCV
Keras Tuner: libreria per il tuning degli iperparametri tramite Keras, in particolare è una libreria per il deep learning. Offre diversi algoritmi per il tuning degli iperparametri, tra cui RandomSearch e Hyperband.
Optuna: libreria python per l’ottimizzazione dei parametri tramite ottimizzazione Bayesiana. Può essere utilizzata insieme ad una libreria di machine learning, comprese TensorFlow e PyTorch. Offre diversi algoritmi di ottimizzazione, ad esempio TPE e CMA-ES.
Hyperopt: libreria Python per l’ottimizzazione degli iperparametri che utilizza una combinazione tra ottimizzazione Bayesiana e stimatori di Parzen ad albero strutturato (TPE, tree-structured Parzen Estimators). Offre diversi algoritmi di ottimizzazione, tra cui TPE e random search.

Consigli pratici per il tuning degli iperparametri

Ecco alcuni consigli pratici per il tuning degli iperparametri:

Iniziare con valori di default: La maggior parte delle librerie di machine learning fornisce valori predefiniti per gli iperparametri. È una buona idea iniziare con questi valori predefiniti prima di tentare di sintonizzare gli
Definire uno spazio di ricerca: Prima di applicare qualsiasi algoritmo di ottimizzazione, definire uno spazio di ricerca per gli iperparametri. Può trattarsi di un intervallo di valori o di una distribuzione per ciascun iperparametro.
Utilizzare un validation set: Quando si fa tuning degli iperparametri, è essenziale utilizzare un validation set per evitare l’overfitting. Questo si può ottenere dividendo i dati in training set, validation set e test set. Il set di validazione viene utilizzato per valutare le prestazioni del modello durante il tuning degli iperparametri.
Bilanciare esplorazione e sfruttamento: È importante bilanciare l’esplorazione e lo sfruttamento nella ricerca dell’insieme ottimale di iperparametri. L’esplorazione comporta la sperimentazione di nuove configurazioni di iperparametri, mentre lo sfruttamento comporta la selezione di configurazioni di iperparametri che hanno dato buoni risultati in passato.

Conclusioni

Il tuning degli iperparametri è una fase critica nella costruzione di modelli di machine learning che raggiungano prestazioni ottimali. Esistono diverse tecniche e strumenti disponibili per il tuning degli iperparametri, tra cui grid search, random search e ottimizzazione Bayesiana. Consigli pratici per il tuning degli iperparametri includono iniziare con valori di default, definire uno spazio di ricerca, utilizzare un validation set e bilanciare esplorazione/sfruttamento. Con il giusto approccio e i giusti strumenti, il tuning degli iperparametri può migliorare significativamente le performance di un modello di machine learning.

Riferimenti

Bergstra, J., & Bengio, Y. (2012). Random search for hyper-parameter optimization. Journal of Machine Learning Research, 13(Feb), 281–305.
Brochu, E., Cora, V. M., & de Freitas, N. (2010). A tutorial on Bayesian optimization of expensive cost functions, with application to active user modeling and hierarchical reinforcement learning. arXiv preprint arXiv:1012.2599.
Bergstra, J., Yamins, D., & Cox, D. (2013). Making a science of model search: hyperparameter optimization in hundreds of dimensions for vision architectures. In Proceedings of the 30th International Conference on Machine Learning (ICML-13) (pp. 115–123).
Ruder, S. (2016). An overview of gradient descent optimization algorithms. arXiv preprint arXiv:1609.04747.
Scikit-learn. (n.d.). Hyperparameter tuning. Retrieved from https://scikit-learn.org/stable/modules/grid_search.html
Keras Tuner. (n.d.). Keras Tuner. Retrieved from https://keras-team.github.io/keras-tuner/
Optuna. (n.d.). Optuna: A hyperparameter optimization framework. Retrieved from https://optuna.org/
Hyperopt. (n.d.). Hyperopt: Distributed asynchronous hyperparameter optimization in Python. Retrieved from http://hyperopt.github.io/hyperopt/