DINOv2: una svolta nell’apprendimento auto supervisionato per la Computer Vision

Articolo in lingua originale di Vishank Shah

Introduzione

Meta AI ha recentemente reso disponibile DINOv2, un metodo di apprendimento auto-supervisionato per l’addestramento di modelli di computer vision. Questo metodo ha implicazioni significative per il futuro dell’AI e della computer vision, perché consente di creare strutture portanti multiuso che possono essere utilizzate per un’ampia varietà di compiti. In questo articolo parleremo di DINOv2, dei suoi vantaggi, delle sue applicazioni e delle conclusioni.

Cosa è DINOv2?

Il modello DINOv2 si basa su un metodo di apprendimento auto-supervisionato che non richiede grandi quantità di dati etichettati per addestrare i modelli di intelligenza artificiale. A differenza di altri sistemi auto-supervisionati, DINOv2 può essere addestrato su qualsiasi raccolta di immagini, senza bisogno di metadati associati. Grazie a questa flessibilità, il modello può imparare da tutte le immagini che gli vengono fornite, anziché solo da quelle che contengono una serie specifica di hashtag, testi alt o didascalie. DINOv2 fornisce caratteristiche ad alte prestazioni che possono essere utilizzate direttamente come input per semplici classificatori lineari, rendendolo una struttura portante polivalente per molti compiti di computer vision.

Vantaggi di DINOv2

La necessità di annotazioni umane sulle immagini è un collo di bottiglia perché limita la quantità di dati che si possono usare per addestrare un modello. L’addestramento auto-supervisionato di DINOv2 apre la strada a modelli fondamentali, soprattutto in domini applicativi specializzati, come l’imaging cellulare. Inoltre, il metodo di apprendimento auto-supervisionato di DINOv2 è libero dalle limitazioni delle descrizioni testuali, il che lo rende uno strumento più potente per la computer vision. Inoltre, non è necessaria una messa a punto, il che significa che la struttura portante rimane generale e che le stesse caratteristiche possono essere utilizzate simultaneamente per molti compiti diversi.

https://miro.medium.com/v2/resize:fit:1100/0*8uSYLvuOpNX2NjDP

Famiglia di modelli DINOv2 migliora drasticamente rispetto allo scorso stato dell’arte nell’apprendimento auto-supervisionato (SSL) e raggiunge performance confrontabili con componenti debolmente-supervisionate (WSL).

Applicazioni di DINOv2

Le forti capacità di previsione di DINOv2 lo rendono adatto a compiti come la classificazione, segmentazione e recupero di immagini. È interessante notare che nella stima della profondità, le caratteristiche superano in modo significativo le pipeline allo stato dell’arte, valutate sia in-domain che out-of-domain. DINOv2 può essere utilizzato per creare backbone multifunzionali per diversi compiti di visione computerizzata, consentendo la creazione di modelli di immagini di cellule e, di conseguenza, di scoperte biologiche.

Conclusione

Il rilascio di DINOv2 giunge in un momento in cui le performance dei modelli di joint embedding che addestrano features attraverso il matching di dati aumentati si stanno stabilizzando. In conclusione, DINOv2 rappresenta una svolta significativa nell’apprendimento auto-supervisionato, in quanto raggiunge risultati che eguagliano o superano l’approccio standard utilizzato nel campo, pur non richiedendo alcuna messa a punto e pochi dati etichettati. L’open-sourcing di DINOv2 porterà a un aumento della ricerca e dello sviluppo nel campo della computer vision, che in ultima analisi porterà a modelli di intelligenza artificiale migliori e più efficienti.

Riferimenti: Meta AI Blog