Natural Language Processing nella pubblicità contestuale

Articolo in lingua originale di Panteha Naderian

Immagine che mostra un esempio di pubblicità su cellulare, fornita da StackAdapt

I modelli di pubblicità contestuale analizzano i contenuti delle pagine web e determinano dove posizionare gli annunci più adatti e pertinenti sui siti web. Il presupposto principale alla base della pubblicità contestuale è che gli utenti fruiscano di contenuti su argomenti a cui sono interessati. Ad esempio, se un utente legge delle ultime tendenze della moda in fatto di scarpe con i tacchi alti, è probabile che sia interessato all’acquisto di un nuovo paio di scarpe. Gli studi hanno dimostrato che le persone si interessano molto più spesso agli annunci che appaiono in contesti rilevanti. Inoltre, con l’aumento dei problemi di privacy legati ai cookie del browser, è diventato imperativo per i DSP investire nella pubblicità contestuale.

La tecnologia centrale della pubblicità contestuale è l’elaborazione del linguaggio naturale (NLP). Questa tecnologia aiuta a modellare meglio i contenuti presenti in una pagina web e a lavorare con un algoritmo di offerta per garantire che una DSP vinca l’asta per inserire annunci pertinenti in un contesto di alta qualità.

Noi di StackAdapt esploriamo regolarmente le più recenti tecniche di natural language processing e con i recenti approcci tecnologici, tra cui i transformers,  modelli pre-addestrati di grandi dimensioni e i few-shot learners, non ci sono limiti.

 

Qui di seguito, esploro tre pubblicazioni di NLP che possono essere potenzialmente utili per costruire modelli di targeting contestuale: Intriguing Properties of Compression on Multilingual Models

I modelli multilingue sono strumenti potenti in grado di analizzare e operare in diverse lingue, eliminando la necessità di addestrare modelli separati per ogni lingua. Questo approccio offre diversi vantaggi interessanti, tra cui prestazioni più elevate nelle lingue con scarse risorse, manutenzione ridotta e risparmi sui costi. In particolare, può essere utile per la pubblicità contestuale, in quanto accelera notevolmente il processo di espansione in nuove lingue e paesi.

Questo documento analizza l’impatto della compressione e della sparsificazione sui modelli multilingue. Sappiamo che con l’aumento delle dimensioni e dei parametri dei modelli multilingue, è sempre più difficile implementarli in ambienti con risorse limitate. In particolare, gli autori si concentrano sui metodi di sparsificazione con potatura, in cui tutti i pesi inferiori a una soglia prestabilita vengono eliminati dal modello.

Lo studio ha sperimentato vari parametri di compressione, rivelando alcune intuizioni interessanti. In primo luogo, le lingue a basse risorse soffrono tipicamente di prestazioni inferiori con una sparsificazione estrema; tuttavia, le compressioni a medio raggio possono migliorare le loro prestazioni. In secondo luogo, è possibile che la sparsificazione possa migliorare la robustezza riducendo l’overfitting.

Training Compute-Optimal Large Language Models

(Reference)

Negli ultimi anni, i ricercatori hanno osservato miglioramenti promettenti in una serie di compiti NLP aumentando le dimensioni dei modelli linguistici. Di conseguenza, negli ultimi anni sono stati addestrati modelli linguistici più grandi, come GPT-3 con 175 miliardi di parametri, Gopher con 280 miliardi di parametri e MT-NLG con 530 miliardi di parametri. Una naturale evoluzione della ricerca in corso è la scoperta di metodi per migliorare l’ottimizzazione delle risorse computazionali. Queste ottimizzazioni possono portare a un risparmio di costi e a un uso più efficace delle risorse nella pubblicità contestuale.

In questo lavoro, gli autori hanno cercato di trovare un modello linguistico ottimale dal punto di vista computazionale, dato uno specifico vincolo di risorse. In particolare, l’obiettivo è stato quello di trovare un numero ottimale di parametri (N) e di token (D) che riducesse al minimo la perdita del modello in base a un vincolo computazionale prestabilito. Hanno sperimentato 400 modelli diversi per stimare empiricamente i valori ottimali di N e D. È interessante notare che i modelli ottimali tendono ad avere un numero maggiore di token e un numero minore di parametri rispetto agli attuali modelli pre-addestrati.

Ad esempio, per lo stesso budget utilizzato per addestrare Gopher, il modello ottimale dovrebbe avere un numero di token quattro volte superiore e un numero di parametri pari a un quarto. Estraendo questi numeri ottimali, gli autori hanno introdotto Chinchilla con 1,4 trilioni e 70 miliardi di parametri. Questo approccio non solo ha portato a risultati migliori, ma ha anche ridotto i costi di inferenza grazie al minor numero di parametri del modello.

Learned Incremental Representations for Parsing

(Reference)

Il parsing sintattico può migliorare la comprensione del linguaggio estraendo le dipendenze grammaticali in una frase. In particolare, questo lavoro si concentra sul parsing sintattico incrementale, un processo in cui il modello elabora gradualmente una frase parola per parola per estrarre le dipendenze grammaticali e attribuire significato e struttura a ciascuna parola. Questo metodo contrasta con altri approcci in cui il modello attende l’intera frase per iniziare l’analisi. Gli autori ci ricordano che questo è molto simile al modo in cui gli esseri umani comprendono il linguaggio, elaborando le frasi in modo incrementale piuttosto che aspettare che venga pronunciata la frase completa.

La sfida principale che il lavoro si propone di affrontare è quella del false committing nell’elaborazione incrementale, in cui il modello si impegna in una struttura errata nei momenti di ambiguità che diventa evidente solo una volta che la frase completa è stata rivelata. Un approccio semplice per superare questo problema è la ricerca a raggiera, in cui il modello considera più soluzioni plausibili simultaneamente e seleziona la struttura più accurata una volta che la frase è completa.

Gli autori hanno proposto una soluzione per il false committing addestrando un modello end-to-end. La prima metà del modello combina il codificatore GPT-2, seguito da una fase di discretizzazione in cui i vettori continui vengono compressi in un piccolo insieme di simboli. La seconda metà del modello è costituita da una rete di lettura bidirezionale che legge i simboli discretizzati e crea la struttura sintattica finale dell’intera frase.

 

Conclusione

Abbiamo analizzato diverse pubblicazioni recenti che potrebbero essere potenzialmente utili nella pubblicità di contesto. I modelli multilingua offrono un aiuto nell’analizzare pagine web destinate a diversi paesi e con diversi linguaggi. Calcolare modelli ottimali può aiutare a migliorare la gestione delle risorse computazionali e utilizzare un parsing sintattico può portare ad una comprensione del linguaggio più accurata.

 

Se siete interessati a conoscere di più il lavoro di StackAdapt esplorate l’Engineering career path!

Share:

Contenuti
Torna in alto