L'intelligenza artificiale sta rivoluzionando il settore aziendale, offrendo strumenti avanzati per analizzare i dati e comprendere i comportamenti degli utenti. Attraverso tecniche di apprendimento automatico ed elaborazione del linguaggio naturale, le aziende possono estrarre informazioni preziose dalle interazioni digitali, personalizzare le esperienze dei clienti e ottimizzare le strategie di marketing.
In questo articolo esploreremo come l'AI consenta di identificare con precisione gli interessi degli utenti a partire dai dati di navigazione, focalizzandoci sulle sfide e le soluzioni tecniche associate a questo processo.
Analisi degli interessi: come funziona
Per identificare gli interessi di un utente che visita un sito web, è sufficiente raccogliere e analizzare i dati di navigazione, ossia le pagine consultate. Questi dati, essendo raccolti direttamente dal sito, rientrano nella categoria dei dati di prima parte.
Il processo prevede di assegnare un'etichetta indicante un interesse tematico e/o di prodotto a ciascuna pagina del sito. Una volta assegnate queste etichette, è sufficiente analizzare come l'utente abbia navigato attraverso diversi interessi.
Immaginiamo di voler identificare gli interessi di prodotto di un utente che naviga sul sito di Amazon. Utilizzando un algoritmo semplice che considera le pagine visualizzate e il tempo trascorso su di esse, possiamo dedurre che l'utente è interessato, ad esempio, ai tappeti, basta fornire all'algoritmo le categorie di prodotto associate alle varie pagine.
Tuttavia, attribuire un interesse tematico agli utenti che visitano diverse pagine può essere più complesso. Supponiamo che lo stesso utente abbia visitato tre pagine che, basandosi solo sulla tipologia di prodotto, non hanno nulla in comune. Queste pagine, però, potrebbero condividere un interesse trasversale o "custom", come ad esempio un'attenzione particolare all'ecosostenibilità e all'ambiente.
In questo caso, potremmo assegnare all'utente sia un interesse di prodotto sia un interesse personalizzato, indicando che è sensibile a temi ambientali. Di conseguenza, sarebbe opportuno proporgli prodotti correlati a questo ambito.
Il processo di attribuzione di questo interesse sembra semplice: occorre analizzare il contenuto testuale delle pagine e assegnare la stessa etichetta a tutte quelle pagine che trattano lo stesso argomento. Tuttavia, qui emergono le principali sfide, poiché è necessaria un'analisi semantica sofisticata e la capacità di riconoscere temi comuni all'interno di contenuti eterogenei.
Analisi degli Interessi: approcci e algoritmi
Per categorizzare le pagine di un sito in base a interessi tematici, si possono adottare approcci diversi, qui ne proponiamo tre cercando di evidenziarne vantaggi e svantaggi.
Machine Learning
Il primo approccio, quello più tradizionale, prevede l'utilizzo di un classico modello di classificazione basato sul machine learning. In questo caso, è necessario selezionare un algoritmo di classificazione tra i molti disponibili e procedere alla costruzione di un dizionario per l'addestramento dell'algoritmo stesso. Ciò implica avere una chiara definizione di tutte le etichette personalizzate con cui si desidera classificare le pagine del sito e fornire un numero adeguato di esempi, testi e descrizioni associati a ciascuna etichetta.
Questi modelli presentano alcuni vantaggi significativi. Innanzitutto, sono deterministici, il che significa che applicando lo stesso algoritmo agli stessi dati si otterrà sempre il medesimo risultato. Inoltre, hanno costi contenuti e possono essere implementati internamente senza la necessità di ricorrere a provider.
Tuttavia, esistono anche delle limitazioni. L'addestramento del modello richiede la creazione di un dizionario spesso molto esteso; non è sufficiente fornire uno o due esempi per etichetta, ma ne servono molti di più. Questo significa che è necessario un notevole sforzo per creare un dizionario adatto al training del modello. Inoltre, questi modelli funzionano efficacemente quando il numero di cluster è limitato. In un sito come Amazon, dove si possono identificare centinaia di cluster, l'approccio diventa meno praticabile. Ogni volta che si aggiunge un nuovo cluster, etichetta o interesse, è necessario aggiornare il dizionario e riaddestrare il modello, rendendo questo metodo poco sostenibile.
AI Generativa
Il secondo approccio prevede l'utilizzo di modelli di intelligenza artificiale generativa, che può essere implementato in due modi: con limitazioni e senza limitazioni.
AI Generativa con limitazioni
Utilizzando l'Intelligenza Artificiale generativa “con limitazioni”, si fornisce allo strumento l'intera lista dei cluster desiderati e pochi esempi per ciascuno, significativamente meno rispetto ai 30-40 esempi necessari nei modelli di machine learning tradizionali. Questi modelli pre-addestrati eccellono nella gestione di un gran numero di cluster e richiedono poca manutenzione, poiché piattaforme come OpenAI gestiscono gran parte del processo. Per aggiungere un nuovo cluster, è sufficiente modificare il prompt iniziale, includere il nuovo cluster e aggiungere un paio di esempi.
Tuttavia, questo metodo presenta due problemi fondamentali:
- Il modello non è deterministico: applicando più volte lo stesso algoritmo agli stessi dati, si possono ottenere risultati diversi, il che è indesiderabile per la coerenza dei dati.
- Costi Elevati: se si dispone di un sito con, ad esempio, 20.000 pagine, l'utilizzo dell'API fornite da un provider diventa economicamente insostenibile. Questo non solo a causa dell'elevata mole di dati da analizzare, ma anche perché i prompt lunghi necessari per il processo aumentano significativamente i costi.
AI Generativa senza limitazioni
In questo caso, invece di fornire tutti i cluster, si passano all'AI generativa solo alcuni esempi, chiedendo al modello di effettuare la classificazione basandosi su di essi e inventando altri cluster utili alla classificazione. Il primo run può funzionare egregiamente: lo strumento legge, classifica e identifica cluster significativi. Con un prompt ben formulato, i risultati ottenuti possono essere molto soddisfacenti. Inoltre, l'AI può autonomamente individuare nuovi cluster emergenti. Questo metodo è efficace con molti cluster e richiede pochissimi esempi.
Nonostante i vantaggi, esistono delle criticità:
- Il modello rimane non deterministico: ogni volta che si rilancia il modello per aggiornare gli interessi, esso può generare cluster diversi, non ricordando le classificazioni precedenti. Ad esempio, ciò che oggi è etichettato come "ecosostenibilità" potrebbe diventare "rispetto per l'ambiente" in una successiva esecuzione. Questo porta alla necessità di implementare un sistema di pulizia e standardizzazione dei risultati, vanificando in parte i benefici iniziali.
- Sebbene i costi siano inferiori rispetto alla versione con limitazioni, rimangono comunque piuttosto elevati.
In uno scenario ideale, avremmo un modello deterministico a cui poter fornire un dizionario relativamente limitato, evitando così di impiegare troppo tempo nella sua costruzione. Il modello dovrebbe funzionare efficacemente con numerosi cluster, richiedere poca manutenzione e avere costi contenuti.
La nostra Soluzione con gli Embeddings
Per raggiungere questo obiettivo, abbiamo adottato un approccio basato sugli embeddings, un algoritmo fondamentale nell'IA generativa. Gli embeddings trasformano il testo in vettori numerici ad alta dimensionalità, mantenendo il significato semantico del contenuto. Questa trasformazione è cruciale perché consente di confrontare testi in base al loro contenuto semantico.
Una volta che ogni testo è rappresentato come vettore numerico, è possibile calcolare la distanza tra due testi, analogamente al calcolo della distanza tra due punti nello spazio numerico. Anche utilizzando la semplice distanza euclidea, si possono ottenere risultati significativi. Ad esempio, la distanza tra le parole "tappeto" e "kilim" (un tipo di tappeto) risulta molto minore rispetto a quella tra "tappeto" e "bicchiere", poiché gli embeddings catturano le relazioni semantiche tra le parole.
Vantaggi dell'Approccio con Embeddings
Questo metodo risolve efficacemente i problemi precedenti:
- Determinismo: Il modello produce risultati coerenti ad ogni esecuzione.
- Cluster Predefiniti: I cluster vengono forniti in fase di training, evitando la generazione di cluster indesiderati.
- Dizionario Limitato: Sono sufficienti 3-4 esempi per cluster, riducendo il tempo di preparazione.
- Scalabilità: Funziona bene con un elevato numero di cluster.
- Bassa Manutenzione: Richiede interventi minimi dopo l'implementazione iniziale.
- Costi Contenuti: I costi sono gestibili e inferiori rispetto ad altre soluzioni.
Assegnazione degli Interessi agli Utenti
Una volta assegnate le etichette a tutte le pagine, il passo successivo è attribuire prodotti e/o interessi a ciascun utente. Per farlo, abbiamo sviluppato un algoritmo proprietario che considera sia il comportamento individuale dell'utente sia quello collettivo degli altri utenti.
Ad esempio, un utente realmente interessato all'ecosostenibilità tende a visitare molte pagine correlate, dedica tempo alla lettura dettagliata delle descrizioni dei prodotti e interagisce approfonditamente con il contenuto. Di conseguenza, un accesso occasionale a una pagina sulla sostenibilità non è sufficiente per concludere che l'utente sia interessato a questo tema.
È fondamentale analizzare:
- Comportamento Trasversale: Come l'utente interagisce con diversi interessi.
- Confronto Collettivo: Come il suo comportamento si rapporta a quello di altri utenti con interessi simili.
Solo attraverso questa analisi approfondita è possibile determinare con un alto grado di confidenza gli interessi genuini dell'utente.
Questo approccio integrato consente di ottenere una classificazione degli interessi più accurata e affidabile, migliorando la personalizzazione e l'efficacia delle strategie di marketing e di interazione con gli utenti.