Home Blog Le fasi della gestio ...

Le fasi della gestione del dato in una Headless CDP

Luca Ricci

Oggigiorno le aziende stanno investendo sempre di più in nuove tecnologie in grado di raccogliere e aggregare diverse tipologie di dati per rendere il lavoro più agile ed efficiente. Tuttavia, quando si utilizza un complesso stack tecnologico, spesso si verificano sfide significative, come:

  • L’incapacità di gestire i dati in modo centralizzato perché organizzati in silos che non comunicano tra loro, il che comporta una duplicazione delle informazioni e una maggiore manutenzione per la loro pulizia e il loro aggiornamento
  • La creazione di segmenti di pubblico incompleti e poco affidabili a causa della dispersione delle informazioni 
  • La difficoltà, se non l’impossibilità, di integrare piattaforme diverse, con conseguenti problemi nell’attivazione dei dati per creare campagne di marketing personalizzate ed efficaci

Queste sfide spingono molte aziende ad adottare una Customer Data Platform (CDP).

Una CDP è in grado di collezionare, unificare e gestire dati di prima e terza parte in un unico data warehouse, permettendo di avere una visione a 360 gradi dei propri clienti. 

Ciò consente alle organizzazioni di ottenere la business intelligence di cui hanno bisogno per aumentare le vendite, fidelizzare i clienti e prendere decisioni strategiche basate sui dati.

In un bellissimo podcast di Humans of Martech, Michael Katz ricorda gli 8 step essenziali che compongono una Customer Data Platform come riportati da Arpit Choudhury nella sua serie di articoli sulle Customer Data Platforms

  1. Customer Data Infrastructure
  2. ETL
  3. Storage
  4. Identity Resolution
  5. Audience Segmentation
  6. Reverse ETL
  7. Data Quality
  8. Data Governance and Privacy Compliance

Ognuna di queste fasi rappresenta una sfida sia dal punto di vista tecnologico che da quello strategico ed etico. Vediamo insieme quelle che riteniamo essere più significative nel contesto di una soluzione che sfrutta la potenza della Cloud Data Warehouse al posto di una Customer Data Platform tradizionale, ossia:

  1. CDI (Customer Data Infrastructure);
  2. ETL (Extract, Transform, Load) e Data Ingestion;
  3. Identity Resolution
  4. Audience Segmentation
  5. Reverse ETL

CDI (Customer Data Infrastructure)

Questo passaggio include tutte le attività di acquisizione del dato dell’utente. Nella CDI rientrano tutti i tool e le strategie di raccolta, partendo dai pixel di tracciamento analytics e pubblicitari, continuando con la convergenza dei dati all’interno di sistemi CRM, fino a soluzioni più avanzate di raccolta tramite tessere fedeltà al punto vendita, dati geolocalizzati o dati sintetici.

Si tratta di una fase spesso sottovalutata ed approcciata all’inverso, rispetto al flusso ideale.

Si tende ad avere l’approccio di “raccogliere il dato, poi comprendere come utilizzarlo” e molto spesso questo criterio comporta difficoltà nel merge successivo o la mancanza di dati fondamentali. Un esempio classico è il non esporre nel tracciamento online dati tipici del mondo fisico, come l’identificativo utente, che rendono poi impossibile correlare i due comportamenti.

Una buona Customer Data Infrastructure parte dalle esigenze e dagli obiettivi di business, percorre tutto il journey del cliente e ha come obiettivo la raccolta etica e solida di tutti i dati che poi serviranno alle azioni strategiche.

In questa fase è spesso importante avere un approccio lean, tracciando molto, ma non più di quello che serve. Questo approccio permette di risolvere l’illusione di tracciare tutti i dati e far fluire nei sistemi aziendali solo quelli che effettivamente avranno uno scopo.

ETL (Extract, Transform, Load) e Data Ingestion

ETL è il secondo step del percorso del dato dell’utente e prevede tutti i processi che portano all’estrazione del dato, la trasformazione in formato comune e il caricamento nel data warehouse. 

In questa fase le aziende incontrano problemi nella trasformazione dei dati, perdita di dati durante l’ingestione e la necessità di mantenere la coerenza.

Spesso questi problemi derivano da un approccio non ottimale al primo step, nel quale vengono raccolte grandi quantità di dati incoerenti e mal strutturati, lasciando poi tutta la responsabilità dell’ingestion alla fase ETL, nella quale sarà molto complesso risolvere i problemi della fonte.

Anche in questo passaggio, partire dagli obiettivi di business in ottica lean, permette di avere già modelli e strutture del dato note, così come è noto lo scopo. 

Avremo quindi semplicità nel capire come devono essere relazionate le tabelle e il formato ottimale dei dati, rendendo semplice e solido il lavoro di ETL e garantendo la presenza di un data warehouse snello, efficiente e manutenibile.

Identity Resolution

In questa fase, l’identità di un utente viene tracciata attraverso diverse piattaforme utilizzando identificativi univoci. Questo processo è fondamentale per il concetto stesso della Customer Data Platform. Innanzitutto, pone l’attenzione sull’utente invece che sui canali, rendendo ampiamente disponibili azioni di targeting e loyalty. Inoltre, permette di abbattere i silos aziendali e avere una reale visione univoca del comportamento e dell’interazione dell’utente.

Ciò che rende la risoluzione dell’identità complessa è che un’entità può avere più identificatori associati a essa. Questi identificatori possono variare in base alla fonte o al sistema da cui provengono. Ad esempio, una persona può avere un identificatore basato sul suo numero di telefono in un sistema, un altro identificatore basato sul suo indirizzo email in un altro sistema e così via. La gerarchia di ID implica organizzare questi identificatori in una struttura o in una sequenza logica in grado di determinare quali siano più affidabili o prioritari rispetto ad altri.

La parte cruciale della risoluzione dell’identità è il collegamento degli identificatori tra loro. Questo può essere fatto attraverso varie tecniche, come l’analisi delle similarità tra gli identificatori, la verifica dell’uguaglianza tra di essi o l’utilizzo di algoritmi avanzati di correlazione. L’obiettivo è collegare o mappare gli identificatori diversi a un identificatore principale o unico per l’entità in questione.

Audience AI risolve il problema grazie all’assistenza alla configurazione dell’identificativo univoco fin dalla fase di raccolta del dato, in modo che tutto il processo sia poi coerente e razionale e possa evitare complesse attività di modellazione e riconciliazione che rischiano di essere costose e comunque con bassa qualità del dato finale.

Una volta completata la parte di identity resolution possiamo essere sicuri di avere una visione a 360 gradi dell’utente e quindi anche tutti i modelli e i segmenti che andremo ad applicare saranno riconducibili al singolo utente, attivando il massimo delle potenzialità di automazione e personalizzazione dell’esperienza utente.

Audience Segmentation

Gli utenti vengono suddivisi in gruppi omogenei in base a criteri come interessi, comportamenti o demografia. Questo processo consente di personalizzare le strategie di marketing in base alle esigenze e alle preferenze di ciascun gruppo.

Partiamo con il distinguere due processi a volte confusi ma ben diversi fra loro: La segmentazione e la clusterizzazione.

Per segmentazione intendiamo la suddivisione della nostra base clienti in segmenti appunto. Solitamente questa attività viene fatta sulla base di criteri qualitativi e su decisioni di business. Le audience costruite non tengono conto della “similarità” tra utenti che può invece essere presa in considerazione utilizzando tecniche statistiche di clustering. La valenza è sicuramente forte, ma il valore statistico è basso e questo comporta una scarsa affidabilità del dato e una difficoltà poi nell’utilizzare il segmento in azioni di retargeting o di analisi degli insights.

Il clustering è invece un’analisi statistica, che permette di suddividere una audience in gruppi di utenti “simili” tra loro i sulla base dei parametri che stiamo utilizzando. Ad esempio, possiamo produrre un’analisi RFM che miri a identificare i di clienti a maggiore potenziale, quelli frequenti ma con minore importo speso ed i top client. Grazie a una tecnica di clustering 

 come i K-Means, andremo a raggruppare gli utenti in segmenti efficaci e significativi, portando l’etichetta corretta e monitorando statisticamente quando il nostro clustering continua ad avere una buona consistenza.

Spesso la segmentazione dell’utente soffre di problemi che ne compromettono completamente l’efficacia, approfondiamo i più comuni. 

L’appartenenza a gruppi non corretti

Si verifica tipicamente quando andiamo a non utilizzare metodologie statistiche di segmentazione oppure quando il dato in entrata non è corretto. Nel primo caso siamo stati troppo arbitrari nel creare il segmento di pubblico e abbiamo inserito utenti che probabilmente non sono ancora direttamente in quel gruppo. L’esempio classico è inserire nei Top Clients utenti che al momento non sono realmente i clienti migliori dell’azienda, ma che da quel momento in poi riceveranno comunque messaggi e promozioni come se lo fossero.

Nel secondo caso, invece, il problema non risiede nel sistema di segmentazione, ma nella raccolta del dato: abbiamo perso alcune transazioni importanti per un problema al tracciamento oppure abbiamo trasformato male i dati di una certa fonte. In questo modo, un cliente molto importante entrerà in un cluster a minore valore e non godrà appieno di tutte le strategie a lui dedicate.

La dimensione troppo piccola del gruppo di appartenenza

Un altro errore comune nella segmentazione è la tendenza a creare gruppi dalla dimensione troppo ridotta per essere significativi dal punto di vista statistico e utilizzabili nelle piattaforme pubblicitarie.

Se vogliamo essere sicuri che le nostre strategie di marketing sfruttino al massimo la potenzialità della segmentazione, i nostri gruppi devono avere una dimensione tale da poter essere oggetto di campagne sia sulle piattaforme pubblicitarie che all’interno dei nostri sistemi di direct marketing.

Per quanto riguarda le piattaforme pubblicitarie, dobbiamo considerare i limiti di privacy e i limiti di effettiva delivery. Il primo limite è un metodo di tutela delle piattaforme volto a evitare che possano identificare facilmente il singolo utente caricato nelle loro piattaforme e quindi avere informazioni di cui non possiedono consenso. La tutela è assolutamente necessaria ma pone un problema dal punto di vista del targeting. Dobbiamo infatti essere sempre in grado di creare audience di almeno 800/1000 utenti se vogliamo essere sicuri di attivare attraverso Meta o Google. 

Dobbiamo anche ricordare che quando inviamo questi segmenti alle piattaforme, non tutti gli utenti verranno riconosciuti. Le percentuali di match variano sensibilmente da settore a settore e possiamo verificare solo ex-post che le nostre strategie di segmentazione stiano creando audience effettivamente utilizzabili.

Anche nel caso di campagne di direct marketing è importante avere una giusta dimensione dell’audience che possa essere significativa. Avere segmenti di 1-2 utenti non è vantaggioso  dal punto di vista dell’aggregazione e dell’automazione e rischia di non permetterci di inviare messaggi efficaci.

Lo scarso significato del gruppo rispetto alle strategie di marketing

Spesso le operazioni di segmentazione vengono fatte senza tenere conto della strategia di marketing e degli obiettivi aziendali. Tipicamente le aziende sono divise in silos e in base alle tecnologie disponibili, la segmentazione viene eseguita o dal team IT/Data Science o dal team Marketing.

Questa suddivisione dei ruoli porta spesso ad avere segmenti non perfettamente allineati con la strategia e quindi difficili da utilizzare. Avere, ad esempio, un segmento di frequent client potrebbe non essere sempre strategico, se il nostro obiettivo finale non è quello di aumentare il numero dei top client bensì di sviluppare la customer base. 

Nel caso di segmenti per dati demografici o interessi la questione è ancora più sensibile. Rendere disponibili dati sul genere o l’età è un’attività standard che spesso richiede complessità e problematiche di GDPR, quando invece è probabile che non vi sia una campagne che tiene in considerazione questa segmentazione.

Solo l’effettivo coinvolgimento delle persone di business all’interno del progetto di Customer Data Enrichment garantisce di avere audience in linea con le esigenze strategiche e immediatamente applicabili.

La scarsa similarità delle persone all’interno del gruppo

Come abbiamo visto all’inizio, una segmentazione manuale che non tenga conto di un approccio statistico rischia di includere in determinati cluster utenti non effettivamente simili agli altri.

Se da un punto di vista strategico questa flessibilità può essere molto apprezzata, non è raro vedere come l’utilizzo di audience così costruite porti a basse performance nelle campagne, proprio per la non corretta segmentazione delle audience.

Reverse ETL

Il processo di reverse ETL è la parte cruciale della capacità di una CDP di essere integrata in un ecosistema di marketing e attivare realmente le segmentazioni e l’arricchimento dei dati dei clienti.

Il processo rovesciato parte dalla single-source-of-truth, il data warehouse creato nella fase di ETL, ed estrae i dati per integrarli nelle piattaforme di attivazione quali CRM, piattaforme di Marketing Automation, piattaforme di PPC (Google, Meta, TikTok).

Il processo di reverse ETL si occupa solo di creare query efficienti e integrazioni stabili in modo che i dati possano fluire correttamente e permettere al team di marketing di ottenere il massimo dei risultati.

Molto spesso, però, non è sufficiente avere query ben strutturate. Abbiamo bisogno di focalizzare l’attenzione sulla specifica necessità di una campagna o di un journey di automation, affinché il flusso dei dati sia realmente attivabile con una strategia chiara e impattante.

Audience AI parte proprio da questa assumption, rivoltando il paradigma non solo a livello tecnico, ma soprattutto strategico del dato.

Abbiamo elaborato già strategie di attivazione e aumento delle performance come l’enriched bidding e grazie alle nostre strategie possiamo fare il percorso a ritroso ed esporre tutti i dati necessari affinché piattaforme come Google Ads possano beneficiare dei dati di prima parte e migliorare significativamente le performance delle campagne.

Questo processo è reso possibile da una lunga esperienza sia nella raccolta e integrazione dei dati di marketing, sia nella conoscenza profonda delle dinamiche del digital marketing.

In questo modo il processo di Reverse ETL può dirsi realmente end-to-end