Una serie storica, o serie temporale, è una sequenza di osservazioni misurate in un certo intervallo di tempo e ordinate cronologicamente. Esempi classici di serie storiche possono essere le quotazioni giornaliere di un titolo azionario, le precipitazioni medie mensili in una certa area geografica, le vendite trimestrali di un certo prodotto, il pil annuale di un Paese. Da questa tipologia di dati si è solitamente interessati ad estrarre informazioni per caratterizzare il fenomeno oggetto di studio e alla previsione dei valori futuri del fenomeno stesso.
Nel mondo digitale, un esempio di serie temporale può essere il numero di visitatori di un sito web o di un blog e un’analisi interessante è la previsione del numero di utenti che arriverà sul quel blog o su quella pagina in futuro.
Serie storiche e dati digitali
Attraverso le APIs di Google Analytics è possibile scaricare i dati relativi agli utenti giornalieri del proprio sito/blog. In questo esempio abbiamo simulato gli utenti giornalieri dell’ultimo anno di un ipotetico cliente. Il nostro obiettivo è ispezionare i dati per evidenziare eventuali pattern della serie storica.
Utilizzando una visualizzazione standard, come quella proposta nella figura seguente è molto difficile individuare il trend dei nostri dati. Sembra infatti che ci sia un incremento degli utenti, ma specialmente nell’ultimo periodo di tempo l’alta variabilità dei dati rende difficile, se non impossibile, qualsiasi valutazione.
Un primo step dell’analisi consiste nel provare a visualizzare la stagionalità. Un buon modo è quello di utilizzare un semplice box-plot raggruppando i dati per mese. Il box-plot mette in evidenza che i mesi con maggiore traffico sul Blog sono i mesi invernali (Dicembre, Gennaio, Febbraio e Marzo) mentre Aprile, Maggio e Giugno sono i mesi con meno traffico.
La stagionalità è una componente centrale delle serie temporali e quando si ha a che fare con serie storiche l’approccio generale è quello di decomporre la serie nelle sue componenti principali.
In generale le serie storiche sono costituite da un trend, cioè un andamento di lungo periodo che rappresenta l’evoluzione strutturale del fenomeno oggetto di studio; da una stagionalità ovvero da oscillazioni legate all’alternanza delle stagioni e da un una componente residuale.
Quest’ultima può essere ulteriormente scomposta in una componente che rappresenta il movimento congiunturale del contesto che stiamo analizzando (ciclo) e in una componente puramente erratica. L’analisi delle serie storiche non può dunque prescindere da una corretta analisi delle sue componenti.
I due metodi più semplici per decomporre una serie storica sono il metodo additivo e quello moltiplicativo. Semplificando molto possiamo dire che quando la componente stagionale è stabile nel tempo si preferisce una decomposizione additiva, mentre quando l’ampiezza della componente stagionale cambia al cambiare del trend si tende a utilizzare il metodo moltiplicativo. Nel nostro caso abbiamo utilizzato una scomposizione additiva.
La decomposizione della serie storica mette in evidenza che da Gennaio 2019 c’è una diminuzione degli utenti del Blog. Questa tendenza non era facile da evidenziare senza ricorrere agli strumenti di analisi adatti alle serie temporali.
Infine è interessante provare a stimare gli utenti del nostro Blog per il prossimo mese. Anche in questo caso è importante scegliere il metodo di stima in base alle caratteristiche dei dati.
Per tenere conto nelle stime dell’effetto di trend e stagionalità si può applicare uno dei metodi Holt-Winters.
Questi metodi, che prendono il nome dai due autori che li hanno teorizzati e introdotti per primi, sono modelli molto flessibili che consentono di tenere conto anche di trend non polinomiali e di stagionalità non costanti.
Nel nostro caso, applicare una semplice stima lineare porterebbe a prevedere una crescita degli utenti del blog nel prossimo mese, come si vede nel grafico sottostante. Con l’utilizzo, di una stima Holt-Winter, e quindi tenendo conto delle caratteristiche delle serie temporali, otteniamo un risultato molto diverso e si stima una riduzione del numero di utenti (espresso in intervallo di confidenza al 95%) che visiterà il nostro blog nel prossimo mese.
Modelli Stima Lineare e Holt Winters
L’utilizzo di un metodo di analisi appropriato per la natura del fenomeno e dei dati che stiamo studiando risulta dunque fondamentale. Nell’esempio che abbiamo riportato, l’analisi ha messo in evidenza una criticità, che in questo caso è il trend in diminuzione del numero di utenti che arriva sul nostro Blog. Aver individuato questa criticità ci permette di studiare e di mettere in atto una strategia per invertire la tendenza che abbiamo osservato.