Screaming Frog è un SEO Spider molto potente in grado di effettuare analisi SEO OnSite approfondite. In questa guida vedremo alcune delle principali funzionalità molto utili durante le analisi SEO. La versione gratuita di Screaming Frog permette di analizzare fino a 500 URL.
Crawling
Screaming Frog permette di effettuare il crawling di un sito web, di un sottodominio o di una directory specifica.
Crawling: Sottodominio
Nella versione a pagamento, il SEO Spider permette di selezionare l’opzione “Crawl all Subdomain”, nel caso in cui si abbia più di un sottodominio. Se si ha necessità di effettuare il crawl di un solo sottodominio è sufficiente aggiungere l’URL nella casella apposita.
Le funzionalità più utilizzate riguardano il monitoraggio degli status code su un sito web (40x,50x,200 e 30x).
Crawling: Subfolder
Screaming Frog di default effettua il crawling di una directory semplicemente aggiungendo l’indirizzo nella barra come presentato nell’immagine di seguito.
Se si ha necessità di effettuare un crawling avanzato si può utilizzare il carattere jolly che comunica al SEO Spider di effettuare il crawl di tutte le pagine che precedono e/o seguono il “Jolly”. Il percorso da seguire per utilizzare questa funzionalità è:
Spider > Include e aggiungere nel box che appare la sintassi desiderata, ad esempio con questa sintassi: https://www.bytekmarketing.it/chi-siamo/.### lo spider effettua il crawling soltanto delle sezioni del sito web che sono presenti nel ramo “Chi Siamo” del sito web, quindi tutte le risorse che si trovano dopo il carattere “Jolly”. Avviando il crawl verranno estratte tutte le URL “Figlie” della sezione “Chi Siamo”, ad esempio:
https://www.bytekmarketing.it/chi-siamo/roberto-paolucci
https://www.bytekmarketing.it/chi-siamo/mario-rossi
**Questa opzione torna particolarmente utile con siti web di grandi dimensionidove non abbiamo risorse per lavorare su dati molti grandi. Teniamo conto del fatto che i dati del crawling dovranno essere (nella maggior parte dei casi) lavorati in Excel, quindi la base di partenza dovrà essere un dato lavorabile in modo agevole per effettuare “Cerca Vert”, lavorare con i filtri e con i grafici.
Crawling: Lista di URL
Dalla tab “Mode” è possibile selezionare la modalità di crawling, nel caso si voglia effettuare il crawling di un set di URL la modalità da impostare è “List” in quanto è possibile importare un file Excel con una colonna che contiene l’elenco delle URL.
L’altra opzione per analizzate un elenco di URL è il “copia e incolla”, quindi copiare da una fonte esterna (Excel, CSV, TXT o da pagina HTML) l’elenco delle URL e fare click su “Paste”.
N.B. è necessario che ogni URL contenga anche il protocollo http o HTTPS incluso il www, quindi la struttura corretta di ogni URL dovrà essere: http://www.test.it
Crawling: Sito Web di Grandi Dimensioni
Quando si ha necessità di analizzare un sito web di grandi dimensioni e non è sufficiente effettuare il crawl soltanto di HTML e immagini (in ottica SEO molto spesso è bene analizzare anche gli status code di file CSS e JS per assicurarci che gli spider dei motori di ricerca riescano ad effettuare correttamente il rendering delle pagine) si può lavorare sulle impostazioni:
- Configuration > System > Memory ed allocare maggiore memoria, ad esempio 4GB
- Impostare lo storage su database invece che su RAM.
Se anche con queste due configurazioni non è possibile analizzare un sito web di grandi dimensioni, le uniche impostazioni che si possono attivare sono:
- Avviare il crawl per rami del sito web, uno e più rami per volta:
- Con carattere jolly;
- Opzione Include/Exclude;
- Custom robots.txt;
- Profondità di navigazione (Crawl Depth);
- Query string parameters;
- Escludere dal crawling: Immagini, CSS, JS e altre risorse non HTML.
In ottica SEO è fondamentale effettuare un unico crawl perché permette di avere una visione completa, ad esempio la coppia di URL From e URL To in riferimento a 301, 404 o al monitoraggio della distribuzione dei link interni.
N.B. Può capitare che Screaming Frog vada in time out o, in generale, non riesce ad analizzare le risorse (o è molto lento) anche su siti web di piccole dimensioni; in questo caso il problema potrebbere essere legato ad altri fattori, ad esempio alle performance dell’hosting o al fatto che il nostro indirizzo IP (dal quale abbiamo avviato Screaming Frog) sia stato bloccato dal titolare dell sito web (o dalla risorsa IT dedicata).
Il nostro indirizzo IP può essere bannato da un provider perché l’azione di Screaming Frog è del tutto simile ad un attacco hacker (ad esempio di tipo DOS) rivolto ad esaurire le risorse del server e causare errori di tipo 50x.
Salvare il Crawl
Dopo aver terminato il crawling del sito web ci sono molteplici opzioni di esportazione:
- Salvare il sorgente di Screaming Frog:
- Avere il sorgente permette di poter controllare i dati del crawling senza necessità di avviarlo nuovamente. Particolarmente utile per siti web grandi o per collaborare con colleghi e condividere il sorgente.
- Salvare soltanto la tab necessaria;
- Esportare tutte pagine in un file Excel unico;
- Bulk export, molto utile per avere, ad esempio, la distribuzione dei link interni completa:
- All inlinks (per analisi di linking interno);
- All outlinks;
- All anchor text;
- All images;
- dati strutturati schema.org.
Nell’immagine di seguito viene mostrato come effettuare l’esportazione dei dati strutturati schema.org.
File di Configurazione
Screaming Frog permette di esportare un file di configurazione da poter riutilizzare per progetti/clienti futuri. è particolarmente utile se si effettuano analisi SEO per clienti simili (struttura del sito web simile) e sono stati configurati filtri avanzati o opzioni di estrazione particolari (filtri, exclude/include o carattere jolly).
Il file di configurazione torna utile anche se sono stati programmati script custom, ad esempio in Python o da riga di comando per automatizzare operazioni puramente meccaniche. Ad esempio se abbiamo necessità di effettuare una serie di SEO Audit puramente tecnici e nell’output sono richiesti gli stessi dati, non avrebbe senso, per ogni sito web, configurare nuovamente Screaming Frog.
File Robots.txt
Screaming Frog è “Robots.txt Compilant” quindi è in grado di seguire perfettamente le direttive indicate nel robots.txt esattamente come Google Search. Tramite le opzioni di configurazione è possibile:
- ignorare il robots.txt;
- vedere le URL bloccate dal robots.txt;
- opzione di utilizzare un robots.txt custom
L’ultima opzione può tornare utile prima del go-live di un sito web per effettuare il test sul file robots.txt, così da verificare se le direttive indicate nel file sono corrette.
Cookies
Di default Screaming Frog non accetta i cookies, come del resto anche gli spider dei motori di ricerca. Questa opzione viene spesso sottovalutata o ignorata ma in realtà, per alcuni siti web, è di fondamentale importanza perché accettando i cookies si possono sbloccare funzionalità e aggiungere codice che possono dare indicazioni lato SEO e performance estremamente utili.
Ad esempio accettando i cookies si può sbloccare un piccolo JavaScript che aggiunge codice all’HTML della pagina… e se questo codice crea problemi lato SEO come posso verificarlo? Screaming Frog in questo caso ci aiuta come mostrato nell’immagine di seguito.
Creazione di una Sitemap
Uno dei migliori metodi per la creazione di una sitemap è l’utilizzo di un SEO Tool come Screaming Frog, anche l’utilizzo di plugin WordPress come SEO Yoast vanno bene, però si possono presentare problemi di aggiornamento e non compatibilità, ad esempio può succedere che le URL presenti in sitemap restituiscono status code 404.
Si consiglia di generare una sitemap che contenga soltanto URL cononiche e con status code 200. Per siti web di grandi dimensioni è consigliato creare una sitemap per ogni tipologia di contenuto (PDF, Immagini e pagine HTML) e una sitemap per ogni ramo dell’architettura informativa.
Avere sitemap specifiche permette al motore di ricerca di analizzare meglio le URL e le tipologie di file e, lato nostro, permette di avere il pieno controllo ed effettuare agevolmente un confronto tra URL nell’indice di Google Search (operatore site:) e singole sitemap.
Si ricorda che il limite di URL da aggiungere in una sitemap è di 49.999. Per dettagli sugli standard vedere:
https://www.sitemaps.org/protocol.html
Per generare una sitemap con Screaming Frog seguire i seguenti passaggi:
Sitemaps (top bar) > XML Sitemap o Images Sitemap
Tra le opzioni di Screaming Frog è possibile decidere quali pagine includere in base a:
- Pages:
- status code;
- noindex pages;
- canonicalised;
- paginated URLs;
- PDFs.
- Last Modified;
- Priority;
- Change frequency;
- Images:
- Includere/escludere;
- Noindex images;
- Includere immagini rilevanti in base al numero di link che ricevono;
- Includere immagini da una CDN. Per siti web grandi, ad esempio e-commerce, le foto dei prodotti possono essere caricate in un sottodominio o hosting esterno, per una serie di motivazioni come:
- Evitare l’assorbimento di risorse destinate al CMS;
- Facilità di gestione, in quanto possono essere stati creati script di gestione decicati soltanto alle immagini per migliorarne le performance,
- Gestione di cron job per la sincronizzazione tra magazzino fisico ed e-commerce.
Visualizzazioni: Grafi e Diagrammi
Relativamente alla struttura del sito web con focus particolare sull’architettura informativa è utile la sezione “Visualisations” in quanto permette di avere una visione grafica della struttura del sito web, in diagrammi o grafi.
Durante un’analisi di linking interno questa sezione è fondamentale ma si consiglia di integrarla comunque con programmi di mind-map, come xmind e con tool tipo:
https://rawgraphs.io/
Opzioni di Configurazione
Le opzioni di configurazione del SEO Spider sono raccolte ed organizzate in tab, in questo paragrafo esamineremo le macro tab senza scendere nel dettaglio su tutte le singole opzioni.
Basic Tab
- Images;
- CSS;
- JavScript;
- SWF;
- External links;
- Link outside of start folder;
- Follow internal or external nofollow;
- Crawl all subdomains;
- Crawl outside of start folder;
- Crawl canonical;
- Estrazione degli hreflang;
- Crawl dei link all’interno della sitemap;
- Estrazione e crawl dei link AMP;
Limits Tab
Questa tab è utile in particolare per analizzare siti web molto grandi ma non solo. Da questa sezione è possibile:
- Impostare il limite di crawl totale, espresso in numero di URL;
- La profondità di crawling espressa in numero di directory;
- Limite nel numero di query string;
- Il limite di redirect 301 da seguire (per evitare le catene di 301, dannose in termini di utilizzo risorse e quindi crawl budget);
- Lunghezza delle URL da seguire, di default sono 2.000 caratteri;
- Peso massimo delle pagine da analizzare.
Advanced Tab
- Allow cookies;
- Pause on high memory usage;
- Alway follow redirects;
- Always follow canonicals;
- Respect noindex;
- Respect canonical;
- Respect Next/Prev;
- Extract images from img srcset Attribute;
- Respect HSTS Policy;
- Respect self referencing meta refresh;
- Response timeout;
- 5xx Response Retries;
- Store HTML;
- Store rendered HTML;
- Extract Microdata;
- Extract RDFa;
- Schema.org Validaton;
- Google Validation.
Spider Preferences Tab
- Lunghezza dei titoli di pagina (Title) e delle metadescription.
Top Tabs
Nel menu principale in alto del tool sono presenti una serie di pulsanti (tab) i quali aprono delle sezioni, vediamole nel dettaglio.
Internal
La tab internal unisce tutti i dati estratti durante il crawling e aggiunti nelle altre tab (esclusa le tab external, hreflang e custom). L’utilità di questa tab sta nell’avere una visione di insieme e la possibilità di esportare e lavorare il dato esternamente, ad esempio in Excel, con Data Studio o tool di mind-map.
External
Questa tab mostra informazioni legate a URL esterne al dominio.
Protocolli
Da questa sezione è possibile vedere informazioni connesse ai protocolli HTTP e HTTPS sia di URL esterne sia interne. Questa tab è utile per verificare, ad esempio, la corretta migrazione a HTTPS.
Response code
Tale tab fornisce informazioni sui response code, sia interni sia esterni.
Page Titles
Questa tab fornisce informazioni legate ai title delle pagine, in particolare per:
- Title duplicati;
- Title assenti;
- Title minori di 35 caratteri;
- Title maggiori di 65 caratteri;
- Title uguali all’H1;
- Title multipli.
Meta description
Fornisce informazioni sulla metadescription, lunghezza (min e max in ottica SEO), se è duplicata o se assente.
H1
Fornisce informazioni sull’heading tag H1, ad esempio se è uguale al title, in quanto molto spesso (soprattutto negli E-commerce) che i prodotti abbiamo l’H1 uguale al title. Tale criticità può essere risolta, ad esempio, concatenando la variante di prodotto all’attuale H1 e avere un tag originale.
H2
Informazioni su lunghezza e originalità del tah H2.
Images
I dati forniti in questa tab sono legati sia al peso dell’immagine sia al numero di link interni che riceve sia all’Indexability Status. Si ricorda che un’immagine in ottica SEO deve essere considerata come una pagina HTML in quanto, se ben ottimizzata, è in grado di portare traffico organico, ad esempio tramite le ricerche per immagine.
Canonical
Questa tab mostra la lista delle risorse cononiche.
Pagination
Fornisce informazioni sulla paginazione e sulle risorse paginate, in particolare all’utilizzo dei tag Rel Next e Rel Prev.
Hreflang
Questa tab fornisce informazioni sull’utilizzo del tag Hreflang per la corretta impostazione di un sito web multi lingua o multi lingua e multi country.
Gli Audit SEO per i siti web in multi lingua necessitano di effort a parte data la complessità e le analisi da effettuare su più mercati.
Custom
La tab Custom permette di controllare le URL ottenute tramite l’utilizzo di filtri ed estrazioni custom.
Analytics e Search Console
Tramite questa tab è possibile integrare i propri account di Google Analytics e Google Search Console.
Conclusioni
Questa è una guida base all’utilizzo del SEO Spider per comprendere le potenzialità e gli ambiti di utilizzo. Ad oggi Screaming Frog risulta essere uno dei migliori strumenti per condurre analisi SEO tecniche. è sicuramente molto utile integrare questa guida con casi di studio reali applicati a clienti durante i nostri SEO Audit così da rendere il tutto più piacevole da seguire.