Indicizzazione e ottimizzazione

Per comprendere i principi fondamentali dell’ottimizzazione è necessario capire a grandi linee come funzionano i motori di ricerca. Il meccanismo alla base di tale funzionamento è detto indicizzazione perché viene creato un indice del web consultabile dagli utenti mediante la ricerca per parole chiave. Quest’indice viene compilato sulla base di ciò che incontrano gli spider dei motori di ricerca quando esplorano la rete. Gli spider (o crawler) sono agenti software programmati per scandagliare in profondità il web seguendo i link che collegano fra loro le varie pagine. Il nome non è dato a caso: web in inglese significa tela, e l’analogia è quella con la ragnatela percorsa in lungo e in largo dal ragno (lo spider appunto). L’indicizzazione è dunque il processo mediante il quale i motori di ricerca visitano le pagine web memorizzando un estratto del loro contenuto. La frequenza di queste visite varia a seconda del ranking. Migliore è il posizionamento di un sito web, più frequenti saranno le visite degli spider, e dunque eventuali aggiornamenti del sito saranno indicizzati più velocemente.
Una buona indicizzazione è condizione necessaria ma non sufficiente per un buon posizionamento naturale di un sito web. Non è sufficiente perché il sito deve anche possedere le caratteristiche premiate dai criteri di ranking, ma è necessaria perché sarebbe inutile applicare tecniche SEO avanzate su di un sito che i gli spider non riescono nemmeno a vedere. Si calcola che i motori di ricerca riescano a raggiungere solo una piccola porzione del web, che resta per la maggior parte non indicizzato. Sono soprattutto i database e le reti con accesso protetto a rimanere fuori, ma in molti casi si tratta di siti web non ottimizzati dai loro creatori. In linea generale, più un sito è progettato in modo semplice, più facilmente sarà indicizzabile. Per contro, maggiore è la complessità della sua struttura, più difficile sarà per gli spider districarsi nei suoi meandri. Più completa è l’indicizzazione di un sito, maggiore sarà la cosiddetta search engine saturation, vale a dire la quantità di pagine indicizzate rispetto al totale delle pagine di un sito; maggiore la search engine saturation, maggiore è la probabilità che il sito venga trovato, perché aumentano le pagine in corsa per i primi posti del ranking. È evidente che i siti più grandi e sviluppati hanno potenzialmente più pagine indicizzabili, tuttavia può aumentare anche la difficoltà che hanno gli spider a muoversi al loro interno se il sito non è stato progettato secondo i crismi stabiliti dai motori di ricerca. Dunque, non tutti i siti web vengono indicizzati completamente, e alcuni non vengono indicizzati per nulla a causa di una progettazione e realizzazione che non tiene conto delle esigenze tecniche dei motori di ricerca. Chi possiede un sito non indicizzato può forse consolarsi sapendo che è in buona compagnia: la corretta indicizzazione di un sito web dipende infatti dal modo in cui esso è stato progettato e programmato ma, contrariamente a quanto generalmente si crede, la maggior parte dei siti non è progettata seguendo queste linee guida. Questo per ragioni tecniche: sia i programmatori web, sia i web designer, nel loro lavoro di realizzazione dei siti utilizzano tecnologie che di rado sono progettate per l’indicizzazione. Si tratta di tecnologie che consentono soluzioni sofisticate e accattivanti per la navigazione, ma con uno svantaggio dato dalla creazione di codice illeggibile e pesante; non è raro imbattersi in siti web che per visualizzare una paginetta di testo impiegano migliaia di righe di codice, e più aumenta il codice, più aumenta il rischio che gli spider ne leggano solo una parte, poiché è limitato il tempo designato per la visita ad ogni sito.
Ad appesantire il codice dei siti web sono spesso i CMS (content management system), piattaforme impiegate dai programmatori web per costruire siti molto complessi con poche istruzioni codificate. I CMS producono però pagine dal codice estremamente lungo e complicato, ostico per gli spider. La problematica si acuisce nel caso dei siti di commercio elettronico, caratterizzati da una notevole complessità data dalla quantità di articoli in vendita e dalle molte funzionalità previste per facilitare gli acquisti. Recentemente, sia pure con largo ritardo rispetto alla persistenza del problema, gli sviluppatori di CMS e piattaforme per l’e-commerce hanno provveduto a realizzare sistemi search engine friendly, che consentono di ovviare alle problematiche descritte; trattandosi di un settore nevralgico, non è da escludere che a breve termine vengano sviluppati CMS completamente compatibili con i motori di ricerca. Idealmente ogni scheda prodotto dovrebbe essere correttamente indicizzata; pagine dinamiche come ad esempio quelle di transazione via carta di credito, o di inserimento dati per autenticarsi nel sito, possono ovviamente essere trascurate dal motore di ricerca.
Un altra tecnologia web che rende problematica l’indicizzazione è Ajax, molto usata nei social network e in tutti quei siti dove il contenuto viene aggiornato senza che avvenga materialmente il reload della pagina web; come altri metodi di programmazione che sfruttano script, le pagine che impiegano Ajax sono difficilmente leggibili dagli spider. Diversa tecnicamente, ma analoga nel principio, è la situazione per quanto riguarda la realizzazione di siti dal design sofisticato o comunque con una grafica molto complessa. I web designer impiegano apposite tecnologie, come ad esempio Flash, che mal si combinano con le esigenze degli spider dei motori di ricerca che non supportano l’indicizzazione di questo formato e faticano ad addentrarsi in siti che fanno largo usi di questo tipo di tecnica. Va detto che anche la tecnologia dei motori di ricerca è stata aggiornata in modo da allargare la tipologia di siti indicizzabili, e attualmente alcune parti in flash dei siti web vengono parzialmente indicizzate, così come alcuni tipi di siti dinamici complessi e con soluzioni tecniche che in passato rendevano un sito off limits per gli spider. Non ci sono ancora però garanzie di funzionamento, e deve essere chiaro che il potere acquisito da Google è oramai tale da costringere gli altri ad adeguarsi ai loro standard, piuttosto che viceversa. Ecco perché molti siti, talvolta anche costosi da realizzare, risultano di fatto invisibili agli spider. In taluni casi è necessario eseguire modifiche radicali, se non addirittura rifare il sito da zero, se si vuole essere inseriti nei loro indici. Prevenire è meglio che curare: un sito progettato con tutti i crismi per l’indicizzazione ha una marcia in più rispetto agli altri. Al di là dei casi specifici, i principali accorgimenti che rendono un sito ben indicizzabile sono i seguenti:

• Impiegare hosting e server adeguati alla programmazione del sito

• Creare pagine poco pesanti da caricare anche per connessioni non adsl

• Creare una struttura di navigazione gerarchica, possibilmente ad albero

• Mantenere per quanto possibile il codice in html secondo gli standard di accessibilità W3C

• Se il sito è dinamico, scrivere url con uso limitato di parametri e variabili di sessione

• Evitare di creare url duplicate per la medesima pagina

• Assicurarsi che ogni pagina sia collegata adeguatamente tramite link in ingresso e uscita

• Creare una pagina di errore 404 che riporti il alla homepage con un link

• Utilizzare esclusivamente menù testuali html

• Limitare allo stretto indispensabile l’uso di tecnologie come Flash , Java, Javascript, Ajax

• Limitare al minimo indispensabile l’impiego di frame e iframe

• Limitare l’impiego di tabelle nidificate

• Creare pagine con quantità limitata di codice

Esempi di siti che meglio interpretano queste indicazioni sono Wikipedia, Yahoo Directory, i blog su piattaforme come WordPress o Blogger. E’ evidente che siti molto sviluppati, sia a livello di struttura che di grafica, devono essere progettati con estrema cura per essere ben indicizzati. Qualora non sia possibile osservare queste linee guida, si può sopperire in parte a possibili limitazioni dell’indicizzazione creando una sitemap xml. Si tratta di un elenco delle url del sito, che è possibile generare tramite appositi software, che va collocato nella root, la cartella principale sul server. In questo modo anche le pagine più difficilmente raggiungibili dagli spider vengono indicizzate con facilità. La sitemap va aggiornata ogni qualvolta vengono messe online delle modifiche al sito; tramite la tecnologia xml questo aggiornamento viene comunicato al motore di ricerca che provvederà a visitare la sitemap aggiornata indicizzando tutte le pagine modificate. Sia Google tramite il Centro Webmaster (google.it/webmasters/) che gli altri motori di ricerca predispongono un pannello di controllo dove i webmaster possono inserire la sitemap e visualizzare dati e statistiche sull’indicizzazione, compresa una diagnostica per rilevare eventuali errori incontrati dagli spider. La sitemap risolve i problemi di circolazione all’interno del sito da parte di uno spider, ma non sopperisce completamente ai problemi di indicizzazione, perché se le singole pagine risultano di difficile lettura da parte dello spider i contenuti rimangono inaccessibili. Inoltre, lo spider con questo sistema non interpreta correttamente la struttura del sito, cosa invece importante per l’attribuzione di rilevanza alle singole pagine che ne fanno parte. Fin qui abbiamo esaminato le caratteristiche costitutive che deve avere un sito web per essere ben indicizzato. Passiamo ora ad analizzare le variabili che bisogna considerare per migliorare il posizionamento di un sito indicizzato, variabili su cui si deve intervenire per eseguire un’adeguata ottimizzazione del sito per i motori di ricerca. Le principali cose da fare in tal senso sono le seguenti:

• Stabilire la keyword più importante per il sito e inserirla nel dominio (keyword.xyz) o in un dominio di terzo livello (keyword.dominio.xyz) oppure nella cartella principale (dominio.xyz/keyword)

• Nominare le pagine utilizzando termini usati come keyword dagli utenti (dominio.xyz/keyword/keyword1.html)

• Inserire un tag

• Inserire un tag univoco per ciascuna pagina, coerente , che rispecchi il suo contenuto

• Utilizzare titolazione appropriata senza abusarne

• In presenza di molte immagini inserire le keyword nel tag

• Inserire testi in misura abbondante e preponderante rispetto a grafica, animazioni, e funzionalità interattive

• Assicurarsi che i testi contengano le parole chiave principali per il settore in cui si opera

• Assicurarsi che le keyword siano presenti soprattutto all’inizio del testo contenuto in una pagina

• Aggiornare spesso i contenuti, in modo particolare nella homepage

Idealmente un sito web dovrebbe avere ciascuna pagina ottimizzata in base a un numero limitato di keyword, e tale pagina dovrebbe pertanto contenere nel testo dette parole chiave. La situazione tipica in tal senso è quella dei siti di commercio elettronico, che dovrebbero avere ogni pagina/scheda prodotto ottimizzata per le parole chiave che lo designano. Particolare attenzione va prestata alla homepage, perché i motori di ricerca premiano un sito se sono in grado di individuare di che argomento tratta; idealmente la homepage dovrebbe essere strutturata in modo tale da sintetizzare a grandi linee i contenuti dell’intero sito web.
Naturalmente se ci interessa essere ai primi posti per parole chiave specifiche la concorrenza si riduce, mentre aumenta se ci interessano keyword più generiche; è pertanto consigliabile individuare le parole che si ritengono centrali al proprio business e ottimizzare il sito rispetto a quelle, piuttosto che cercare di essere visibili per keyword molto cercate ma che sono solo vagamente collegate alla nostra attività. Si consiglia di compiere sempre un’accurata analisi delle parole chiave prima di creare un sito web, cercando di immedesimarsi nel linguaggio di chi compie le ricerche. In generale va evitato il classico linguaggio pubblicitario denso di superlativi, iperboli e neologismi, che non è adatto in chiave SEO perché chi cerca non usa termini di questo tipo. Se l’obiettivo è il business-to-business, sono ammessi gergo e tecnicismi, abbreviazioni comuni nel settore, e tutto quanto fa parte del lessico settoriale. Se l’obiettivo è il mondo consumer, andrà impiegata la terminologia usata dai consumatori; questa può essere ricavata, oltre che dal buon senso, da appositi strumenti forniti dai motori di ricerca (vedi adwords.google.it/select/KeywordToolExternal). Se il sito web da ottimizzare è già online iscrivendosi al Centro Webmaster di Google possiamo vedere quali keyword sono già state utilizzate dagli utenti per trovare il nostro sito; anche Google Analytics, o analogo sistema di statistiche degli accessi, può fornire indicazioni utili. Si deve però considerare che questi strumenti mostrano solo le keyword per le quali il sito è stato trovato. Questo tipo di analisi generalmente mostra che gli utenti medi impiegano una terminologia semplice e di linguaggio comune, e non quella più raffinata del marketing. Un esempio può essere quello del termine “calzature” contrapposto a “scarpe”; un sito di e-commerce che utilizza solo la dicitura calzature non comparirà per le ricerche fatte dagli utenti che utilizzano molto più spesso il termine comune “scarpe”. Identica considerazione può essere fatta per casi simili, come “automobili/macchine”, “polizze/assicurazioni”, e così via. Oltre alla cura riposta nella scelta delle parole chiave è importante anche un lavoro quantitativo e qualitativo sui testi. I motori di ricerca si nutrono di contenuti originali e aggiornati, e letteralmente più ce ne sono meglio è. Questo è uno dei motivi (anche se non l’unico) per cui si trovano spesso nei primi posti siti ricchi di testo come Wikipedia, testate giornalistiche, blog, social network. È necessario quindi inserire molti contenuti e minimizzare la quantità di codice html impiegato per realizzare le pagine. Un sito con poche pagine e pochi contenuti, magari ricco di grafica, non avrà buone probabilità di posizionarsi in testa ai motori di ricerca, specialmente se i siti concorrenti invece sono ben ottimizzati. Attenzione va posta anche nell’abbinare alle fotografie descrizioni o didascalie, perché i motori non interpretano le immagini; ciò che è evidente all’occhio umano non lo è per gli spider dei motori di ricerca. Riprendendo l’esempio delle calzature, andrà specificato in modo didascalico “scarpe da ginnastica” o “zoccoli con tacco” accanto (o al posto di) inglesismi come “sneakers” oppure “sabot fashion”; questo anche se dalla foto è evidente che si tratta di questo o quell’articolo.
Come abbiamo già sottolineato, purtroppo chi realizza siti web spesso trascura indicizzazione e ottimizzazione, vuoi perché comportano lavoro extra, vuoi perché richiedono un know how specifico, per cui i committenti si trovano ad affrontare il problema solo a cose fatte. Sarà però difficile intervenire su siti una volta che questi sono stati realizzati, specialmente sui problemi di indicizzazione, essendo possibili a quel punto solo correzioni che possono rimediare solo parzialmente. Se i problemi non sono strutturali è possibile intervenire con modifiche non invasive sia del layout che dei contenuti, ma cosa fare quando ci si ritrova con un sito, magari costato una cifra ingente per il proprio budget, che non risulta posizionato o addirittura è invisibile dai motori di ricerca? Se gli errori di progettazione non sono rimediabili si possono realizzare pagine alternative che reindirizzano al sito principale, facendo attenzione a non infrangere le regole dei motori di ricerca, molto restrittive in merito all’utilizzo di redirect. Fino a qualche anno fa si potevano realizzare pagine alternative ad hoc, in gergo denominate pagine doorway, che riproducevano in forma semplificata layout e contenuti dei siti con problemi di SEO. Queste pagine, realizzate secondo tutti i dettami per indicizzazione e posizionamento, potevano ben posizionarsi e comparire nei primi risultati della ricerca; una volta che l’utente cliccava sulla pagina, veniva automaticamente reindirizzato sul sito vero e proprio, senza accorgersi dell’escamotage. Il problema è sorto quando le pagine doorway sono state utilizzate massicciamente non solo per rimediare a problemi di indicizzazione, ma anche per spingere artificiosamente in alto siti che altrimenti i motori di ricerca non avrebbero mai premiato in base al suo algoritmo; di questa tecnica hanno abusato webmaster senza scrupoli che l’hanno trasformata in un vero e proprio sistema di spamming, saturando gli indici dei motori con pagine che nella migliore delle ipotesi risultavano poco rilevanti per gli utenti, e che nella peggiore reindirizzavano surrettiziamente a siti contenenti dialer, adware, spyware, malware e via dicendo. A un certo punto i gestori dei motori di ricerca hanno dato un giro di vite nei confronti di queste tecniche, e hanno inferto penalizzazioni anche gravi (rimozione totale dall’indice) bannando i siti che le impiegavano. Di ciò hanno fatto le spese purtroppo anche tutti coloro che cercavano in buona fede di sopperire con delle soluzioni alternative a problemi di indicizzazione e posizionamento dovuti a carenze nella progettazione dei siti web. Del resto, i motori di ricerca non vedono di buon occhio ogni manipolazione dei loro indici che vada a detrimento della qualità dei risultati delle ricerche; non sorprende quindi che gli esperti SEO non abbiano vita facile, specialmente quelli che non applicano tecniche spregiudicate e si muovono all’interno dei rigidi paletti posti da Google e C. Attualmente, se non sussistono le condizioni tecniche per apporre modifiche migliorative a siti male posizionati e non è praticabile la soluzione del rifacimento totale, una buona soluzione senza rischi di penalizzazione è la creazione di una versione del sito accessibile secondo gli standard del W3C (World Wide Web Consortium), che è l’istituzione internazionale che si occupa dell’accessibilità del web da parte delle persone disabili. I siti che seguono questo standard sono perfettamente indicizzati dai motori di ricerca, e consentono anche un’eccellente ottimizzazione; realizzando la versione accessibile di un sito web si ottiene dunque doppio vantaggio, la navigazione di persone diversamente abili e la completa indicizzazione. Un altro rimedio consiste nella creazione di un mini-sito, che altro non è che la parziale riproduzione del sito seguendo strettamente le linee guida per l’indicizzazione e l’ottimizzazione. Diversamente dalla pagine doorway, non viene inserito un redirect, e quindi chi trova il minisito posizionato per entrare nel sito originale deve cliccare su un link, che va quindi reso ben visibile. Rispetto al sito accessibile il mini-sito è incompleto, perché contiene solo una summa dei contenuti in un numero di pagine limitato, ma può essere più ricco da un punto di vista estetico. Evidentemente non è pensabile la trasposizione completa di siti estesi e complessi; l’obiettivo rimane quello di tamponare l’assenza di indicizzazione del sito principale.

Condividi:
  • Facebook
  • LinkedIn
  • Twitter
  • Google Bookmarks
  • Technorati
  • Digg
  • Segnalo
  • RSS
  • Print

2 Commenti a “Indicizzazione e ottimizzazione”

  1. Grazie, bell’articolo e molto chiaro (anche se all’inizio visivamente mi aveva spaventato), ho imparato un po’ di cose!
    Francesco.

  2. Giuseppe Covino scrive:

    Grazie a a te Francesco,

    di aver dedicato ed apprezzato il nostro lavoro.

    Per la visualizzazione so che non è il massimo … ma siamo persone che vanno al sodo. :-)

Lascia un Commento