giovedì, ottobre 07, 2004

Tristezza Cosmica e Search Engines


I've a bad feeling about this
(e non esiste un c---o)
Mi sono recentemente interessato al cosidetto "posizionamento" dei siti nei motori di ricerca. La curiosita' mi veniva dal fatto che io conoscevo le regole ufficiali secondo cui un sito deve essere "descritto" e, per quanto umanamente possibile, i criteri con i quali i motori di ricerca dovrebbero indicizzarlo. Ma evidentemente doveva esistere qualcos'altro, altrimenti non si spiega l'esistenza di persone e aziende che propongono il "posizionamento" come una scienza. E quindi ho scoperto che come per tutte le altre cose in realta' tutto il business si basa sostanzialmente su azioni "furbe" e chiaramente "illegali", se non da un punto di vista giuridico sicuramente da quello "etico", inteso sia come morale che in senso "informatico". In sostanza i motori di ricerca funzionano sulla base di automatismi, quindi questi furbacchioni tentano tutti i modi per ingannare l'automatismo utilizzandone i limiti "meccanici" e ritorcendogli contro le stesse funzioni che in teoria servirebbero per rendere piu' significativa la indicizzazione del sito.
Google dice:
"Trying to deceive (spam) our web crawler by means of hidden text, deceptive cloaking or doorway pages compromises the quality of our results and degrades the search experience for everyone. We think that's a bad thing."

E ha anche una pagina per riportare queste violazioni: Spamreport.
In sostanza il trucco sta nel sottoporre al robot non le vere pagine del sito ma un nugolo di pagine fittizie che ridirigono poi alla homepage del sito o ad una sottosezione. Queste pagine contengono solo blocchi di parole chiave magari mimetizzati come "capoversi" (h1, h2, ecc), blocchi di link ad altre pagine fittizie e vengono rinominate con nomi-file che sono essi stessi combinazione di parole chiave. Contengono inoltre chiamate ad oggetti inesistenti e sia i percorsi che i nomi file che i testi alternativi sono a loro volta combinazioni di parole chiave. Ad esempio la pagina finta si chiamera' "moto-custom-customizzazioni.html" e all'interno ci saranno chiamate finte ad immagini inesistenti tipo "img src="moto_custom_customizzazioni/moto_custom_customizzazioni.jpg" alt="moto_custum_customizzazioni". Il meccanismo e' concettualmente analogo allo spamming via email solo che e' diretto verso il povero robot che per quanto sia sofisticato e' pur sempre un meccanismo. Si ottengono cosi tre risultati: l'indicizzazione dei siti e' lentissima perche' vengono sottoposte ai motori un numero di "pagine" e di "percorsi" molto maggiore del necessario, la accuratezza dei risultati delle ricerche viene in parte vanificata perche' l'indicizzazione non riesce ad agire sui contenuti reali del Web ma memorizza un sacco di spazzatura e si obbligano i gestori del motore di ricerca a incasinare sempre piu' il robot nel tentativo di renderlo resistente ai tentativi di gabbarlo. Io, venendo da un altro tempo, nella mia ingenuita' mi intristisco e ricavo amare considerazioni sulla natura umana.

Ah, dimenticavo una considerazione non secondaria. Dato che questo simpatica abitudine di cercare l'inghippo illecito per scavalcare gli altri bombardando il crawler di cagate ormai dilaga, l'unico modo che rimane per gestire il posizionamento di un sito in maniera razionale sono gli spazi a pagamento. Col tempo gli unici risultati utili di una ricerca saranno quelli degli inserzionisti, con le ovvie conseguenze sia sulla natura dei motori di ricerca che sul Web in generale.

Nessun commento:

Posta un commento