Alessandro Bonzi blog - Internet e motori di ricerca

Mainly Internet business, but also life mysteries and videogames

Link Building e Black SEO, 3 milioni di URL, 30 Bad Bot e 3000 IP Proxy — un caso vero

In questi ultimi anni, uno dei siti che manteniamo per un cliente particolare è un sito di bookmarking. Esso permette di caricare bookmark dal proprio Browser o aggiungere Url nei preferiti e condividerle con il pubblico, trovare siti collegati e informazioni varie. Il servizio è stato sviluppato per il mercato in lingua Inglese. Fin qui nulla di speciale.

BLACK SEO, WHITE SEO, SPAM SEO — Una delle caratteristiche del sito di bookmarking è stato quello, per sua fortuna o sfortuna, di essere inserito nel corso degli anni in una marea di siti di “Submit gratuiti” operati da società di white (buone) e black (cattive) SEO. Esattamente quelle pagine che non usereste mai per un vostro sito.

Come sapete creare LINK verso il proprio sito è alla base della visibilità nei risultati di ricerca di Gogol (ndr. Google), ovvero più hai link e più sei bello. Benchè Google ne dica, se non avete link verso il vostro sito, non esistete (salvo siate nelle segretissime White List di Google come “sito indispensabile” o “brand affermato non penalizzabile”).

Un sito di bookmark è quindi perfetto per una invasione di “link” da parte dei “black” SEO. Queste società creano pagine di FREE submit (tipo questa pagina, una delle tante osservate, backlinks.auto-im.com/freepack/free.php ), promettendo in 1 click fino a 200,000 backlink. L’abilità di questi SEO è quella di trovare un sistema per inserire link nei siti di altri e tali da poter replicare l’inserimento in modo automatico e continuativo nel tempo.

Una volta che il FREE Submit è sviluppato, gli stessi SEO sviluppano anche sistemi di verifica del vostro link per evitare che sia cancellato. Questi tools si fingono utenti con tecniche più o meno legittime e come un robot vengono a vedere se il link è presente nelle pagine del sito di Bookmark. Siti come Seostats o Seotools, ad esempio, per ogni URL che inserite nel form di verifica, un fastidioso robot viene sulle pagine del bookmark a controllare la presenza del link.

Ma la cosa non si limita a servizi online. Alcuni software fatti per inserire migliaia di articoli o link in altrettanti migliaia di siti (ovviamente non hanno nessun accordo con nessun sito) semplicemente si fingono utenti e inviano i dati attraverso dei robot e ne gestiscono pure la verifica successiva e continuativa. Ad esempio, nel 2009 un (in)famoso software chiamato Autoclick Profits vendeva per 149$ il sogno di enormi guadagni con un click. Scaricando il software si accedeva ad un tool per inserire migliaia di articoli o link in migliaia di siti online (tra cui il sito di bookmark), e gli stessi link potevano automaticamente trasformarsi in URL compatibili con sistemi di affiliazione come ClickBank grazie al quale si guadagna cliccando.

 

UNA MAREA DI URL — Sta di fatto che con il passare degli anni, il sito di bookmark raccolse i seguenti dati.

Periodo Gennaio 2010- Dicembre 2011

28,186 Url Web .it — inviati in modo “non naturale”;

2,976,560 Url Web in totale inviati in modo “non naturale”;

29 “bad bots” — sistemi malevolenti per l’invio di url;

2976 “Proxy” — utilizzati per inviare i dati;

1 tentativo di SQL Injection;

1 virus.

E le attività dei SEO non sono diminuite negli ultimi 7 mesi del 2012.

Poichè il sito di bookmarking non ha scopi di link-building o “black” SEO e fintanto che le URL inserite non vìolano  regole stabilite o di SPAM, nulla è stato fatto per evitare tale attività (tranne per i bot ostili e non tollerabili).

 

UN COSTO DI GESTIONE OLTRE BUDGET — Ma qualcosa non va. Questo è un solo sito di “pagerank 3” come milioni di altri. Se una attività di black seo permette di creare 3 milioni di link (2 univoci più o meno) in 3 anni di tempo, quanto vale questa attività su larga scala? Sicuramente parecchio in quanto ad ogni cambiamento delle pagine del sito di bookmarking, i BOT e gli SPIDER si adeguavano regolarmente.

Chi ci tutela? E’ possibile che si debba pagare per lo SPAM link di migliaia di altri siti? Poichè un LINK-IN è alla base della visibilità in Google, il mondo oggi paga questa decisione e non ottiene nulla in cambio da chi ne gode.

 

ARRIVA LA GOOGLE PENGUIN UPDATE, I COSTI AUMENTANO! — Con Novembre 2011, improvvisamente il costo “tecnologico” e di “gestione” di questo problema aumenta esponenzialmente.

Poichè i possessori dei siti che venivano inseriti erano spesso IGNARI delle tecniche di black seo che a loro insaputa avevano assunto e pagato anni prima come consulenza da parte di abili “società di posizionamento”, essi iniziarono a sentirsi dire da altrettanti consulenti che “un link-in sbagliato può punire”. Ovviamente tali voci non nacquero a caso; se i link-in non possono di certo penalizzare (al massimo non contano nulla), nessuno ne ha la certezza e il mondo si preoccupa per un cambiamento “epico” nelle regole del gioco.

Nel Marzo 2012 le voci prendono fondamento e Google annuncia PENGUIN e invia “mail” ai webmaster i cui siti sono linkati da url “non spontanee”. Toh, guarda, e ora che faranno quei 2,000,000 di webmaster? Poichè non esiste una regolare iscrizione per avere inserito un link nel sito di Bookmarking, per i webmaster è altrettanto impossibile rimuoverli.

Da Marzo 2012 le richieste a bookmark si trasformarono in una nuova tipologia di richiesta: le mail chiedevano la rimozione di link che ritenevano “impropriamente” inseriti nel sito, alcuni addirittura ipotizzando un uso illegittimo del link inserito senza la loro autorizzazione! Altri, sostenuti da un improbabile Google-zorro alla tutela dei webmaster, minacciarono di denunciare il sito a Google se il link non veniva rimosso prontamente. Inoltre, poichè questi webmaster (o agenzie di siti quando i siti erano “famosi”) dovevano mandare queste mail in quantità, non facevano spesso riferimento a URL o dati precisi e minacciavano IP e URL presto penalizzate se non si cooperava e altre fantomatiche… balle da web.

“[Editato per la Privacy] This link needs to be removed with immediate effect.

Google has been in contact with us and asked us to remove this unnatural link as it will penalise both the XXXXX.co.uk website as well as your website.
Google have also asked us to inform them of any websites that are not cooperative in this request, and to provide them with the domains and IP addresses of sites that do not comply with the request.”

 

Insomma, da ingenuo sito vittima di “abusi” il sito si trovò pure “beffato” e “accusato”.

Una delle comunicazioni del cliente ad un certo punto fu “sarebbe bello dire in faccia a questi webmaster come e chi gli ha inserito il link e di smetterla di fare richieste offensive visto che è certo che hanno usato società SEO poco attente”. Da questa osservazione, nasce di fatto anche questo post: di fronte all’immensa lista di URL che abbiamo visto e alle tecniche usate non si poteva far finta di nulla.

Il “removal di bad links” è oggi una delle questioni più traumatiche dopo l’introduzione di PENGUIN di Google, un algoritmo di controllo dei link che tenta di diminuire proprio il problema di link “non naturali”.

Il punto è che il Web fa intendere che un “bad link” significa un “bad website” e pertanto il sito che ospita link finti viene minacciato di “penalizzazione” (come si vede dalla mail di quel webmaster).

Per fortuna Google è molto più arguto e un bad link è in realtà “un link non naturale” e i siti che li ospitano — ignari o no che siano — “non subiscono nessuna penalizzazione“. Se ci sono penalizzazioni, sono sempre legate a interventi extra-algoritmici o gravi violazioni di contenuto (come sempre è stato fatto da parte di Gogol).

Ad oggi il sito di bookmarking continua a fare il suo lavoro, le tecniche di protezione dallo SPAM maligno non sono concluse, ma sono state implementate tecniche molto più adatte di quelle di anni fa e non so proprio come potrebbero fare 2,000,000 di webmaster se un giorno Google dovesse davvero penalizzarli.

 

da Leopard a MacOs Mountain Lion; che Safari ragazzi…!

MacOs Leopard è stato, secondo me, uno dei migliori aggiornamenti, se non IL migliore Mac OS mai installato sui miei Mac.

La spinning Wheel di Excel ci perseguita!

 

Non solo le performance erano strabilianti, ma l’intero Core del sistema era stato riscritto per sfruttare finalmente a pieno i 64 bit delle macchine fino ad ogni processo possibile. Ad esempio, se volevate stampare in PDF da Safari (e non fate quella faccia pensando a Safari!), il Print to PDF integrato di Apple (non serve quel dinosauro sempre-più-inutile-Adobe per fortuna), il processo che Safari lanciava per la Stampa e quello successivo per il Rendering del documento da HTML a PDF erano tutti regolarmente a 64 bit.

 

MACOS LION, LA CADUTA — Poi è arrivato Lion. Un Leone è “meglio” di un Leopardo: il Leone è il Re della foresta. Ma qualcosa non ha funzionato. Intanto Lion esce dopo gli anni peggiori di Jobs, il progetto è tutto in mano al nuovo direttore dei sistemi Operativi che è sicuramente distratto da iOs, il sistema dell’iPhone. Quest’ultimo sta dando così tanti numeri (positivi) per Apple, che dedicarsi a iOS è un attimino più importante di MacOS, soprattutto perchè Android arriva per la sua prima volta a una versione decente (la 4.0).

Pertanto arriva Lion, sostituisce Leopard e la prima cosa che fa è stabilire che il sistema di esecuzione dei processi non è più fatto “ognuno per sè”, ma “tutto dipende dal lui”. Pertanto Safari perde il suo motore di rendering per le pagine Web che Lion rende esterno ed eseguibile da qualunque parte lo si voglia chiamare. In questo modo se avete un’altra applicazione che vuole gestire un documento Web, questa può farlo con la stessa completezza di Safari (sia Apple Mail, iWorks o anche Excel, Autocad, un gioco, iTunes, etc); geniale, ma se usate al 99% la sola applicazione Safari, in Leopard i processi di rendering erano tutti suoi, ora invece sono condivisi e in attesa che anche qualcun altro li voglia usare, diminuendone la potenza nominale a disposizione.

Fin qui tutto già collaudato: è come in iOs. Ma il Sistema Operativo, che ora gestisce il processo, può anche bloccarlo con “urgenza” se necessario (es. c’è poca Ram, l’hard disk è molto impegnato altrove, etc). Prima Safari si arrangiava da solo, ora Safari non fa altro che delegare e sperare che i processi esterni siano sempre veloci. Ma non è così. Quando si vuole stampare documenti Web in PDF, Safari chiede al processo di Rendering la pagina Web; poi chiede al processo PDF la trasformazione da Web a PDF; prima tutti e due i processi erano in Safari, con LION non più.

In questo modo le operazioni di stampa e Rendering RIPETUTE rispondevano dal 20% al 50% più lentamente di Leopard. Più il Mac era vecchio e peggio pesava la concorrenza dei processi.

 

MACOS LION E IL “WHITE PAGE BUG” DI SAFARI — Nel giro di pochissimo tempo, la produttività del mio Mac con LION era diventata la metà dei tempi di Leopard. Safari spesso “attendeva” per lunghi attimi che i processi si liberassero dallo “swap” dell’hard disk gestito del Sistema Operativo. Se iOs è abbastanza protetto e generalmente l’utente fa una cosa alla volta in un iPad o iPhone, MacOS non è altrettano “mono processo” e quando il processo esterno di Rendering crashava per qualche motivo, TUTTE le pagine che usavo in Safari tornavano come se fossero state appena aperte (chiamato da Apple come il “blank page” bug), e sottolineo TUTTE, non solo quella che aveva causato il crash (alla faccia dei processi separati!). Ma ancora più subdolo era che le pagine in cui era stata effettuata una login tramite sessioni AJAX, ad esempio Facebook, esse rimanevano collegate all’utente, ma la pagina Web mostrava la pagina nuova di login!

Ad un certo punto della sua vita, il mio Safari poteva aprire 2 nuove finestre, una andava su Facebook e una su Google Plus, loggava su entrambe, e quando Google Plus faceva partire il processo (esterno) di rendering per Flash, questo, impegnando per qualche secondo l’hard disk, mi permetteva di farlo crashare (semplicemente chiudendo la finestra!), e Safari, crashando, generava un LOGOUT non solo da Google Plus (causa del crash per colpa di Flash), ma anche da Facebook (pagina diversa e regolarmente connessa), senza che nessuno avesse cliccato “esci da facebook” o “esci da gplus”. Infatti le sessioni di Facebook non erano realmente chiuse e chiunque avesse fatto “Refresh” di nuovo  avrebbe trovato il mio Profilo aperto e non la login!

Con LION ci sono state parecchie update di Safari, ma nessuna ha migliorato questo problema, anche quando Apple pubblicamente fece una update dedicata. Ovviamente era solo “diminuito” il bug, ma era semplice riprodurle e lasciare pagine loggate apparentemente sloggate con la tecnica di flash.

In un cyber cafè, faccio loggare un utente su Facebook, crasho il sistema con un Applescript e Flash e se tu utente te ne vai scocciato, vado lì, reloado Safari e sono sul tuo Profilo di Facebook.

 

I CLOUD, U CLOUD WE ALL CLAIM FOR A BETTER MACOS — Ma i problemi non erano solo di Safari. L’introduzione di iCloud in LION è stata praticamente impercettibile lato utente, mastodontica lato performance; per portare il cancello di iCloud, LION è diventato un insieme di processi e controlli di rete. Per muovere una connessione, non aspettava i tempi morti, ma al boot tutto e tutti dovevano collegarsi al mondo il prima possibile.

La conclusione? LION è stato un MacOS che ha disimparato a fare il lavoro “vero” per iniziare a fare mille cose di iOs, inutili. Se la rotella di attesa di Excel era diventata meno frequente, con LION la rotella di attesa di Excel appariva più di ogni altra cosa, e la gestione dei FONT, probabilmente delegata al sistema operativo rallentava sempre di più l’utilizzo di ogni applicazione che usasse font in modo estensivo.

 

MACBOOK RETINA SAVE ME! — La conclusione è stata che per continuare a lavorare con LION, dovevo cambiare Mac… non con un Windows, quello no, ma con un nuovo Mac. I difetti di LION dovevano essere corretti dalla potenza di un nuovo Mac. E così è stato.

Il Macbook Retina Display ha vissuto 1 mese con LION, rendendolo veloce come il Leopard di 4 anni fa! Un bel piacere, ma anche rabbia. Insomma, il boot in 2 secondi, lo shutdown istantaneo di Leopard erano tornati e non erano stati miraggi solo di un tempo che fu.

 

MOUNTAIN LION, ORA SI RAGIONA — Oggi è arrivato Mountain Lion. Oggi per modo di dire, è un pò che gira. Negli anni bui di LION temevo per il peggio: che Apple avesse perso la via accecata da iOS e dalla concorrenza (di Android), che nessuno più in Apple vedeva le imperfezioni di programmatori pigri e quindi processi o sistemi fatti male rimanevano tali e nessuno li chiamava alla Domenica mattina per una ramanzina (vedi Jobs e l’icona di Google Mail sull’iPhone 1), che sarebbe sempre stato peggio visto che il bug di SAFARI non è mai stato fixato realmente, così come altri problemi fixati solo dopo moltissimi mesi (se non anni per il flicker al nero di alcuni schermi del Macbook Pro unibody).

Oggi c’è Mountain Lion. Il rendering è tornato veloce, il processo esterno non è più “crashabile” con facilità, e se muore, non genera un “blank page bug” di tutte le finestre aperte di Safari che ora è alla versione 6.0; certo è più difficile rallentare un Mac nuovo per poter causare il problema, ma la prova del fuoco è un Excel che ora gira senza rotella!

Speriamo Apple non voglia fare di MacOS un iOS; magari mi sbaglio, ma io vorrei lavorare con questo Mac e non fare Gesture dalla mattina alla sera o stare collegato alla iCloud 24h su 24. Se magari ogni tanto pensasse alle applicazioni “classiche”, saremmo tutti un pò più operativi. Un iWorks come quello che abbiamo non serve a nessuno.

Ah… con LION nessuna applicazione riusciva ad aprirmi 2 GB di file XML, nemmeno Oxygen o BBEdit (quest’ultimo dava un terribile messaggio di altri tempi “OUT OF MEMORY”); ora invece riesco ad aprirlo e anche a consultarlo eppure è cambiato solo il Sistema Operativo.

SAFARI 6.0, UN WEB MIGLIORE?  — E con il Retina Display e qualche sito con grafica Retina, il browsing di Safari 6.0 è indubbiamente migliore di Chrome o Firefox. Tra l’altro Chrome continua a rimanere a 32bit quando oramai Safari è a 64bit da parecchi anni sul Mac.

UPDATE 1 AGo 2012: Stanotte Chrome si è aggiornato alla versione 21.0.1180.57 con RETINA DISPLAY (anche se ancora a 32 bit) e ora è un bel vedere anche con Chrome e non solo con Safari 6.

Quindi, viva Safari 6.0!

 

P.S. E’ con piacere che racconto di questo bug di Safari 6.0! Ma come? Di già un bug? eh sì…

SAFARI 6.0, SCROLL FREEZING BUG — Aprite il Develop Menu di Safari 6.0, attivate il debug Javascript e dite a Safari di fare stopword all’errore se ne capitasse uno, navigate fino a quando (questione di pochi click…) un sito web qualunque vi dà un errore (o fate voi una pagina con un errore), il debugger si attiverà e metterà in pausa il sito per farvi debuggare l’errore. Se non togliete la PAUSA del debug, tutte le altre pagine web che aprirete, userete, navigherete, nuove o già aperte non potranno più … scrollare! EH sì, viva Safari 6.0 — attendiamo fix 😀

Vabbuò, viva iOS!

 

Dominio vücumprà e Gógól.666 presto nelle vostre url

IL PRIVILEGIO DI AVERE UN DOMINIO .COM – All’inizio dei tempi, era un lusso e un privilegio avere il dominio .com. Ma registrarlo significava un “impegno” con il mondo al quale si annunciava di essere, appunto, “mondiali”. Per questo motivo, qualche cliente preferiva non volere il .com e avere solo un .it, con l’idea di dire “noi siamo piccolini”. E giammai si registrava un .net; quelli erano domini per i “network” di servizi, di aziende, di idee, tutte cose che non interessavano a clienti retailer o siti istituzionali. Questo all’inizio dei tempi. Oggi è un’altra storia.

 

ÀÈÍÓUE E IL DOMINIO VIENE QUÁ.it — Tra poco potrete avere dei domini di dubbia leggibilità, nomi con accenti e dieresi o umlaut, potrete registrare finalmente vabbuó.it con la ó come si deve, ci potrà essere un ecommerce che vende online con il nome di vucumprà.it ma anche domini assurdi tipo àèìòù.it oppure peggio gögol.it o utilizzare qualunque forma di confusione vi suggerisca la vostra fantasia.

Ovviamente non posso che pensare alle risate di quando in un FORM di registrazione email inserirete la vostra mail “alessandro@tacàdènt.it” poichè il 99% dei form di oggi scartano quel tipo di email, o peggio la salvano come tacadent.it creando beffa e danno in un colpo solo. Peggio ancora se vi verrà l’idea di iniziare ad usare i caratteri anche nel nome come nicolò@cadréga.it, una mail che per un form di iscrizione di oggi può produrre le conseguenze del sovrastimato bug dell’anno 2K.

 

CHI CONTROLLA IL DOMAIN SPAM? — Con questa novità per i domini, la voglia di inventare nuovi suffissi sembra degenerata.Non è una novità, dal dominio .TV in poi, i domini sono diventati sempre di più fuffa nel significato. É vero che per qualcuno i nuovi domini saranno utili e potrete dire che finalmente qualcuno sembra aver spiegato agli Yankee che Internet non è solo Americano (sì boys, ci sono anche le accentate nel mondo!), ma avete in mente quante nuove email false potranno arrivarvi e voi dovrete usare la lente di ingrandimento per capire se è vera o falsa? Perchè, è vero, gmail ne intercetta parecchie (ma non altrettanto yahoo mail, sveglia!), ma una info@bancadellagrandesïena.it sarà una mail Phishing pronta a portarvi altrove e a chiedervi dati, soldi e figli senza che voi ve ne accorgiate.

 

NON BASTA, ARRIVA PURE GOGOL.DEVIL — E poi, invece, han pensato almeno a tutelare quelli che invece dovrebbero avere il dominio con le accentate di diritto? Un sito (reale) come www.tuscos.it, di diritto dovrebbe avere l’equivalente milanese www.tuscòus.it e www.ciapachi.it dovrebbe avere www.ciapàchì.it, ma ovviamente i domini sono fatti per i banchetti di fantozzi: chi primo arriva, arraffa!

E la roba da arraffare non finsce qui!

No, perchè forse non lo sapete, ma si è appena conclusa (o si sta concludendo) un'”asta” internazionale che peggiorerà ancora di più le cose. Chi voleva (con tanti soldi), poteva proporre un proprio nuovo suffisso e aggiudicarsene i diritti d’uso. Sì avete capito bene.

Vi piace un dominio con il suffisso “.warez”? Va bene, è vostro. Andate in asta, decidete di pagare da un MINIMO 185,000$ in su e se vincete, è vostro. Dopodiche potrete usarlo per voi, per la vostra azienda o rivenderlo agli smanettoni di internet. Per tali geniali “nuovi” suffissi, i “big” si sono subito messi a spendere migliaia di dollari e il primo tra gli spendaccioni è il solito Google (o Gógol alla italo-berlusconiana) con i suoi 20 milioni di dollari e — lasciatemelo dire — strano che non abbia preso il dominio che gli si addice di più di tutti, il .666 (ndr. i numeri non erano nella lista dei suffissi, idea per il prossimo giro?).

Pertanto fra un pò avrete domini come www.perchè.wiki oppure andiamo.amagnà.citta e così via. I primi a gioire saranno i “phisher” (falsificatori di messaggi autentici con destinazione falsata), con migliaia di nuove alternative a loro disposizione per mandarvi spam e fare siti cloni www.ebay.ebay oppure www.ebây.it — entrambi di chi saranno?

 

TROPPE INFORMAZIONI, LA GIOIA DI GOOGLE — Con tutti questi nuovi domini, a e i o u .book .google .shop .vieniqui vucumprà.la, farvi collegare il più velocemente possibile al contenuto giusto sarà sempre più un compito di altri, tipo qualcuno che sappia gestire le informazioni per voi.

Almeno ora se pensate al sito della Lego, scrivete Lego.com; non vi serve Google “in mezzo” che fa l’arbitraggiatore di informazione (mostrando ogni tanto quello che preferisce). Invece domani come sarà? Volete un libro da Amazon per il kindle phone? bene, Amazon.com ma anche libri.kindle oppure kindle.amazon?

E peggio. Pensate ai siti corporate e ai siti di produttori mondiali. Asus! Philips! Sony! Per tutti questi già oggi è impossibile trovare le informazioni; domani saranno solo e sempre su sony.com?  Domani magari mettono le Tv sotto products-sony.hitech oppure sony.shop per lo Store, e anche sony-games.play per i giochi… Pertanto, i 20 milioni di dollari spesi dal motore di ricerca di Mountain View non sono una spesa, ma un investimento e l’aumentare della confusione della reperibilità delle informazioni è proporzionale a quanto dipenderete da Google. E Babelfish non c’è più, chi ci libererà da Google?

 

ASIA, ÜBER ALLES — Infine, non ci interessa molto, ma fa decidere spesso le strategie recenti delle aziende Occidentali: oggi i “big” temono di perdere il treno per l’Asia, chi fa tardi, prende di meno da un mercato enorme. E allora perchè non accontentarli? Il più grande gioco online di Ruolo, World of Warcraft sta preparando da più di 1 anno un’espansione completamente dal sapore Orientale, Apple sta abbracciando la Cina come il panda un albero, quindi perchè i gestori di domini non dovrebbero produrre 10 (sono cauto) volte tanto il fatturato permettendo accentate, dieresi e… ideogrammi? Sì, anche ideogrammi.

E quindi, se prima arriverete comunque su www.alibaba.com, domani avrete 10 milioni di domini in più con ideogrammi come http://파일을 찾을 수 없음 che non potremo certo digitare e visitare. Ah no, che stupido… Andremo su Gógól che sarà l’unico sistema per trovare, leggere e navigare siti di domini e contenuti di lingua diversa dalla nostra e magari anche di contenuti della nostra lingua, perchè un .book o un .shop o un .store non sono sufficienti per dirci che fa cosa.