Blog
home > blog > Regole di Google News: inserire un sito e non essere sbattuti fuori

Tag: Google, Google News, tutorial, tip

Regole di Google News: inserire un sito e non essere sbattuti fuori

Inserire un sito su Google News è una operazione difficoltosa per la poca trasparenza di Google. Vediamo quali sono le difficoltà e come cercare di risolverle.
di Maurizio Ceravolo
Era almeno un anno che volevo scrivere qualcosa a proposito di Google News, e la scusa l'ho avuta rispondendo a delle domande su una discussione su Google+, grazie a +Giacomo Rutili che mi ha suggerito l'idea. Avendo dato una risposta con un certo dettaglio, ho pensato di usarla come base per scrivere questo articolo, raccontando l'esperienza in un progetto in cui abbiamo dovuto avere a che fare con l'aggregatore di notizie di Google.

Voglio premettere che non ho la pretesa di essere un guru in proposito, però a suo tempo ho studiato a dovere tutte le regole comunicate da Google e tutte le risorse che ho trovato, per cercare di raggiungere l'obiettivo prefissato.
Da qui ho estrapolato quelle che, secondo me, sono le linee guida da seguire. Come spesso avviene con Google, chiarezza e trasparenza nelle regole non sono di casa, quindi non posso mai mettere la mano sul fuoco su quello che ho scritto, e sopratutto né io, né nessuno vi può garantire di essere inclusi su Google News.

Se volete verificare l'affidabilità delle mie parole, cercando i miei post su Google News, vi dico subito che non li troverete. Non ho mai fatto la richiesta. So già che questo blog, per sua natura, non rispetta le direttive delle linee guida. E quindi perché provare ad invitare a ballare la ragazza più bella della festa sapendo che detesta i nerd, cosa che si è e non si può cambiare?


Google News
Google News

Le certezze

Abbiamo poche certezze se lavoriamo per includere un sito su Google News, e non sono sicuramente quelle che avreste voluto sentire.
  • Nessuno ha la sicurezza di poter entrare su Google News.
  • Anche se siete un grosso publisher, e guadagnate e fate guadagnare a Google un sacco di soldi tramite Adsense, non avete la sicurezza di entrare su Google News.
  • Anche se avete un bel giro di soldi con Adsense e avete la fortuna di essere seguiti da un Account Manager di Google, lui non può fare nulla per darvi la sicurezza di entrare su Google News. Anche se vi dirà tante belle parole a proposito del fatto che si attiverà per sensibilizzare i colleghi. Con Google News conta come il due di bastoni quando regna coppe.
  • Prendete i due punti precedenti, sostituite Adsense con Adwords ed otterrete sempre come risultato che non avete la sicurezza di entrare su Google News.
  • Se non entrate su Google News, riceverete una mail che vi dice: Sappiamo che può essere frustrante non avere ulteriori informazioni in merito, ma apprezziamo il tuo impegno e la tua comprensione. (ringrazio +Maurizio ZioPal Palermo per avermi fornito la frase esatta) Il che tradotto significa che, come vi avevo detto, non avevate la certezza di essere inclusi e il Team di Google News non vi da elementi per capire se avete sbagliato qualcosa, se ci sono problemi dal punto di vista dei contenuti, o semplicemente siete antipatici a Larry Page. Vi sentirete spaesati e vi sembrerà di dover andare avanti per tentativi (cosa che in effetti è così). Perché Google è così cattiva con voi. Perché in questo modo può decidere di cambiare le regole, a suo piacimento, senza dover rendere conto a nessuno.
  • Se state dentro a Google News potete essere fatti fuori senza complimenti. Vi mandano prima una mail di avvertimento, in cui vi spiegano il problema, ma non vi dicono tutto quello che serve tecnicamente. Ovviamente non vi danno il tempo di capire cosa dovete fare e come implementarlo, e dopo due giorni vi arriva una seconda mail che vi avverte che siete stati rimossi da Google News.
  • In caso di problemi non c'è un posto dove potete avere una risposta certa. Il forum dei prodotti di Google non è di aiuto. Potete avere l'interpretazione del problema da parte di qualche volenteroso, ma di certo non troverete il dipendente di Google che vi dice il perché e il percome di quello che vi è accaduto.
  • Se siete stati fatti fuori potete anche essere riammessi (almeno una buona notizia c'è). Provato di persona.
Scusate se sono sembrato duro a non darvi sicurezze, ma la situazione è questa. Nessuno vi può dare questa garanzia, come nessuno vi può dare la certezza di essere primo sul motore di ricerca per una ricerca organica.

Poco più sopra vi ho citato delle mail che vi possono essere spedite. Un esempio di mail di avvertimento è la seguente (dove è espressa una causa di esclusione:

Gentile editore,

Da una recente revisione del suo sito, è emerso che alcuni articoli non
rispettano le nostre indicazioni sui contenuti, come
http://www.xxxxxx.xx
Tenga presente che al momento non includiamo in Google News i siti che
contengono articoli aggregati da agenzie. Se veniamo a conoscenza di
articoli che mostrano questo tipo di materiale, li rimuoviamo. Inoltre, le
violazioni ripetute possono comportare la rimozione del suo sito da Google
News.

Le consigliamo di creare una sezione separata con articoli aggregati e di
non aggiungerli alla sitemap per Google News.

Apprezziamo l'interesse mostrato verso Google News.

Cordiali Saluti,
Il team di Google

la mail che vi arriva un paio di giorno dopo l'avvertimento in cui vi informa che siete stati esclusi invece è:

Gentile editore,

Periodicamente procediamo alla revisione delle fonti di notizie,
soprattutto in seguito a reclami da parte degli utenti, per garantire che
Google News offra un'esperienza di qualità agli utenti. Dall'esame del suo
sito http://www.xxxxxx.xx è emerso che non possiamo più tenerlo
su Google News.

Al momento, infatti, includiamo solo siti che non pubblicano articoli di
agenzie o di altre fonti.

Il suo sito sarà rimosso da Google News per un periodo di almeno 30
giorni. Una volta trascorso questo periodo, potrà richiedere l'inserimento
in Google News se il suo sito rispetterà le nostre indicazioni.
Apprezziamo il suo aiuto in merito a questa questione.

Tenga presente che potrà ancora trovare il suo sito in Ricerca Google e in
altri servizi Google.

Apprezziamo l'interesse mostrato verso Google News.

Cordiali Saluti,
Il team di Google


Le regole

Vi enuncerò una serie di regole, che nella mia opinione personale sono conditio sine qua non, alcune sono tratte dalla documentazione ufficiale, alcune erano presenti nella documentazione ma non sono più citate, alcune vengono dalla mia esperienza.
La fonte principale sono le linee guida di Google News. Il mio consiglio è dedicare un'oretta a leggere ogni singola pagina. Ci sono molte informazioni che sono interessanti per avere una visione completa di tutto quello che può essere fatto dal punto di vista tecnico e non solo per la semplice inclusione. Ma anche per migliorare la qualità delle informazioni che stiamo comunicando a Google News (cosa che non è il tema di questo articolo).

N.B.: di seguito farò riferimento più volte al crawler di Google. Se non sai come funziona, ti suggerisco la lettura di Come funziona Google di +Enrico Altavilla.
  1. Il layout ed il formato del sito devono essere facilmente scansionabili dal crawler di Google. Riferimento. Il che vuol dire:
    • Il sito non deve essere in flash.
    • Il sito deve essere usabile ed avere una navigazione chiara.
    • Gli articoli da promuovere via Google News non devono essere bloccati dal robots.txt. Riferimento.
    • Gli articoli da promuovere via Google News non devono essere bloccati dal meta noindex, nofollow. Riferimento.
    • ATTENZIONE. Il crawler citato non è lo stesso che viene usato per la ricerca organica. Google News ha un Crawler tutto suo. Riferimento.
  2. Le url delle sezioni che elencano le ultime news devono essere fisse. Riferimento. Il che vuol dire:
    • Non devi creare ogni giorno una pagina nuova per elencare le nuove notizie. Non devi fare la pagine 20131028.htm, che cambia ogni giorno, ma la pagina ultimenotizie.htm, che non cambia mai. Google deve sempre sapere dove trovare le ultime notizie. Se deve scansionare tutto il sito alla ricerca di questi nuovi elenco, potrebbe trovare la notizia quando è già vecchia.
  3. Sarebbe bene che gli articoli da indicizzare siano contenuti in sezione separate del sito. Ovvero ad esempio avere una pagina con i nostri articoli, e altre sezioni con feed, approfondimenti, tutorial che non devono andare sul Google News. 
  4. Le pagine degli articoli devono essere in una lingua sola. Riferimento. Il che vuol dire:
    • Se hai gli articoli in più lingue fa in modo che ogni lingua abbia la sua pagina.
    • Se hai articoli in più lingue devi fare una richiesta di inclusione in Google News per ogni lingua.
  5. Gli articoli devono trovarsi all'interno del dominio che ha fatto la richiesta per entrare in Google News. Sono consentiti sotto domini. Riferimento.
  6. Le URL degli articoli devono essere univoche, permanenti e contenere un numero ad almeno 3 cifre. Riferimento. Il che vuol dire:
    • Ogni articolo deve avere il suo indirizzo. Allo stesso indirizzo non ci possono essere due o più articoli.
    • Le URL non si possono riciclare per nuovi articoli.
    • Nella url, come directory o come nome del file ci deve essere un numero univoco di almeno tre cifre. In pratica vuole vedere il vostro id. Se usate un url rewrite che maschera completamente il vostro id, non vedrete l'articolo indicizzato. Dovendo avere almeno 3 cifre significa che i primi 99 id che usate non verranno indicizzati. Se il numero è a quattro cifre ed inizia per 199 o 200, può essere confuso con una data e non verrà indicizzato. Non c'è scritto ma suppongo che valga anche se inizia per 201.
      EDIT: La regola non è applicabile se si usa una sitemap news (descritta in seguito). Ringrazio +Daniele Della Corte per avermi fatto notare l'imprecisione.
  7. I titoli e le date di pubblicazione degli articoli devono essere ben identificabili dal crawler. Riferimento. Il che vuol dire:
    • Scrivete i titoli nel tag hx (h1, h2, h3,...) ed usate una formattazione che li renda evidenti.
    • Scrivete le date in forma estesa con giorno mese e anno. Meglio anche con l'ora.
    • Ancora meglio se usate i microdati di schema.org per evidenziare titolo e data. In tal proposito vi consiglio di copiare l'esempio che trovate nell'articolo sugli indepth articles di +Andrea Pernici.
  8. Il testo dell'articolo deve essere in HTML, non essere generato via Javascript o via Ajax, nè può essere in pdf o in altra forma. Riferimento.
  9. Gli articoli devono essere pubblici, e non visualizzabili tramite autenticazione. Questa è una mia regola empirica. In verità sarebbe possibile anche indicizzare articoli protetti, però bisogna effettuare il cloaking per il GoogleNewsBot, per permettere a lui di vedere quei testi. Riferimento. Non lo consiglio per due motivi. Su Google News Italia non ho mai visto articoli del genere. Ed inoltre se fate casino e fate cloaking anche sul GoogleBot (pratica vietata) vi ritrovate una penalizzazione sulla ricerca organica.
  10. Il sito deve rispettare le norme di qualità di GoogleRiferimento.
  11. Gli articoli devono essere unici, originali, leggibili, scritti correttamente, e devono essere notizie. Riferimento. Il che vuol dire devono essere scritti in un buon italiano, non devono essere copiati e devono essere una notizia di interesse generale. 
  12. Nel riferimento troviamo: I siti inclusi in Google News devono offrire resoconti puntuali su temi importanti o che interessano i nostri lettori. Solitamente non consideriamo gli articoli con istruzioni pratiche, le rubriche di consigli, le offerte di lavoro e i contenuti puramente informativi come previsioni del tempo o quotazioni delle azioni in borsa e anche Google News non è un servizio di marketing. Non vogliamo indirizzare gli utenti a siti creati prevalentemente per promuovere un prodotto o un'organizzazione o a siti che si dedicano al giornalismo commerciale. Se il tuo sito unisce contenuti di notizie e altri tipi di contenuti, in particolare pubblicità redazionale a pagamento o contenuti promozionali, ti consigliamo vivamente di separare i tipi di contenuti diversi dalle notizie. Il che vuol dire che questo blog ad esempio, non riportando notizie, ma approfondimenti informatici non può andare su Google News. Contenuti come previsioni del tempo, quotazioni di borsa, guide tv, che sono contenuti copiati dai fornitori di informazioni con nessun valore aggiunto rispetto alla fonte originale, non possono far parte di Google News. Feed importati da siti terzi non possono andare su Google News. Le notizie della vostra azienda non possono andare su Google News. Se per caso avete contenuti che rispettano le regole e contenuti che non li rispettano, abbiate la cura di separarli in sezioni diverse, in modo che solo gli articoli buoni siano segnalati a Google News. In ogni caso considerate che l'ingresso del vostro sito è a discrezione del team di Google News, quindi non vi diranno mai il motivo per cui non vi hanno accettato. 
  13. Una regola molto importante che una volta era presente in documentazione, ed ora è solo scritta tra le righe, è che il sito deve avere diversi autori, il che vuol dire che un blog mono autore non possa essere incluso in Google News. Questa regola ha anche un corollario importante. I visitatori del sito non possono essere autori, creando loro contenuti, a meno che non ci sia un processo di verifica e validazione da parte di una redazione.
  14. Corollario a questa regola è che ci sia una pagina pubblica con l'elenco degli autori del sito. Questa informazione vi verrà richiesta di accettazione in Google News. Non è obbligatoria, ma meglio metterla
  15. Nella stessa richiesta di accettazione occorre anche fornire la URL della pagina dei contatti. Con indirizzo fisico, telefoni e/o email. I form di contatto non sono validi per questo tipo di informazione.
  16. È fortemente consigliato di creare una sitemap.xml per Google News, per velocizzare l'inserimento delle notizie fresche. Riferimento. Il che vuol dire una cosa molto importante. Non va bene quella che già avete per la ricerca organica. Se guardate il riferimento potete vedere che il formato è ben diverso. Consiglio di includere solo gli articoli che sappiamo rispondano alle regole e che siano stati pubblicati negli ultimi due giorni. È inutile andare a inserire tutta la storia, perché tanto News pubblica solo gli articoli più recenti e perché la sitemap per le news è limitata a 1.000 elementi contro i 10.000 di quelli organici. Inoltre il limite a due giorni era suggerito in una versione precedente della documentazione. Molto più conveniente è ricreare la sitemap ad ogni nuovo articolo, o ad intervalli di tempo molto brevi (es. 5 minuti) in modo che Google News possa recepire velocemente ogni nuovo articolo. Una volta che avete creato la sitemap, va inviata tramite i Google Webmaster Tool come si fa con la sitemap normale (consigliato) o tramite il robots.txt. Riferimento. Consiglio l'invio tramite i Google Webmaster Tool perchè in questo modo potete avere una indicazione della sua correttezza.

    Sitemap news in Google Webmaster Tools

    Se non vi mostra errori, allora l'avete generata correttamente come questa qui sopra. Potete notare che la sitemap news, viene sia scansionata dal GoogleBot che dal GoogleNewsBot. La seconda colonna di numeri è il numero di pagine indicizzate, mentre la prima è il numero di pagine scansionate. Potreste pensare che non abbia funziona e nessuno dei miei articoli sia su Google News. Sarebbe lecito, ma non è così. Ci vuole qualche giorno perché la seconda colonna aggiorni i suoi valori. In qualche giorno però la mia sitemap è già cambiata e contiene nuovi articoli e quindi sarà sempre così. Per verificare che ci siano articoli su Google News occorre andare sul https://news.google.com/ e lì cercare con l'operatore site il vostro sito ovvero site:www.vostrosito.it . Se vengono mostrati dei risultati, allora saprete che i vostri articoli sono stati inclusi.
  17. Importante! La sitemap non basta. Questo non lo trovate da nessuna parte. È una regola che ho dedotto io dall'osservazione. La sitemap dice a Google cosa per voi è una pagina da inserire in News. Ma non dice cosa non vada inserito. Il GoogleNewsBot è decisamente più stupido del Bot della ricerca organica (o meglio non propriamente il bot, ma quello che viene dopo e decide cosa vada indicizzato, anche qui consiglio la lettura di Come funziona Google di +Enrico Altavilla). Come potete vedere dalla documentazione la sitemap prevede anche l'inserimento opzionale delle keyword (cosa deprecata da tempo in organico) e questo a mio avviso è indice di una minore sofisticazione. Inoltre come potete vedere dalla prima mail che ho allegato, è facile che non sappia distinguere fra le sezioni delle news che devono andare in Google News e quelle che invece devono essere escluse. È un crawler e si naviga il sito, quindi si scansiona tutte le pagine. E poi l'indexer che si trova a valle ha poca capacità di distinguere cosa è buono e cosa no. Quindi butta dentro all'indice molte cose che non dovrebbe. E poi vi arriva quella mail. Malgrado abbiate la vostra bella sitemap news, e nessuno vi sappia dire cosa è successo. Come agire allora? Semplicemente basta dire cortesemente al GoogleNewsBot di farsi gli affaracci suoi con un meta tag. Il seguente:

    <meta name="GOOGLEBOT-NEWS" content="NOINDEX, NOFOLLOW" /> 

    Mettete questo tag su qualunque pagina che non debba essere inserita su Google News e così state sicuri che verranno indicizzate solo le pagine che servono.
Questa lista non può dirsi completa, perché non possiamo sapere se ci siano altri paletti decisi da Google e non comunicati pubblicamente, come potrebbero essere ad esempio, l'anzianità del dominio, un certo traffico minimo, o una certa rilevanza in termini di backlink ricevuti dal dominio.
Sicuramente però abbiate cura di rispettare tutte le 17 regole citate.

L'inserimento

Se siete sicuri di aver rispettato tutte le regole citate al paragrafo precedente, allora potete chiedere l'inserimento in Google News. Compilate il modulo ed incrociate le dita. :-)
Se per caso abbiate già fatto richiesta e non siete stati accettati, non potete farne una nuova prima che siano passati 60 giorni, come specificato nello stesso modo. Invece se eravate già dentro e vi hanno escluso per qualche problema, non potete fare una nuova richiesta di riconsiderazione dopo 30 giorni, come descritto nella seconda mail citata.


In caso di problemi?

In caso di problemi non c'è molto da fare, se non verificare la lista dei punti che ho scritto sopra, e verificare che non sia cambiato qualcosa nelle regole. Se per caso pensate di essere in regola con tutto, potete avere una opinione sulla correttezza di quello che avete fatto attraverso il forum dei prodotti di Google, visto che l'autovalutazione non sempre è facile. Ma ribadisco, anche lì, nessuno vi potrà dire con certezza il motivo per cui il vostro sito è stato escluso o non considerato.


Le eccezioni

La mia opinione è come in molti prodotti Google, c'è una notevole discrezionalità, dovute a regole da interpretare ed una scarsa trasparenza nelle comunicazioni, che poi si ripercuote sul professionista, che è costretto ad andare per tentativi, senza avere certezza se quello che sta facendo sia corretto o meno.

Un esempio di questa discrezionalità la vediamo sul blog di Beppe Grillo. Personaggio noto, blog fra i più visitati d'Italia, forte presenza social. Ma a mio avviso, non rispetta alcune delle regole elencate nella documentazione di Google. Ovvero
  • regola 14. Non c'è una pagina che descriva la redazione e dia modo di capire chi e quanti sono gli autori;
  • regola 15. Non c'è una pagina con indirizzi e contatti;
  • regola 12. La cosa più importante, perchè non è una questione tecnica, bensì una questione di contenuti. Leggete la frase già citata Google News non è un servizio di marketing. Non vogliamo indirizzare gli utenti a siti creati prevalentemente per promuovere un prodotto o un'organizzazione o a siti che si dedicano al giornalismo commerciale. Mi pare evidente che il blog di Beppe Grillo sia il mezzo di propaganda di movimento politico, non un organo di informazione. Altrimenti non siederebbero in parlamento.
A mio avviso non c'è margine di interpretazione. Eppure è presente sull'aggregatore come potete verificare da site:www.beppegrillo.it su Google News.

Questo fatto, a mio avviso, può dare una spiegazione sul perché non possiate essere certi di una inclusione anche se avete rispettato tutte le regole. La loro applicazione non è rigida, ma è a discrezione di chi ispeziona il sito per la sua inclusione.

In conclusione, mi auguro che questo post vi possa essere utile per l'accettazione del vostro sito. Intanto io incrocio le dita per voi. :-)
Post correlati
2011
27
Luglio
Google Io sul Web: scopri chi parla di te
Maurizio Ceravolo
Google ha lanciato un servizio (Me on the Web) tramite il quale si può scoprire dove si parla di noi stessi sul web ed essere avvertiti quando questo avviene.
2013
31
Maggio
Musica in streaming: Spotify vs Google Music vs Xbox Music
Maurizio Ceravolo
Negli ultimi anni la musica è diventata liquida dai supporti fisici si è passati al download ed ora la nuova frontiera è lo streaming.
2010
6
Dicembre
La Netnografia: la nuova frontiera del marketing
Maurizio Ceravolo
Un articolo sulla nuova frontiera del marketing
2011
20
Giugno
Search by Image: la ricerca per immagini di Google
Maurizio Ceravolo
Google ha portato una nuova potentissima funzione sul suo motore di ricerca. Le ricerche non solo per delle parole chiave, ma per immagini.
2011
6
Ottobre
Google ricorda Steve Jobs
Maurizio Ceravolo
Google e i suoi due fondatori omaggiano Steve Jobs. In homepage sul motore di ricerca una epigrafe minimalista in perfetto stile Mountain View.


Archivio Mensile Blog
Tag Cloud
analisi Apple Facebook fisica geek Geolocalizzazione Google Google+ humor innovazione marketing Microsoft mobile Motori di ricerca My Space social network USA video voip Windows Phone 7
Ultimi Post
I migliori di oggi
I più popolari del mese
Top post