Um inimigo conhecido a tempos mas por meio de outras ferramentas de comunicações, o SPAM atrapalha não somente os resultados finais das buscas no Google Pesquisa como também altera as avaliações de acessos, o que prejudica os negócios da Google. Leia as duas primeiras partes deste artigo: Parte 1 e Parte 2.

O SPAM

Porque alguém enviaria SPAM ?

Já enfrentamos algo semelhante com outra ferramenta de comunicação. As cartas de correntes para obtenção de dinheiro fácil, encontradas nas caixas de correio, as dezenas de panfletos recebidos nas ruas e as ligações telefônicas oferecendo produtos são os precursores do spam. Porém, para se fazer uso desses precursores, o remetente precisava fazer algum investimento, o que inviabilizava o envio de material de propaganda em grande escala. Esse é um dos maiores motivadores para o envio de spam. Considerado um tormento para os usuários de e-mail degradando o desempenho de sistemas e redes. O combate ao spam e o desenvolvimento de mecanismos de prevenção e proteção tornaram-se serviços de destaque oferecidos por provedores de acesso e empresas fabricantes de software/hardware. Mais detalhes técnicos sobre SPAM, o site Antispam.br pode informar usuários e administradores de redes.

Combate ao SPAM

Todos os dias, milhões de páginas de SPAM são criadas. O Google combate os por meio de uma combinação de algoritmos e revisões manuais.


www.google.com.br

No Google, algoritmos avaliam o comportamento e as características de páginas indexadas e após identificada como uma "página ruim" são rebaixadas nos resultados de buscas. A remoção da maioria dos SPAMs acontece automaticamente. Embora esses algoritmos se encarreguem da maior parte do SPAM, há outros conteúdos de SPAM manualmente para evitar que afetem a qualidade dos resultados. 

O sites de SPAM tentam chegar ao topo dos resultados de pesquisa por meio de técnicas como a repetição de palavras chaves, a compra de links para passar no PageRank ou a inserção de texto invisível na tela. Estes truques para burlar as avaliações de classificação do Google prejudicam os resultados das buscas do Google Pesquisa pois sites relevantes passam a aparecer mais ao final do que realmente apareceriam o que prejudica seus proprietários pois dificulta a localização desses sites . 

 O sites SPAM vêm em todas as formas e tamanhos. Confira os tipos de SPAM.

Tipos de SPAM

  • PURE SPAM (SPAM puro): O site parece usar técnicas mais agressivas como conteúdo sem sentido gerado automaticamente, cloaking, scraping de conteúdo de outros sites e ou violações recorrentes ou graves das diretrizes para webmasters do Google (Google's Webmaster Guidelines).
  • HIDDEN TEXT AND/OR KEYWORD STUFFING (Texto oculto e ou excesso de palavras chave): Algumas páginas podem conter "hidden Text" (texto oculto) e / ou "keyword stuffing" (excesso de palavra-chave).
  • USER-GENERATED SPAM (SPAM gerado pelo usuário): Site parece conter conteúdo de SPAM gerado pelos usuários. O conteíudo problemático pode parecer em páginas de fóruns, livros de visitas ou perfis de usuários.
  • PARKED DOMAINS (Domínio reservados): "Parked domains" (Domínios reservados) são os sites de espaço reservado com pouco conteúdo original,  por isso o Google não costuma incluí-los em resultados de pesquisa.
  • THIN CONTENT WITH LITTLE OR NO ADDED VALUE (Conteúdo superficial com pouco ou nenhum valor agregado): O site parece consistir de páginas de baixa qualidade ou superficiais que não fornecem os usuários com muito valor agregado. Tais como páginas da "affiliate pages"(páginas de afiliado superficiais), "doorway pages"(páginas de entrada), "cookie-cutter sites"(pré fabricadas), o conteúdo gerado automaticamente ou é conteúdo copiado.
  • UNNATURAL LINKS TO A SITE (links artificiais para um site): O Google detectou um padrão de links artificiais, enganosos ou manipuladores para este site. Isso pode ser resultado da compra de links para passar no PageRank ou da participação de "link schemes" (esquemas de links). 
  • UNNATURAL LINKS IN A SITE (links artificiais em um site): O Google detectou um padrão de links artificiais, enganosos ou manipuladores neste site. Isso pode ser resultado da compra de links para passar no PageRank.
  • SPAMMY FREE HOSTS AND DYNAMIC DNS PROVIDERS (Serviço de hospedagem gratuita ou provedos de DNS com SPAM): O site é hospedado por um serviço gratuito de hospedagem ou provedor de DNS dinâmico com uma quantidade significativa de conteúdo de SPAM.
  • CLOAKING AND/OR SNEAKY REDIRECTS (Cloaking e ou redirecionamentos não autorizados): Parece exibir conteúdo diferente para usuários humanos do que é mostrado para os mecanismos de busca ou redirecionar os usuários para uma página diferente do que o Google enxerga.
  • HACKED SITE (Site invadido): Algumas páginas deste site pode ter sido "hacked" (invadidas) por um terceiro, para exibir o conteúdo spam ou links com SPAM. Os proprietários dos websites devem tomar medidas imediatas para limpar os seus sites e corrigir eventuais vulnerabilidades de segurança.

Quando o Google toma alguma ação manual em um site por causa da detecção de SPAM, é enviado notificações de SPAM para os proprietários de sites por meio das Ferramentas do Google para webmasters para ajudá-los a solucionar os problemas, assim os proprietários do site podem corrigir os seus sites e colaborar para com as pesquisas do Google.

[galeria]74[/galeria]

É isso 

Esse artigo "Por dentro do Google Pesquisa - Parte 3" Combate a SPAM encerra por aqui.

Esse é o último artigo dessa trilogia sobre o mecanismo de Google Pesquisa. Tentei abordar todos os pontos por trás do site de busca que revolucionou a internet. Atrás de uma página simples de resultados da busca do usuário há um sistema complexo, cuidadosamente elaborado e testado, para suportar mais de 100 bilhões de pesquisas a cada mês. 

Enquanto você lia esse artigo, aproximadamente 1200 segundos, ou 20 minutos, 23.748.000 pesquisas foram realizadas no Google Pesquisa. O que nos dá, aproximadamente 39.580 pesquisas por segundo

fonte: InsideSearch