publicidade

Conteúdo duplicado e o novo tag canonical
Publicado a 24 February, 2009

Recebi esta semana um email do Nuno Pinto a chamar-me, e bem, a atenção para uma pequena "gaffe" no meu ficheiro robots.txt.  Neste momento o este ficheiro diz isto:

User-agent: *

Disallow: /wp-

Disallow: /feed/

Disallow: /trackback/

Disallow: /pages/

Disallow: /tag/

O principal motivo para a grande maioria dos "disallow" é impedir que os motores de pesquisa indexem certo conteúdo duplicado e evitar possíveis penalizações.  Por exemplo, o post com o jantar do dia dos namorados podesse encontrar em vários URLs diferentes:

http://dinheirooportunidade.com/index.php/jantar-dia-namorados/

http://dinheirooportunidade.com/?p=1112

http://dinheirooportunidade.com/index.php/page/2/

http://dinheirooportunidade.com/index.php/category/sobre-mim/

Isto só para dar algums exemplos.  O problema para o qual o Nuno me chamou a atenção é que no meu caso falta-me on /index.php no ficheiro robots.txt, isto porque o meu URL tem o index.php.  Assim, o meu robots.txt devia antes ler:

User-agent: *

Disallow: /wp-

Disallow: /index.php/feed/

Disallow: /index.php/trackback/

Disallow: /index.php/page/

Disallow: /index.php/tag/

A origem deste erro deve ter estado no facto que eu muitas vezes faço um ficheiro único, que depois insiro em todos os meus sites, e que no caso deste blog deveria ter sido ligeiramente alterado.

Será isto uma falsa questão?

Embora, e sempre que possível, devemos ajudar os motores de busca a indexar melhor os nossos sites, a realidade é que neste contexto a questão do conteúdo duplicado é uma falsa questão.

No ano passado, e em resposta a um questão de conteúdo duplicado num site, o Matt Cutts disse:

While it’s helpful to try to pick one of those articles and exclude the other version from indexing, typically a whitehat site doesn’t neet to worry about 1-3 versions of an article on their own site.

O que traduzido dá algo como: enquanto que é útil tentar escolher apenas uma versão de um artigo para ser indexado, normalmente um site "whitehat" não precisa de se preocupar em ter 1 a 3 versões do mesmo artigo no site.

O blog oficial do Google Webmaster Central também diz que:

  1. Quando o Google detecta conteúdo duplicado, originado por variações de URL, agrupa estes URLs num mesmo grupo
  2. É depois escolhido o "melhor" URL para representar o dito grupo nos motores de busca
  3. As propriadades (Pagerank) de todos os URLs deste grupo são depois tranferidos para o URL escolhido como sendo representativo do grupo

E agora temos o canonical tag

Mesmo com aquilo que já foi dito até aqui, e para acabar de vez com a questão do conteúdo duplicado, os três principais motores de pesquisa (Google, Yahoo e MSN) acordaram na semana passado no chamado tag canonical.

Daqui para a frente, vai ser possível atribuir o tag link rel="canonical" no head de uma página web, de forma a dizer aos motores de busca qual a versão principal da página.  Por exemplo, as seguintes páginas web teriam todas o mesmo tag canonical (<link rel="canonical" href="http://dinheirooportunidade.com" /> ):

www.dinheirooportunidade.com
www.dinheirooportunidade.com/index.php
dinheirooportunidade.com
dinheirooportunidade.com/index.php

O tag canonical serve assim para dizermos aos motores de pesquisa qual é a versão principal de uma qualquer página do nosso site em relação a outras versões ligeiramente diferentes da mesma página, para que esta possa depois ser indexada com todos os beneficíos transferidos para ela.

É também de realçar que o tag canonical apenas serve para destinguir conteúdo no mesmo domínio e respectivos sub-domínios, e não pode ser usado entres dois sites diferentes.

Chamo também a atenção que o tag canonical é inserido no header dos sites e que portanto vai exigir alguma espécie de alteração de ficheiros.  No caso dos blogs, é todo provável que nos próximos dias aparecam os primeiros plugins WordPress para inserir o tal canonical tag no header das páginas.

Como todo este assunto do canonical tag é muito recente, é possível que nos próximos dias surjam mais explicações e detalhes.  Se entretanto mais alguém quiser contribuir com alguma informação, também o pode fazer nos comentários deste post.

Tags: ,

13 comentários em “Conteúdo duplicado e o novo tag canonical”
  1. Como disse o amigo acima, é sempre bom saber…

    Em breve já vou tratar de implementar a novidade em meus blogs!

    =D

  2. Hum, não sei o pq de tanto medo de conteúdo duplicado dentro do proprio site que o produziu. Como bem disse o Matt Cuts um site normal sempre tem mais de uma referência ao mesmo conteudo. Duvido que um motor de busca puniria um site comum por isso, ainda mais quando o conteudo é original do proprio site.

  3. Duarte says:

    Yep , isto já é um post para os prós do SEO …..eu sinceramente ainda nao estou ao nível para discutir estes assuntos.

    De momento estou é preocupadao em ver se percebo a razao de me aparecerem o grupo de links que tenho logo a seguir ao header do meu site …Desconfigurados!

    Desculpme o off-topic mas ..se alguem souber a soluçao ou a razao para me aparecerem assim os 3 blocos de links …diga.

  4. Rui Augusto says:

    Existem já plugins wordpress para implementar isto, sem grande stress.

  5. A tag canonical só peca por tardia. Foi uma medida acertada e que tem por intenção limpar o index dos motores de busca de muito lixo que para lá vai.

    Penso que o google já o estaria a fazer para sites que constem da webmasters tools. O problema deles é que muitos dos que fazem SEO evitam este tipo de footprints, eu evito! O google só deve saber aquilo que me apetece e aquilo a que tem direito de forma a ranquear os meus sites, nada mais (agora é que o “todo-poderoso” me cai em cima!!!).

    Cumps

  6. Daniel Bica says:

    Realmente não havia pensado desta forma quanto a aindexação de conteúdos duplicados.Pensoq que os buscadores tenham critérios especiais para evitar punir sites.

  7. Marcos says:

    Muito interessante,eu preciso darum jeito no meu site também,preciso aumentar o PG dele o mais rápido possivel.

  8. Fernando says:

    Custódio, Boa noite!
    Gostaria de saber se você conhece algum programa de afiliados que renda bem para sites em espanhol, que não seja adsense.

    Abraços!

    Fernando

    • Custodio says:

      Isto de facto é algo que já dependo do nicho. Mas há muito programas espanhois na Zanox e noutras plataformas.

  9. Edgar says:

    Que maravilha! Até tinha saudades destas informações preciosas e se alguem o tem para partilhar é aqui o nosso amigo Custódio! Um sincero Obrigado

  10. MikeSoftware says:

    De certeza que com 2 ou 3 versões do mesmo artigo no site não estamos sujeitos a penalização do google?
    É que hoje ao verificar o google webmastertools, este alertou-me para o facto de eu ter 4 páginas com tags de títulos duplicadas.

  11. Rui says:

    Continua sem o index.php, é de propósito?

Sorry, the comment form is closed at this time.

Subscreve a newsletter gratuita e começa hoje mesmo a ganhar dinheiro na internet!

Categorias