Recebi esta semana um email do Nuno Pinto a chamar-me, e bem, a atenção para uma pequena "gaffe" no meu ficheiro robots.txt. Neste momento o este ficheiro diz isto:
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
Disallow: /pages/
Disallow: /tag/
O principal motivo para a grande maioria dos "disallow" é impedir que os motores de pesquisa indexem certo conteúdo duplicado e evitar possíveis penalizações. Por exemplo, o post com o jantar do dia dos namorados podesse encontrar em vários URLs diferentes:
http://dinheirooportunidade.com/index.php/jantar-dia-namorados/
http://dinheirooportunidade.com/?p=1112
http://dinheirooportunidade.com/index.php/page/2/
http://dinheirooportunidade.com/index.php/category/sobre-mim/
Isto só para dar algums exemplos. O problema para o qual o Nuno me chamou a atenção é que no meu caso falta-me on /index.php no ficheiro robots.txt, isto porque o meu URL tem o index.php. Assim, o meu robots.txt devia antes ler:
User-agent: *
Disallow: /wp-
Disallow: /index.php/feed/
Disallow: /index.php/trackback/
Disallow: /index.php/page/
Disallow: /index.php/tag/
A origem deste erro deve ter estado no facto que eu muitas vezes faço um ficheiro único, que depois insiro em todos os meus sites, e que no caso deste blog deveria ter sido ligeiramente alterado.
Será isto uma falsa questão?
Embora, e sempre que possível, devemos ajudar os motores de busca a indexar melhor os nossos sites, a realidade é que neste contexto a questão do conteúdo duplicado é uma falsa questão.
No ano passado, e em resposta a um questão de conteúdo duplicado num site, o Matt Cutts disse:
While it’s helpful to try to pick one of those articles and exclude the other version from indexing, typically a whitehat site doesn’t neet to worry about 1-3 versions of an article on their own site.
O que traduzido dá algo como: enquanto que é útil tentar escolher apenas uma versão de um artigo para ser indexado, normalmente um site "whitehat" não precisa de se preocupar em ter 1 a 3 versões do mesmo artigo no site.
O blog oficial do Google Webmaster Central também diz que:
- Quando o Google detecta conteúdo duplicado, originado por variações de URL, agrupa estes URLs num mesmo grupo
- É depois escolhido o "melhor" URL para representar o dito grupo nos motores de busca
- As propriadades (Pagerank) de todos os URLs deste grupo são depois tranferidos para o URL escolhido como sendo representativo do grupo
E agora temos o canonical tag
Mesmo com aquilo que já foi dito até aqui, e para acabar de vez com a questão do conteúdo duplicado, os três principais motores de pesquisa (Google, Yahoo e MSN) acordaram na semana passado no chamado tag canonical.
Daqui para a frente, vai ser possível atribuir o tag link rel="canonical" no head de uma página web, de forma a dizer aos motores de busca qual a versão principal da página. Por exemplo, as seguintes páginas web teriam todas o mesmo tag canonical (<link rel="canonical" href="http://dinheirooportunidade.com" /> ):
www.dinheirooportunidade.com
www.dinheirooportunidade.com/index.php
dinheirooportunidade.com
dinheirooportunidade.com/index.php
O tag canonical serve assim para dizermos aos motores de pesquisa qual é a versão principal de uma qualquer página do nosso site em relação a outras versões ligeiramente diferentes da mesma página, para que esta possa depois ser indexada com todos os beneficíos transferidos para ela.
É também de realçar que o tag canonical apenas serve para destinguir conteúdo no mesmo domínio e respectivos sub-domínios, e não pode ser usado entres dois sites diferentes.
Chamo também a atenção que o tag canonical é inserido no header dos sites e que portanto vai exigir alguma espécie de alteração de ficheiros. No caso dos blogs, é todo provável que nos próximos dias aparecam os primeiros plugins WordPress para inserir o tal canonical tag no header das páginas.
Como todo este assunto do canonical tag é muito recente, é possível que nos próximos dias surjam mais explicações e detalhes. Se entretanto mais alguém quiser contribuir com alguma informação, também o pode fazer nos comentários deste post.
13 comentários em “Conteúdo duplicado e o novo tag canonical”
Sorry, the comment form is closed at this time.






sempre bom saber…
http://www.9quina.com
Como disse o amigo acima, é sempre bom saber…
Em breve já vou tratar de implementar a novidade em meus blogs!
=D
Hum, não sei o pq de tanto medo de conteúdo duplicado dentro do proprio site que o produziu. Como bem disse o Matt Cuts um site normal sempre tem mais de uma referência ao mesmo conteudo. Duvido que um motor de busca puniria um site comum por isso, ainda mais quando o conteudo é original do proprio site.
Yep , isto já é um post para os prós do SEO …..eu sinceramente ainda nao estou ao nível para discutir estes assuntos.
De momento estou é preocupadao em ver se percebo a razao de me aparecerem o grupo de links que tenho logo a seguir ao header do meu site …Desconfigurados!
Desculpme o off-topic mas ..se alguem souber a soluçao ou a razao para me aparecerem assim os 3 blocos de links …diga.
Existem já plugins wordpress para implementar isto, sem grande stress.
A tag canonical só peca por tardia. Foi uma medida acertada e que tem por intenção limpar o index dos motores de busca de muito lixo que para lá vai.
Penso que o google já o estaria a fazer para sites que constem da webmasters tools. O problema deles é que muitos dos que fazem SEO evitam este tipo de footprints, eu evito! O google só deve saber aquilo que me apetece e aquilo a que tem direito de forma a ranquear os meus sites, nada mais (agora é que o “todo-poderoso” me cai em cima!!!).
Cumps
Realmente não havia pensado desta forma quanto a aindexação de conteúdos duplicados.Pensoq que os buscadores tenham critérios especiais para evitar punir sites.
Muito interessante,eu preciso darum jeito no meu site também,preciso aumentar o PG dele o mais rápido possivel.
Custódio, Boa noite!
Gostaria de saber se você conhece algum programa de afiliados que renda bem para sites em espanhol, que não seja adsense.
Abraços!
Fernando
Isto de facto é algo que já dependo do nicho. Mas há muito programas espanhois na Zanox e noutras plataformas.
Que maravilha! Até tinha saudades destas informações preciosas e se alguem o tem para partilhar é aqui o nosso amigo Custódio! Um sincero Obrigado
De certeza que com 2 ou 3 versões do mesmo artigo no site não estamos sujeitos a penalização do google?
É que hoje ao verificar o google webmastertools, este alertou-me para o facto de eu ter 4 páginas com tags de títulos duplicadas.
Continua sem o index.php, é de propósito?