Duplicate content penalty
Over het concept ‘duplicate content’ bestaan nogal wat misverstanden. Velen denken dat Google zogenaamde penalty’s (een straf waardoor een website lager dan gewoonlijk in de zoekresultaten terug te vinden is) uitdeelt aan websites die dezelfde content op meerdere pagina’s beschikbaar maken. Dat is echter niet waar.
Wat is duplicate content?
Wat is dan wel het geval? Google probeert zijn bezoekers zo nuttig mogelijke zoekresultaten te tonen. Wanneer een tekst op meerdere webpagina’s te vinden is, dan is het voor de bezoeker niet zinvol om al deze pagina’s in de zoekresultaten terug te vinden. Google probeert daarom via haar logaritme te bepalen welke pagina de originele tekst bevat, en toont doorgaans deze in de zoekresultaten en laat de andere pagina’s weg.
Dat is gunstig voor websites waarvan content regelmatig wordt gekopieerd naar andere websites, zoals nieuwsberichten. Doorgaans heeft de originele pagina de meeste links en linken de pagina’s met kopieën ook terug naar de oorspronkelijke bron. Google kan zo makkelijk bepalen wat het origineel is.
Voor de websites die teksten kopiëren van andere websites is dit minder prettig. Zo nemen webshops vaak productbeschrijvingen over van de fabrikant. Wanneer meerdere websites hetzelfde product verkopen, hebben ze allemaal dezelfde beschrijving en kan Google dit gaan zien als duplicate content, waardoor de productpagina’s niet zo goed scoren in de zoekresultaten. Het is voor deze webshops dan ook zaak om zo veel mogelijk eigen, unieke beschrijvingen te maken voor hun aanbod.
Het komt echter ook voor dat je binnen je eigen website duplicate content problemen hebt. Dit kan zijn doordat je productbeschrijvingen herhaalt op pagina’s. Bijvoorbeeld een beperkte omschrijving op de ene pagina en een iets uitgebreidere beschrijving op een onderliggende pagina.
Maar het kan ook komen doordat één pagina via meerdere url’s toegankelijk is. In dat geval heb je je content maar één keer op je site staan. Google ziet iedere url echter als een aparte pagina en telt deze dus als meerdere versies van je pagina.
In praktijk gebeurt dit bijvoorbeeld wanneer er gebruik wordt gemaakt van parameters achter url’s, zoals sessie-ID’s:
www.domein.tld/productpage.php?item=productX&sessionid=453243423
vs.
www.domein.tld/productpage.php?item=productX&sessionid=876532
Ook is bij veel websites de homepage via meerdere url’s te bereiken:
www.domein.tld
vs.
www.domein.tld/index.html
De oplossing
Het is aan te bevelen om zo veel mogelijk unieke content op je pagina’s te plaatsen. Kopieer niet klakkeloos beschrijvingen op andere websites maar creëer je eigen content. En wees voorzichtig met het herhalen van grote lappen tekst op meerdere pagina’s van je website.
Daarnaast kunnen problemen met meerdere url’s opgelost worden door gebruik te maken van zogenaamde server redirects. Door één url als hoofd-url te kiezen en alle andere varianten via een 301 (permanente) server redirect door te sturen naar deze hoofd-url, weet Google welke pagina het origineel is en zal hij de andere url’s niet opnemen in de resultaten.
Google heeft recentelijk echter nog een nieuwe oplossing geïntroduceerd: een <link> tag waarmee je handmatig het origineel kunt specificeren.
Door de volgende tag in de <head> sectie van je pagina te zetten, kun je Google vertellen dat de betreffende pagina niet het origineel is en welke dit dan wel is:
<link rel=”canonical” href=”http://www.domein.tld/origineel.html” />
PageRank en aanverwante zaken zullen hierdoor ook doorgesluisd worden.
Overigens werkt deze tag alleen voor doorverwijzingen binnen hetzelfde (sub)domein. Voor verhuizingen van content naar een ander domein dient nog steeds de 301 server redirect gebruikt te worden.
Gerelateerde berichten:
- De drie gradaties van duplicate content
- Google Zeitgeist: Nieuwe vormen van content


Begrijp ik het goed dat de ‘penalty’ voor duplicate content dus is dat Google één van de pagina’s kiest als orgineen?
En wanneer zet Google je website wel lager terug in de zoekresultaten, of is dit helemaal een fabeltje?
Google kiest inderdaad meestal maar één van de pagina’s uit om te tonen in de resultaten. Ik noem dat echter geen penalty.
Google kan je pagina’s wel lager in de zoekresultaten zetten, maar dat gebeurt wanneer je iets fout doet, zoals spammen, verborgen content plaatsen, of het inkopen van betaalde links waar geen ‘nofollow’ op zit. Zo’n penalty kan automatisch toegekend worden via Google’s algoritme, of medewerkers van Google kunnen het handmatig toepassen.
Ik vind het incorrect dat de canonical link als ‘de oplossing’ wordt aangedragen. De canonical tag is mijns inziens pure symptoombestrijding, een middel dat het achterliggende probleem -een incorrectie opzet van de site of een verkeerde serverconfiguratie- laat voor wat het is.
De canonical moet een toevoeging zijn op de huidige anti-dupe strategie, geen vervanging.