Zo Zorg Je Ervoor dat Google Je Website Indexeert Zoals Je Wil

Scraping jul. 27, 2020


Veel websites stellen zich open om geïndexeerd of gescrapet te worden. Ze geven duidelijk aan welke pagina’s hun website bevat om het voor Google makkelijker te maken om hun website te crawlen. Dit doen ze met robots.txt- en sitemap.XML-bestanden. Hiermee indexeer je eigenlijk je eigen website en definieer je alle URL’s die je hebt. Bepaal zelf welke pagina’s er belangrijk zijn voor je Search Engine Optimalisation en geef Google een duwtje in de juiste richting.


Robots.txt

Met een robots.txt bestand of Robots Exclusion Protocol kan je configureren welke pagina’s bepaalde zoekmachines wel of net niet mogen indexeren. Je kan de robots.txt file van een website altijd terugvinden door te zoeken naar: domein/txt bijvoorbeeld https://www.bol.com/robots.txt.

Voorbeeld van het robots.txt bestand van Bol.com

Leg verschillende zoekmachinebots (andere) beperkingen op

URL’s die bijvoorbeeld leiden naar winkelmandjes van klanten of personalisatie zullen webshops niet willen laten indexeren. Per “user-agent”, m.a.w. per zoekmachinebot, kan een website of bedrijf aangeven welke URL’s wel of niet geïndexeerd mogen worden. Alle andere bots hebben (in de meeste gevallen) geen toestemming om te crawlen. Dit is bijvoorbeeld het geval bij LinkedIn, enkel de gedefinieerde bots mogen hen indexeren. Soms krijgen andere crawlers wel de mogelijkheid om zich aan te melden om te mogen indexeren.

Vertel hoeveel tijd er tussen scraping acties moet zitten

Een bedrijf vindt het niet oké als een computer plots 15.000 websitebezoeken uitvoert in enkele minuten tijd. Daarom geven ze aan in hun robots.txt file hoeveel seconden er tussen geautomatiseerde websitebezoeken moeten zitten bij het crawlen van hun website. Om je een idee te geven, bij Bol.com is dit een delay van 20 seconden. Aangezien SEO zo belangrijk is voor vele bedrijven willen ze actief geïndexeerd worden door Google, denk maar aan webshops bijvoorbeeld. Zo stellen ze (onbewust) ook hun deuren open voor andere dataminers. Om te vermijden dat hun site crasht, vertellen ze scrapers hoe ze de indexatie het beste kunnen aanpakken.

“Off-piste indexeren”

Let op, wat je vastlegt in deze documenten is niet bindend. Zoekmachines zijn in principe niet verplicht zich aan je bepalingen te houden. Bekijk het als volgt: je robots.txt bestand is een skipiste. Het vertelt je waar je kan skiën en wat je op een piste kan verwachten, maar er is niemand die je tegenhoudt om off-piste te gaan skiën. Ook zoekmachines kunnen los van de aangegeven piste pagina’s indexeren.

Het robots.txt document vertelt je ook waar je de sitemap.XML kan terugvinden, hieronder meer daarover.

Sitemap.XML

Met een sitemap.XML lijst je alle URL's op die je hebt, met hun bijhorende metadata. Voor elke URL, die geïndexeerd mag worden, kan je zien wanneer een product voor het laatste werd geüpdatet en hoe belangrijk bepaalde pagina’s (URL’s) zijn voor een website. Zo krijgen bestsellers een hogere prioriteit om geïndexeerd te worden, best wel belangrijk als je zoals Bol.com 20.000.000 producten aanbiedt. Zoekmachines kunnen dankzij deze informatie een website gerichter crawlen.

Voorbeeld van de sitemap.XML van Bol.com

Laura Verbeke - Marketing Expert

Our youngest team member full of ambition is responsible for all our marketing activities. She’s also the sympathetic and thoughtful contact person for some of our fantastic brands!

Top! je hebt je succesvol ingeschreven.
Top! Nu nog de checkout afronden voor volledige toegang.
Welkom terug! Je bent succesvol ingelogd.
Yes! je account is volledig geactiveerd, je hebt nu toegang to alle inhoud.