WPLounge
Home » Begrippenlijst WPL » Wat is een crawler?

Wat is een crawler?

Heb je net een nieuwe website gelanceerd? Dan wil je dat deze zo snel mogelijk geïndexeerd wordt. Om dit proces te bespoedigen, maakt Google gebruik van zogeheten crawler. In dit artikel vertellen we je graag wat een crawler is en wat je hier aan hebt.

Affiliate disclaimer:
In onze artikelen en op onze pagina's staan affiliate links. Wanneer je via één van deze links een aankoop doet, ontvangen wij een (meestal kleine) commissie van de verkoper. Wij geven altijd onze eerlijke mening over producten. Klik hier voor meer informatie.

Hoe werkt een crawler?

Een crawler is een stukje software dat elke website op het internet bezoekt en leest. De tool lees eerst de regels van de website en probeert hiermee te begrijpen waar de website over gaat. Vervolgens kijkt de crawler naar de structuur van een pagina, naar de interne linkstructuur en naar aanverwante zaken.

Het gevolg is dat een crawler een websitepagina aan een lange lijst met URL’s toevoegt. Deze pagina’s worden vervolgens geïndexeerd door Google, waarna de betreffende pagina in de zoekmachine van Google verwerkt wordt. Als website-eigenaar is dat uiteraard wat je wilt.

TIP VAN WPLOUNGE
Divi theme & Divi Builder
Bij Elegant Themes ontvang je meer dan
85 premium WordPress themes (waaronder Divi!) voor maar 89 dollar!

Bekijk de themes »»
Lees meer over Divi.

Wat is het nut van een crawler?

Het belang van een crawler mag niet onderschat worden. Zonder deze handige software zou het namelijk maandenlang duren voordat je website geïndexeerd wordt. Als je nu echter voor een goede opbouw van je website zorgt, wordt deze binnen mum van tijd geïndexeerd. Dit komt je rankings binnen Google ten goede, waardoor je bijvoorbeeld sneller geld met je website kunt verdienen.

Voeg je nieuwe pagina’s aan je website toe? Dan zorgt de crawler ervoor dat de pagina’s snel in de zoekmachine van Google verwerkt worden. Hierdoor ben je in staat om op een efficiënte manier aan je website te werken. Je kunt in de basis dus niet zonder de crawler van Google.

Overigens kun je zelf ook een crawler gebruiken. Je bent hiermee in staat om informatie vanaf bepaalde pagina’s automatisch over te nemen. Hierbij kun je denken aan specifieke data die je voor een database nodig hebt.

Wat is een crawlbudget?

De crawler van Google heeft altijd met een bepaald budget te maken. Het zogeheten crawlbudget is bepalend voor de tijd waarop de crawler op je website actief is.

Hierover zegt Google het volgende: des te meer autoriteit een pagina heeft, des te hoger het crawlbudget is. Dit zorgt ervoor dat de crawler de website nog beter beoordeeld en daardoor beter/sneller indexeert.

Idealiter heeft de crawler voor jouw website dan ook een hoog crawlbudget. Dit kun je echter op maar één manier voor elkaar krijgen: door je website meer autoriteit te geven. De autoriteit van je website en het crawlbudget gaan altijd hand in hand met elkaar.

Hoe kun je de crawler helpen dit budget goed te besteden?

De hoogte van het crawlbudget is bepalend, evenals de manier waarop dit budget besteed wordt. Gelukkig zijn er meerdere mogelijkheden waarmee je de crawler kunt helpen om het budget goed te besteden.

Ervoor zorgen dat je pagina’s worden gecrawled

Ben je op bepaalde pagina’s met SEO bezig geweest? Dan is het zaak dat juist die pagina’s geïndexeerd worden door Google. Dit houdt in dat juist deze pagina’s door de crawler gevonden wordt. Dit doe je onder meer door voor een goede interne linkstructuur te zorgen.

Met een goede interne linkstructuur geef je de gewenste structuur aan je website mee. Het is hierdoor voor Google een stuk makkelijker om de inhoud van je website te begrijpen. En dit komt de indexering uiteraard alleen maar ten goede.

Ervoor zorgen dat bepaalde pagina’s niet worden gecrawled

Heb je op dit moment pagina’s die je nog niet geoptimaliseerd hebt? Dan wil je het liefste dat deze pagina’s niet gecrawled worden. Dit is immers zonde van het crawlbudget.

Er zijn gelukkig meerdere manieren om dit voor elkaar te krijgen:

Robots.txt bestand. In dit bestand kun je bepaalde pagina’s op je website een disallow label meegeven. Dankzij dit label weet de crawler dat deze pagina overgeslagen kan worden tijdens het crawlen.
No-index tag. Ben je al te laat met bovenstaande stap? Je kunt de betreffende pagina dan een no-index tag meegeven. Hiermee geef je aan Google aan dat deze pagina niet in de zoekresultaten getoond moet worden.
Canonical tag. Met deze tag geef je aan dat meerdere pagina’s in de basis hetzelfde zijn, maar dat pagina Y als enige gecrawled moet worden. Dit houdt in dat alléén die pagina geïndexeerd wordt. Hiermee voorkom je op een simpele manier dat Google je website een duplicate content penalty geeft.

 

Reageer