Gezien mijn interesse in SEO en de wil om daar beter in te worden ga ik wat kleine tutorials plaatsen. In de hoop dat mensen dit oppikken en of kunnen gebruiken om hun eigen site te verbeteren of mij te wijzen op toevoegingen verbeteringen.
Deze post gaat over de robots.txt. Wat doet het, waar is het voor en waarom moet je dit gebruiken.
Wat is een robots.txt bestand en waar moet deze staan?
Het bestand is een normaal .txt bestand. Deze kan je maken met elk willekeurig text-editor programma. Dit bestand moet in je root staan van je domein, www.jouwdomein.nl/robots.txt
Wat doet een robots.txt
Zoekmachines maken gebruik van spiderbots welke pagina’s en mappen bekijken die op je website staan. Met een robots.txt bestand vertel je tegen deze spiderbots welke pagina’s en mappen relevant zijn om te bekijken, of eigenlijk welke niet. Doormiddel van een snippet code geef je aan welke mappen en bestanden overgeslagen mogen worden. Een spiderbot leest dit bestand en weet zo welke mappen hij kan overslaan en zo de tijd dat hij op je site doorbrengt zo efficiënt mogelijk te benutten, en welke mappen en bestanden opgenomen mogen worden in de index van de zoekmachine. Hierdoor vormt een robots.txt een belangrijk onderdeel in je zoekmachine optimalisatie.
Hoe ziet een robots.txt eruit?
User-agent: *
Disallow: /admin/
Disallow: /css/
Disallow: /images/
Disallow: /incl/
Disallow: /includes/
Disallow: /js/
Disallow: /mail/
Disallow: /media/
Disallow: /playlists/
Disallow: /stats/
Disallow: /xml/
Disallow: /xmlparser/
Sitemap: http://www.jouwdomein.com/sitemap.xml
Met de “User-agent:*” geef je aan dat alles wat in de robots.txt staat voor alle spiderbots gelden
Met de “Disallow” geef je aan welke mappen niet geïndexeerd hoeven te worden.
Met de “Sitemap” geef je aan waar je sitemap staat.
Je kan ook een spiderbot identificeren.
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:
Als je dit in je robots.txt hebt staan zeg je tegen alle spiderbots, jullie mogen alles indexeren, behalve Googlebot, jij mag hier niks indexeren.
Ik gebruik deze robots.txt, het is een hele simpele.
User-Agent: *
Disallow: /media/
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.tekortschot.nl/sitemap.xml
Ik zeg hier niet meer dan dat alle spiderbots toegang hebben tot mijn site, behalve in de mappen media, wp-admin en wp-includes.
Persoonlijk denk ik dat ik hem veel effectiever kan maken, dus als iemand tips heeft, hoor ik dat graag. Ik ben namelijk nog aan het uitzoeken wat een goede robots.txt is voor WordPress. Ook ben ik nog bezig met het vullen van de site, en zal ik gaandeweg het bestand aanpassen.
Wil je meer weten over SEO, ik heb ook een post gemaakt over zoekmachine optimalisatie.
Gerelateerde post’s:
SEO tips voor WordPress
Wat is een sitemap?
Wat zijn metatags?

