Website Crawler, auch Spider oder allgemeiner Robots bzw. Bots genannt, durchforsten das Internet und analysieren automatisch Internetauftritte um diese zu indexieren. Was bei Google, Bing und Co. erwünscht ist kann bei anderen „Besuchern“ aber auch schnell zur Last werden. Dies kann, sogar im wahrsten Sinne des Wortes, schnell zur Last werden und zwar für den jeweiligen Server auf dem die Webseite gehostet wird und der ständig unter Volldampf läuft.
Um bestimmte Bots vom durchsuchen der eigenen Website auszuschließen gibt es 2 Methoden. Zum einen mit Hilfe einer robots.txt Datei und als zweite Lösung die, mit Hilfe von URL rewrite Regeln in einer .htaccess Datei.
Ich möchte deshalb nur näher auf die zweite Methode eingehen, da das befolgen der Anweisungen einer robots.txt keine Pflicht darstellt und sich einige Spider nicht daran halten. Unerwünschtes crawlen der Website durch Bots bzw. Spider verhindern weiterlesen
Als Chefkoch arbeite ich als Systemadministrator und Programmierer. Hier blogge ich über Joomla, Magento, WordPress und Windows. In meiner Freizeit fotografiere ich viel, fahre mit meiner Yamaha XT660R oder Jogge durch die Gegend.