krähativ design – der BLOG in Heidenheim! | Anleitung für Roboter
Im Internet sind nicht nur wir Menschen, sondern auch Roboter unterwegs! Diese sind im Internet meistens unter dem Begriff „Crawler“ bekannt.
Suchmaschinenoptimierung,Crawler,robots.txt,Programme,Pishing-Mail,Robots Exclusion Protocol,Stammverzeichnis
460
post-template-default,single,single-post,postid-460,single-format-standard,ajax_fade,page_not_loaded,,select-theme-ver-9.9

Anleitung für Roboter

Im Internet sind nicht nur wir Menschen, sondern auch Roboter unterwegs! Diese sind im Internet meistens unter dem Begriff „Crawler“ bekannt. Das sind quasi digitale Programme die nichts anderes tun, als automatisch das gesamte Internet nach und nach zu durchforsten. Suchmaschinen wie Google z.B. nutzen diese „Crawler“, um den Inhalt unserer Website zu bewerten und sie auf ein globales Ranking einzustufen. Kling doch eigentlich ganz gut für uns oder? Falsch gedacht!

Viele dieser „Crawler“ nutzen dieses Prinzip aus, um zum Beispiel Webseiten nach E-Mail-Adressen zu scannen. Am Ende hat man dann eine Phishing-Mail nach der anderen im Postfach bei der wir mal wieder einem persischen Prinzen helfen sollen an seine Millionen zu kommen.

Kurz gefasst geht es in der „robots.txt“ (auch genannt „Robots Exclusion Protocol“) darum, solchen Crawlern eine Anleitung bereitzustellen – also quasi wie sie sich auf unserer Website verhalten sollen – was sie dürfen und was nicht.

Das Ganze funktioniert dann in der Praxis so: Ein Crawler will die Website besuchen. Bevor es jedoch sein Programm durchlaufen lässt, checkt es die „robots.txt“ ab.

Als Beispiel steht in dieser Datei nun:

User-agent: *
Disallow: /

Mit „User-agent:“ legt man fest, welche Art von Crawler angesprochen werden soll… in dem Fall bedeutet das „*“, dass diese Regel für alle Arten von Crawler greift.

Mit dem Text darunter – also mit „Disallow: /“ legt man fest, welche Verzeichnisse oder Dateien der Crawler auf keinen Fall aufrufen soll (disallow = verbieten).

Will man also nur einen bestimmten Bereich sperren, setzt man nach dem „Disallow: “ den jeweiligen Pfad ein – z.B. so „Disallow: /images/“ würde dem Crawler sagen, dass er diesen Bereich ignorieren und keine Inhalte indizieren soll.

User-agent: *
Disallow: /images/

Nach dem „User-agent:“ können wir die Identifikation eines bestimmten Crawlers angeben. Jeder Crawler der nicht diese Identifikation hat, wird die Regel ignorieren.

User-agent: Googlebot
Disallow: /tmp/

Natürlich muss sich das Programm nicht an diese Datei halten! „Crawler“ können das ganze auch einfach ignorieren und trotzdem Informationen aus der Website entnehmen. Es ist also eine schlechte Idee etwas durch diese Datei verstecken zu wollen.

Wir nutzen diese Methode hauptsächlich, um den Google Crawler daran zu hindern, bestimmte Inhalte zu indizieren! Um sowas in eine Website mit einzubauen, muss man nichts anderes machen, als die Datei in das Stammverzeichnis der Website zu legen, und sie „robots.txt“ zu nennen 😉

Zurück
Keine Kommentare

Einen Kommentar schreiben

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.