Farms und robots.txt

michaelsy

Damit sollen Anwender älterer Versionen direkt auf die Doku ihrer Version zugreifen können und die Dokumentation zu einer neuen Version geschrieben werden können, ohne die aktuelle Doku zu ändern.

Gutes Konzept!

Wie kann ich erreichen, dass das Indexieren aller Animals außer einem bestimmten unterbunden wird?

Grundsätzlich gilt: wenn keine robots.txt vorhanden ist, dann soll voll indexiert werden.

Wenn man die Folgende robots.txt anlegt, dann soll nichts indexiert werden:

# Ganze Site von der Indexierung ausschliessen:
User-agent: *
Disallow: /

Das hat bei mir bisher immer funktioniert.

Unterscheiden sich bei dir die einzelnen Animals durch eine andere Subdomain? (Grübel: geht das überhaupt anders?)

lgeyer

Wie das mit den robots.txt geht, ist mir schon klar. Aber bei einer Farm habe ich ja nur ein "Main-Verzeichnis" auf dem Server und damit nur eine robots.txt. Die Animals sind ja irgendwo in einem anderen Verzeichnis und bestehen nur aus den Verzeichnissen conf und data.

Unsere Animals sind verschiedene Sub-Domains:
- doku.software.de
- doku2.software.de
- doku3.software.de
Alle Domains verweisen auf das selbe Verzeichnis.
(software.de ist nicht unsere Domain!)

In Verzeichnissen gesprochen:

- tm_wiki ist die DW-Installation
- tm_farm ist die Farm
- tm_farm/doku ist aktuelles Animal
- tm_farm/doku3 ist das neue Animal
usw.

Wenn dann die Version freigegeben wird, brauche ich nur die entsprechenden Definitionen bzw. Verweise ändern.

Lothar Geyer

michaelsy

Alle Domains verweisen auf das selbe Verzeichnis.

Daraus schließe ich: Egal welche Subdomain der Bot aufruft, er trifft immer auf ein- und dieselbe robots.txt

Wenn dem so ist, dann wird man wohl in dieser robots.txt [/m] einen eigenen Eintrag pro Subdomain machen müssen. Bzw. die Subdomaines z.B. durch geeignete Platzhalter gruppiert ansprechen. So etwa in der Art: [m]...doku00*.software.de... ...doku01*.software.de...

Aber wenn es hier nur um eine Ausnahme geht, dann dürfte es meiner Erfahrung nach ausreichen, erst einmal den kompletten Zugriff zu negieren, um dann am Ende von robots.txt die eine Ausnahme zu defineren, die die Gesamt-Zugriffssperre punktuell wieder invertiert.

Wenn du das hinbekommen und ausgetestet hast (ist natürlich ein sehr langwieriger Prozess), dann bitte das Ergebnis hier posten...

HTH - Michael Sy.

lgeyer

Michaelsy wrote
Alle Domains verweisen auf das selbe Verzeichnis.
Daraus schließe ich: Egal welche Subdomain der Bot aufruft, er trifft immer auf ein- und dieselbe robots.txt

Davon gehe ich auch aus. Aber ein Crawler arbeitet mit anderen Server-Requests als ein "normaler" Leser. Da sind aber mein Kenntnisse des http-Protokolls zu gering.

Michaelsy wrote Wenn dem so ist, dann wird man wohl in dieser robots.txt [/m] einen eigenen Eintrag pro Subdomain machen müssen. Bzw. die Subdomaines z.B. durch geeignete Platzhalter gruppiert ansprechen. So etwa in der Art: [m]...doku00*.software.de... ...doku01*.software.de...

Aber das mit den Sub-Domains bekommt der Crawler ja (meiner Meinung nach) gar nicht mit. Jede Animal-Domain wird ja vom Server auf das selbe Farm-Verzeichnis umgeleitet. Dass die Seiten-Daten dann unter einer bestimmten "physikalischen" Adresse (=Verzeichnis) liegen, macht DW intern. Außer der Crawler würde direkt auf das Dateisystem zugreifen. Aber dann käme er zu gar keinen Daten, nur zum DW-Code.

Michaelsy wrote Aber wenn es hier nur um eine Ausnahme geht, dann dürfte es meiner Erfahrung nach ausreichen, erst einmal den kompletten Zugriff zu negieren, um dann am Ende von robots.txt die eine Ausnahme zu defineren, die die Gesamt-Zugriffssperre punktuell wieder invertiert.

Unabhängig davon, dass die robots.txt nur im Hauptverzeichnis (in unserem Fall also der Farm) liegen kann (siehe oben): eine "Allow"-Angabe gibt es nicht, nur ein "Disallow".

Michaelsy wrote Wenn du das hinbekommen und ausgetestet hast (ist natürlich ein sehr langwieriger Prozess), dann bitte das Ergebnis hier posten...

Erstens: Im Moment keine Zeit. Zweitens muss ich mir erst mal überlegen, wie so etwas zu testen ist.
Wird also sicher etwas dauern ...

Lothar Geyer

michaelsy

Ich denke, du bist noch ein gutes Stück weit weg, die Sache, so wie du dir das wünscht, umsetzen zu können. Denn zur "Sichtweise" des Crawlers: Der hat im Grunde dieselbe Sichtweise, wie jeder normale Browser-Besucher auch. Von anderen Verzeichnissen oder sonsteiner Struktur weiß der nichts. Nur die "Struktur", die er über die URLs gezeigt bekommt. (Das ist ja genau das "Problem", was man durch die Kanonisierung von URLs "verarztet".) Plus natürlich seinem Zugriff und seine Auswertung von robots.txt[/m]. Wichtig ist, sich zu vergegenwärtigen, dass er jede [m]robots.txt[/m], die er in einer von deinen Animals vorfindet, für eine eigene bzw. andere [m]robots.txt hält. Da er sie über eine andere URL adressiert bzw. gezeigt bekommt.

... eine "Allow"-Angabe gibt es nicht, nur ein "Disallow".

Doch, gibt es, zumindest implizit. In meinem Beispiel hier, wird etwa nur einem einzigen, bestimmten Anfrager "gestattet", "zuzugreifen": (Da er sich sonst weigert.) (Eine von mir produktiv/real eingesetze robots.txt , von der ich daher auch weiß, dass sie funktioniert.)

# ---------------------------------------------------------
# Ganze Site von der Indexierung ausschliessen:
User-agent: *
Disallow: /

# ---------------------------------------------------------
# Damit aber dennoch Browsershots.org (Browsertest-Seite) einen Zugriff hat (bzw. diesen nicht verwehrt): 
User-agent: Browsershots
Disallow:

# ---------------------------------------------------------

Zweitens muss ich mir erst mal überlegen, wie so etwas zu testen ist.

Browsershots.org ließe sich ganz prima als Dummy-Test-Crawler missbrauchen, da dieser Service sofort zurückmeldet, ob er zugreifen kann (bzw. genau genommen natürlich "möchte".)

HTH - Michael Sy.

michaelsy

Ein "Allow" gibt es auch explizit, wie man z.B. hier sehen kann:

http://www.performics.de/blog/allow-oder-disallow-robots-txt-in-googles-webmaster-tools

Hallo Lothar,

ich helfe ja ganz gerne (vor allen denen, die nach uns diese Disk hier lesen), aber ein biss'erl öfter könntest du dich auch mal an Onkel Google wenden.

Nichts für ungut...

Michael Sy.

Nachtrag: Die entsprechende Google-Spec weist "Allow" ganz explitit aus.

lgeyer

Michaelsy wrote Ein "Allow" gibt es auch explizit, wie man z.B. hier sehen kann:

http://www.performics.de/blog/allow-oder-disallow-robots-txt-in-googles-webmaster-tools

Das ist aber nur für einen speziellen Tester bzw. Crawler machbar. Im englischen Wikipedia steht das auch: Some major crawlers support an Allow directive ( https://en.wikipedia.org/wiki/Robots_exclusion_standard )

Michaelsy wrote ich helfe ja ganz gerne (vor allen denen, die nach uns diese Disk hier lesen), aber ein biss'erl öfter könntest du dich auch mal an Onkel Google wenden.

Nichts für ungut...

Wie Du siehst, versuche ich mich schon zu informieren. Und: ich bin nicht so schnell eingeschnappt. Keine Angst.

Lothar Geyer

michaelsy

Das ist aber nur für einen speziellen Tester bzw. Crawler machbar.

Tja, zur Wahrheit gehört aber leider ja auch: Wenn wir's für Google hinkriegen, dann reicht's ja wohl schon auf unserem Niveau - nicht wahr? - leider!

Wenn's mit dem Browsershot funzt, dann kann man ja warten, was nach einigen Tagen (/Wochen?) Google dazu sagt.

andi

Eine eigene robots.txt pro animal ließe sich via rewrite rules sicherlich hinbiegen, würde dann aber Konfiguration pro vhost benötigen (mir fällt jedenfalls auf Anhib nix cleveres allgemein funktionierendes ein).

Der Vorschlag von Michaelsy geht nicht, weil eine robot.txt sich immer auf die Domain bezieht von der sie ausgeliefert wird. Man kann keine sub-domain spezifischen Regeln festlegen (es sei denn ich irre mich grundsätzlich).

Aber für was du erreichen willst, muss es vielleicht nicht unbedingt eine robot.txt haben. Du könntest für deine Animals die du nicht in google haben willst mal versuchen einfach die indexdelay Funktion zu missbrauchen. Mal hochdrehen auf ein Jahr oder so.

michaelsy

andi wrote Der Vorschlag von Michaelsy geht nicht, weil eine robot.txt sich immer auf die Domain bezieht von der sie ausgeliefert wird. Man kann keine sub-domain spezifischen Regeln festlegen (es sei denn ich irre mich grundsätzlich).

In der entsprechenden Google-Spec kann man sich davon überzeugen, dass du richtig liegst.

... würde dann aber Konfiguration pro vhost benötigen

Was das heißt, ahne ich allenfalls ansatzweise... (Nachtrag: Meintest du "per vhost.conf"?)

Eine eigene robots.txt pro animal ließe sich via rewrite rules sicherlich hinbiegen

Wir haben für unseren Job hier nur 2 Typen von Animals zu unterscheiden. Die eine, die indexiert werden soll und alle anderen, die dies nicht sollen.

Soweit ich das überblicke, müssten wir also nur eine einzige Umleitung definieren - nach dem folgenden Schema:

Bedingung: http://v0123.software.de/robots.txt --> Ergebnis: http://v0123.software.de/robots_allowed.txt

Wenn die nicht zuschlägt, wird auf die ganz normale robots.txt zugegriffen.

Das müsste man doch über die (eine farm/animal-weite) .htaccess definieren können?

Scheint mir im Prinzip einfach zu sein. Oder was mache ich hier für einen Gedankenfehler?

----

Wie also das umsetzen?:
Bedingung: http://v0123.software.de/robots.txt --> Ergebnis: http://v0123.software.de/robots_allowed.txt

Eine erste (ungetestete!) Idee, wie man das in der .htaccess umsetzen könnte:

RewriteCond %{HTTP_HOST} ^v0123.software.de$
RewriteRule ^robots.txt$     robots_allowed.txt             [R=301,L]

lgeyer

LGeyer:1525878735 wrote Das ist aber nur für einen speziellen Tester bzw. Crawler machbar. Im englischen Wikipedia steht das auch: Some major crawlers support an Allow directive ( https://en.wikipedia.org/wiki/Robots_exclusion_standard )

Ergänzung: ein Allow gibt es auch wirklich, nur heißt es nicht so.

Disallow:
"Disallow: /[/m]" oder "[m]Disallow: /xyz/" usw.

Allow:
"Disallow:"

Also ohne Angabe eines Verzeichnisses. Siehe http://www.robotstxt.org/orig.html#examples

Lothar Geyer

Global DokuWiki Links