Ok, geht vor allem auch darum, ob ich die Funktion der robots.txt, sowie der Bots richtig verstanden habe.
Die robots.txt soll zB Crawler davon abhalten bestimmte Bereiche zu indexieren und zB für Google, Bing etc zu sammeln, oder?
Da ja alle Module etc auf in *.php-Files geschrieben sind und ich keine *.htm-Files finden kann wäre die erste Frage: Können die Bots den vorhandenen Content eigentlich lesen/finden?
Wenn das htm zur Ausgabe dynamisch im Frontend generiert wird, kann man dann überhaupt Bots davon abhalten oder gezielt hinschicken, um etwas crawlen zu lassen?
In unserem Fall, wie auch den meisten Anderen, gibt es Bereiche, die nicht für jeden sichtbar sind und somit auch nicht erfasst werden sollen. Das wären bei uns zB:
- Adminbereich
- Kasse
- Jobs
- Kalender (da einfach unnötig den zu crawlen)
- Galerie
- Medienmodul
- Geburtstag
- Abwesenheiten
- Auszeichnungen
Zudem soll es ja möglich sein Bots zu sagen, wann diese eine HP oder einen Bereich erneut crawlen sollen/dürfen. Allgemein wäre es für uns ausreichend und sinnvoll, wenn Artikel und Forum (sobald das denn steht^^) weiter täglich gecrawlt werden, der restliche zugängliche Content aber nur noch wöchentlich.
Nun weiß ich auch nicht, ob es unbedingt notwendig ist alle gängigen Bots händisch einzutragen, oder nicht einfach alle Bots insgesammt anzusprechen, da wir uns gegen Bots, die die robots.txt ignorieren oder Spammen etc mittels Bot-Trap schützen bzw zusätzlich abgesichert haben.
Das wäre so wesentlich erstmal alles, was mir gerade so einfällt.
Hoffe ihr könnt mir da helfen, damit ich nicht wieder etwas zusammenstückel, was entweder keinen Sinn ergibt oder nicht wie gewünscht funktioniert.
LG Manu