Hilfe für robots.txt gesucht

Gehe zu Seite:

Geschlossen

Sa. 02.12.2017 17:13 Uhr #1

Phoenix1303 Mitglied

Registriert seit
04.06.2011

Beiträge
137

Beitragswertungen

Hi Leute,

bisher habe ich immer eine vorgefertigte robots.txt genutzt, aber mit ilch 2.x möchte ich nicht nur mein CMS oder die PHP-Version überdenken, sondern auch die bisher genutzten Standartfiles überarbeiten.

Also die Frage: Wer von euch hätte demnächst mal 15min oder so Zeit mir zu helfen, eine auf uns angepasste robots.txt zu erstellen oder sich das Anliegen, via TS, genauer erklären zu lassen?

Ich sag schonmal Danke und einen schönen 1. Advent euch allen.

LG Manu

verwendete ilch Version: 2.x

betroffene Homepage: externer Link
0 Mitglieder finden den Beitrag gut.
- zitieren
Fr. 08.12.2017 16:43 Uhr #2

Ahrtas Moderator

Registriert seit
17.12.2007

Beiträge
2.368

Beitragswertungen

Naja die robot.txt kann man auch hier im Forum besprechen, da ihr ein Multiclan seid, könnte dies auch für andere Clans interessant sein. Ebenso lernen andere Webmaster auch davon egal ob sie "eure" robot.txt komplett oder nur einzelne Passagen davon übernehmen würden.

Nenne doch mal einfach ein paar Stichpunkte die Du mit der robot regeln möchtest oder beschreibe dein Vorhaben gleich komplett, dafür ist ein Forum da.
0 Mitglieder finden den Beitrag gut.
- zitieren
Sa. 09.12.2017 06:49 Uhr #3

Phoenix1303 Mitglied

Registriert seit
04.06.2011

Beiträge
137

Beitragswertungen

Ok, geht vor allem auch darum, ob ich die Funktion der robots.txt, sowie der Bots richtig verstanden habe.

Die robots.txt soll zB Crawler davon abhalten bestimmte Bereiche zu indexieren und zB für Google, Bing etc zu sammeln, oder?
Da ja alle Module etc auf in *.php-Files geschrieben sind und ich keine *.htm-Files finden kann wäre die erste Frage: Können die Bots den vorhandenen Content eigentlich lesen/finden?
Wenn das htm zur Ausgabe dynamisch im Frontend generiert wird, kann man dann überhaupt Bots davon abhalten oder gezielt hinschicken, um etwas crawlen zu lassen?

In unserem Fall, wie auch den meisten Anderen, gibt es Bereiche, die nicht für jeden sichtbar sind und somit auch nicht erfasst werden sollen. Das wären bei uns zB:
- Adminbereich
- Kasse
- Jobs
- Kalender (da einfach unnötig den zu crawlen)
- Galerie
- Medienmodul
- Geburtstag
- Abwesenheiten
- Auszeichnungen

Zudem soll es ja möglich sein Bots zu sagen, wann diese eine HP oder einen Bereich erneut crawlen sollen/dürfen. Allgemein wäre es für uns ausreichend und sinnvoll, wenn Artikel und Forum (sobald das denn steht^^) weiter täglich gecrawlt werden, der restliche zugängliche Content aber nur noch wöchentlich.

Nun weiß ich auch nicht, ob es unbedingt notwendig ist alle gängigen Bots händisch einzutragen, oder nicht einfach alle Bots insgesammt anzusprechen, da wir uns gegen Bots, die die robots.txt ignorieren oder Spammen etc mittels Bot-Trap schützen bzw zusätzlich abgesichert haben.

Das wäre so wesentlich erstmal alles, was mir gerade so einfällt.
Hoffe ihr könnt mir da helfen, damit ich nicht wieder etwas zusammenstückel, was entweder keinen Sinn ergibt oder nicht wie gewünscht funktioniert.

LG Manu
0 Mitglieder finden den Beitrag gut.
- zitieren
Sa. 09.12.2017 20:29 Uhr #4

Ahrtas Moderator

Registriert seit
17.12.2007

Beiträge
2.368

Beitragswertungen
Zitat geschrieben von Phoenix1303
Ok, geht vor allem auch darum, ob ich die Funktion der robots.txt, sowie der Bots richtig verstanden habe.

Die robots.txt soll zB Crawler davon abhalten bestimmte Bereiche zu indexieren und zB für Google, Bing etc zu sammeln, oder?
Da ja alle Module etc auf in *.php-Files geschrieben sind und ich keine *.htm-Files finden kann wäre die erste Frage: Können die Bots den vorhandenen Content eigentlich lesen/finden?

Können sie, zum Beispiel sobald du einen Link zum jeweiligen Content gesetzt hast.

Zitat geschrieben von Phoenix1303
Wenn das htm zur Ausgabe dynamisch im Frontend generiert wird, kann man dann überhaupt Bots davon abhalten oder gezielt hinschicken, um etwas crawlen zu lassen?

Du kannst mittel Meta-Tags den Robots angeben ob sie die Seite indexieren sollen und den gesetzten Links folgen dürfen oder du schreibst es in die robots.txt welche Verzeichnisse / Links Tabu sind.

Zitat geschrieben von Phoenix1303
In unserem Fall, wie auch den meisten Anderen, gibt es Bereiche, die nicht für jeden sichtbar sind und somit auch nicht erfasst werden sollen. Das wären bei uns zB:
- Adminbereich
- Kasse
- Jobs
- Kalender (da einfach unnötig den zu crawlen)
- Galerie
- Medienmodul
- Geburtstag
- Abwesenheiten
- Auszeichnungen

Seiten/Inhalte die nur eingeloggte User sehen können, werden die Suchmaschinen-Bots nicht sehen können, da sie nur den Inhalt (Quelltext) sehen was ein normaler Gast (nicht eingeloggt) sehen kann.
Ansonsten wie gesagt schreibe es in die robots.txt z.B.:
```
User-agent: *
Disallow: /admin.php
Disallow: /index.php?jobs
Disallow: /index.php?calender
usw...
```
Zitat geschrieben von Phoenix1303
Zudem soll es ja möglich sein Bots zu sagen, wann diese eine HP oder einen Bereich erneut crawlen sollen/dürfen. Allgemein wäre es für uns ausreichend und sinnvoll, wenn Artikel und Forum (sobald das denn steht^^) weiter täglich gecrawlt werden, der restliche zugängliche Content aber nur noch wöchentlich.

Es wäre hilfreich wenn du den Bots über Meta-Tags mitteilst wann der Foren-Beitrag/ der Artikel erstellt wurde und wann die Bots wieder kommen sollen. Kannst du per Meta-Tags regeln.

Hier habe ich eine Übersicht für Meta-Tags.

Merke: Die Bots vorallem Google sind oft eigensinnig und entscheiden selbst wann sie die jeweilige Seite wieder besuchen, die Meta-Tags schaden trotzdem nicht.
Ich meine die Startseite von deinen News/Blog wird wahrscheinlich öfter besucht als dein Impressum, weil das Impressum (oder das User-profil, deine Teams etc.) nicht oft geändert wird.

Zitat geschrieben von Phoenix1303
Nun weiß ich auch nicht, ob es unbedingt notwendig ist alle gängigen Bots händisch einzutragen, oder nicht einfach alle Bots insgesammt anzusprechen, da wir uns gegen Bots, die die robots.txt ignorieren oder Spammen etc mittels Bot-Trap schützen bzw zusätzlich abgesichert haben.

Du kannst auch eine Sitemap als XML-Datei erstellen, die alle Seiten enthält die du gerne indexieren möchtest, entweder fügst du alle Links händisch ein oder die ilch-Entwickler automatisieren dir das.
Zudem musst du die sitemap.xml dann auch in deiner robots.txt für die Bots angeben.
```
Sitemap: http://www.beispiel.de/sitemap.xml
```
Hoffe konnte dir weiterhelfen.
0 Mitglieder finden den Beitrag gut.
- zitieren

Beitrag zur Merkliste hinzufügen

ilch Forum » Allgemein » HTML, PHP, SQL,... » Hilfe für robots.txt gesucht