Frage zur robots.txt

Tealk · 29. März 2021

Die URL? hast du "Route filters" erstellt damit de URL deutsch ist, das hat nämlich nichts mit Sprachpaketen zu tun.

//Edit

Maestro2k5 schrieb:
Nur wenn man die Routen Filter nutzt.

Oh hast du ja schon geschrieben, hab ich übersehen.

Maestro2k5 · 29. März 2021

Tealk schrieb:
Die URL? hast du "Route filters" erstellt damit de URL deutsch ist, das hat nämlich nichts mit Sprachpaketen zu tun.

Hat er zwar nicht selber, er hat nen Backup eines anderen Forums genutzt und sich nicht damit befasst gehabt was geändert wurde. Es gibt da einige Routefilter die erstellt wurden .

Tealk · 29. März 2021

Ja gut das ist ein anderes Problem...

Silmarillion · 29. März 2021

Guten Abend, Männers. Ich muss mal wieder (lobend) feststellen, so klein dieses Forum auch ist...in der Regel bekommt man hier schneller Hilfe als beim großen, englischsprachigen Bruder.

Dass ich die XF.com robots.txt, aufgrund der Sprache gar nicht 1:1 verwenden/übernehmen kann, hatte ich schon mal nicht auf dem Schirm. Alleine deshalb hat sich die Nachfrage schon gelohnt.

Aber was genau empfehlt Ihr denn jetzt für die Robots?

Maestro2k5 · 29. März 2021

Es kommt ja auch drauf an was du indizieren lassen möchtest.

Silmarillion · 29. März 2021

Gute Frage. Ich suche quasi die "perfekte" robots.txt. Die eierlegende Wollmilchsau. ^^

So viel wie nötig, so wenig wie möglich.

Tealk · 29. März 2021

Silmarillion schrieb:
Dass ich die XF.com robots.txt, aufgrund der Sprache gar nicht 1:1 verwenden/übernehmen kann

Das ist wie gesagt kein Sprachproblem, also von der Sprachfile an sich. Das Problem tritt nur auf wenn man händisch die Routefilter verändert

Tealk · 29. März 2021

Also meine sieht folgendermaßen aus:

Code:

# ===================================
# Sitemap:
# ===================================

Sitemap: https://anzahcraft.de/sitemap.php

# ===================================
# Folgende Seiten sollen nicht indexiert werden:
# ===================================

User-agent: *
Disallow: /harming/humans
Disallow: /ignoring/human/orders
Disallow: /harm/to/self

Disallow: /admin.php
Disallow: /account/
Disallow: /login/
Disallow: /attachments/
Disallow: /forums/unzureichende-charaktere.92/ <- forum das ausgeblendet werden soll
Disallow: /members/ <- weil ich die das nicht möchte

###################################################################
# The Ultimate robots.txt Bot and User-Agent Blocker
# Copyright:
# https://github.com/mitchellkrogza/nginx-ultimate-bad-bot-blocker
###################################################################

Die Ultimate robots.txt könnt ihr euch selber ja mal ansehen, muss jeder selber entscheiden.

Maestro2k5 · 29. März 2021

Meine von Android-port.de

Code:

User-agent: *
Disallow: 

Disallow: /account/
Disallow: /admin.php
Disallow: /ajax/
Disallow: /attachments/
Disallow: /beobachtete/
Disallow: /conversations/
Disallow: /find-new/
Disallow: /finde-neue/
Disallow: /help/
Disallow: /hilfe/
Disallow: /letzte-aktivitaeten/
Disallow: /login/
Disallow: /lost-password/
Disallow: /members/
Disallow: /misc/
Disallow: /mitglieder/
Disallow: /mobiquo/
Disallow: /online/
Disallow: /profil/
Disallow: /recent-activity/
Disallow: /register/
Disallow: /unterhaltungen/
Disallow: /watched/
Disallow: /info/

Sitemap: https://www.android-port.de/sitemap.php

Hoffi · 30. März 2021

Tealk schrieb:
User-agent: *
Disallow: /harming/humans
Disallow: /ignoring/human/orders
Disallow: /harm/to/self

Warum hast du die drin? Die liefern doch einen 404 bei dir.

Silmarillion · 30. März 2021

Besten Dank schon einmal für Eure Mithilfe und Eure Varianten/Versionen der robots.txt.

@Hoffi : wie sieht Deine denn aus? Du bist da eigentlich immer sehr dahinter und "Up to Date". Deswegen würde mich das interessieren.

Mir persönlich geht es primär darum, WAS ich rein auf XF bezogen erlauben bzw. nicht erlauben sollte. Bspw. um doppelten Content zu vermeiden.

Hoffi · 30. März 2021

Silmarillion schrieb:
@Hoffi : wie sieht Deine denn aus? Du bist da eigentlich immer sehr dahinter und "Up to Date".

Ich hab gar keine.... die Sitemap ist angemeldet und das Forum liefert für alle auslieferbare Seiten den korrekten Statuscode,

Seiten per robots.txt aussperren, aber dann sämtliche rel Tags nicht anzupassen ist absolut kontraproduktiv.
Das XF schickt in den Seiten die nicht indiziert werden sollten, einen <meta name="robots" content="noindex" /> mit. Wenn man den hat, muss die Seite nicht wirklich noch mal in die robots.txt aufgenommen werden.

Und ob Google die JS Dateien scannt oder nicht, ist mir egal. Die werden über ein CDN ausgeliefert, und stören somit am Ende nicht beim Traffic.

Ich hab aber auch Cloudflare (die kostenlose Variante) im Einsatz. Das schützt den Server schon recht gut vor crawlern, da alle Gast Seiten im CF Cache liegen.

Und Bad Bots interessiert eine robots.txt eh nicht, das sind ja nur Hinweise.

Alle Binärdaten liegen dann im S3 Bucket, der nicht öffentliche Daten eh blockt.

Silmarillion · 30. März 2021

Hoffi schrieb:
Ich hab gar keine.... die Sitemap ist angemeldet und das Forum liefert für alle auslieferbare Seiten den korrekten Statuscode,

Seiten per robots.txt aussperren, aber dann sämtliche rel Tags nicht anzupassen ist absolut kontraproduktiv.
Das XF schickt in den Seiten die nicht indiziert werden sollten, einen <meta name="robots" content="noindex" /> mit. Wenn man den hat, muss die Seite nicht wirklich noch mal in die robots.txt aufgenommen werden.

Und ob Google die JS Dateien scannt oder nicht, ist mir egal. Die werden über ein CDN ausgeliefert, und stören somit am Ende nicht beim Traffic.

Ich hab aber auch Cloudflare (die kostenlose Variante) im Einsatz. Das schützt den Server schon recht gut vor crawlern, da alle Gast Seiten im CF Cache liegen.

Und Bad Bots interessiert eine robots.txt eh nicht, das sind ja nur Hinweise.

Alle Binärdaten liegen dann im S3 Bucket, der nicht öffentliche Daten eh blockt.

Das ist wieder eine komplette neue Sicht- und Herangehensweise. Interessant. Ich bin nur etwas irritiert, da die XF-Verantwortlichen selbst dazu raten bspw. "post" und "whats new" mit in die robots.txt aufzunehmen um "Duplicate Content" zu vermeiden.

Hoffi · 30. März 2021

War die Empfehlung evtl. für XF1?

Whats new enthält den Meta Robots Tag für noindex. Daher hab ich keine Problem damit. Gegen duplicate Content hat an sich jede Seite den Caninical Tag, der das verhindert.

Silmarillion · 30. März 2021

Servus Hoffi,

die Empfehlung gilt auch für XF2. Die offizielle Seite nutzt deshalb wohl selber eine entsprechende Datei.

https://xenforo.com/robots.txt

Tealk · 30. März 2021

Hoffi schrieb:
Warum hast du die drin? Die liefern doch einen 404 bei dir.

Robotergesetze – Wikipedia

Hoffi · 30. März 2021

Silmarillion schrieb:
Servus Hoffi,

die Empfehlung gilt auch für XF2. Die offizielle Seite nutzt deshalb wohl selber eine entsprechende Datei.

https://xenforo.com/robots.txt

Dann würde ich immer diese nehmen und an eigene routen anpassen.

Tealk schrieb:
Robotergesetze – Wikipedia

Ah... ist ja wie bei ct früher der Header: X-pect: Spanish Inquisition

Maestro2k5 · 30. März 2021

Seit wann liefert xenforo sie sitemap direkt als xml aus?

Sitemap: https://xenforo.com/community/sitemap.xml

Silmarillion · 30. März 2021

Hoffi schrieb:
Dann würde ich immer diese nehmen und an eigene routen anpassen.

Muss da überhaupt was angepasst werden, Hoffi? Sollte doch eigentlich so passen?

Maestro2k5 · 30. März 2021

Eigentlich reichen die Standard settings locker aus. Es gibt halt dann nur individuelle Anpassungen falls nötig.

Frage zur robots.txt

Bekanntes Mitglied

Bekanntes Mitglied

Bekanntes Mitglied

Bekanntes Mitglied

Bekanntes Mitglied

Bekanntes Mitglied

Bekanntes Mitglied

Bekanntes Mitglied

Bekanntes Mitglied

!important

Bekanntes Mitglied

!important

Bekanntes Mitglied

!important

Bekanntes Mitglied

Bekanntes Mitglied

!important

Bekanntes Mitglied

Bekanntes Mitglied

Bekanntes Mitglied

Wir schützen deine Privatsphäre