Frage zur robots.txt

Die URL? hast du "Route filters" erstellt damit de URL deutsch ist, das hat nämlich nichts mit Sprachpaketen zu tun.

Hat er zwar nicht selber, er hat nen Backup eines anderen Forums genutzt und sich nicht damit befasst gehabt was geändert wurde. Es gibt da einige Routefilter die erstellt wurden .
 
Ja gut das ist ein anderes Problem...
 
Guten Abend, Männers. Ich muss mal wieder (lobend) feststellen, so klein dieses Forum auch ist...in der Regel bekommt man hier schneller Hilfe als beim großen, englischsprachigen Bruder. :)

Dass ich die XF.com robots.txt, aufgrund der Sprache gar nicht 1:1 verwenden/übernehmen kann, hatte ich schon mal nicht auf dem Schirm. Alleine deshalb hat sich die Nachfrage schon gelohnt.

Aber was genau empfehlt Ihr denn jetzt für die Robots?
 
Es kommt ja auch drauf an was du indizieren lassen möchtest.
 
Gute Frage. Ich suche quasi die "perfekte" robots.txt. Die eierlegende Wollmilchsau. ^^

So viel wie nötig, so wenig wie möglich. ;)
 
Dass ich die XF.com robots.txt, aufgrund der Sprache gar nicht 1:1 verwenden/übernehmen kann
Das ist wie gesagt kein Sprachproblem, also von der Sprachfile an sich. Das Problem tritt nur auf wenn man händisch die Routefilter verändert
 
Also meine sieht folgendermaßen aus:
Code:
# ===================================
# Sitemap:
# ===================================

Sitemap: https://anzahcraft.de/sitemap.php

# ===================================
# Folgende Seiten sollen nicht indexiert werden:
# ===================================

User-agent: *
Disallow: /harming/humans
Disallow: /ignoring/human/orders
Disallow: /harm/to/self

Disallow: /admin.php
Disallow: /account/
Disallow: /login/
Disallow: /attachments/
Disallow: /forums/unzureichende-charaktere.92/ <- forum das ausgeblendet werden soll
Disallow: /members/ <- weil ich die das nicht möchte

###################################################################
# The Ultimate robots.txt Bot and User-Agent Blocker
# Copyright:
# https://github.com/mitchellkrogza/nginx-ultimate-bad-bot-blocker
###################################################################
Die Ultimate robots.txt könnt ihr euch selber ja mal ansehen, muss jeder selber entscheiden.
 
Meine von Android-port.de

Code:
User-agent: *
Disallow: 

Disallow: /account/
Disallow: /admin.php
Disallow: /ajax/
Disallow: /attachments/
Disallow: /beobachtete/
Disallow: /conversations/
Disallow: /find-new/
Disallow: /finde-neue/
Disallow: /help/
Disallow: /hilfe/
Disallow: /letzte-aktivitaeten/
Disallow: /login/
Disallow: /lost-password/
Disallow: /members/
Disallow: /misc/
Disallow: /mitglieder/
Disallow: /mobiquo/
Disallow: /online/
Disallow: /profil/
Disallow: /recent-activity/
Disallow: /register/
Disallow: /unterhaltungen/
Disallow: /watched/
Disallow: /info/

Sitemap: https://www.android-port.de/sitemap.php
 
Besten Dank schon einmal für Eure Mithilfe und Eure Varianten/Versionen der robots.txt.

@Hoffi : wie sieht Deine denn aus? Du bist da eigentlich immer sehr dahinter und "Up to Date". Deswegen würde mich das interessieren.

Mir persönlich geht es primär darum, WAS ich rein auf XF bezogen erlauben bzw. nicht erlauben sollte. Bspw. um doppelten Content zu vermeiden.
 
@Hoffi : wie sieht Deine denn aus? Du bist da eigentlich immer sehr dahinter und "Up to Date".
Ich hab gar keine.... die Sitemap ist angemeldet und das Forum liefert für alle auslieferbare Seiten den korrekten Statuscode,

Seiten per robots.txt aussperren, aber dann sämtliche rel Tags nicht anzupassen ist absolut kontraproduktiv.
Das XF schickt in den Seiten die nicht indiziert werden sollten, einen <meta name="robots" content="noindex" /> mit. Wenn man den hat, muss die Seite nicht wirklich noch mal in die robots.txt aufgenommen werden.

Und ob Google die JS Dateien scannt oder nicht, ist mir egal. Die werden über ein CDN ausgeliefert, und stören somit am Ende nicht beim Traffic.

Ich hab aber auch Cloudflare (die kostenlose Variante) im Einsatz. Das schützt den Server schon recht gut vor crawlern, da alle Gast Seiten im CF Cache liegen.

Und Bad Bots interessiert eine robots.txt eh nicht, das sind ja nur Hinweise.

Alle Binärdaten liegen dann im S3 Bucket, der nicht öffentliche Daten eh blockt.
 
Ich hab gar keine.... die Sitemap ist angemeldet und das Forum liefert für alle auslieferbare Seiten den korrekten Statuscode,

Seiten per robots.txt aussperren, aber dann sämtliche rel Tags nicht anzupassen ist absolut kontraproduktiv.
Das XF schickt in den Seiten die nicht indiziert werden sollten, einen <meta name="robots" content="noindex" /> mit. Wenn man den hat, muss die Seite nicht wirklich noch mal in die robots.txt aufgenommen werden.

Und ob Google die JS Dateien scannt oder nicht, ist mir egal. Die werden über ein CDN ausgeliefert, und stören somit am Ende nicht beim Traffic.

Ich hab aber auch Cloudflare (die kostenlose Variante) im Einsatz. Das schützt den Server schon recht gut vor crawlern, da alle Gast Seiten im CF Cache liegen.

Und Bad Bots interessiert eine robots.txt eh nicht, das sind ja nur Hinweise.

Alle Binärdaten liegen dann im S3 Bucket, der nicht öffentliche Daten eh blockt.

Das ist wieder eine komplette neue Sicht- und Herangehensweise. Interessant. Ich bin nur etwas irritiert, da die XF-Verantwortlichen selbst dazu raten bspw. "post" und "whats new" mit in die robots.txt aufzunehmen um "Duplicate Content" zu vermeiden.
 
War die Empfehlung evtl. für XF1?

Whats new enthält den Meta Robots Tag für noindex. Daher hab ich keine Problem damit. Gegen duplicate Content hat an sich jede Seite den Caninical Tag, der das verhindert.
 
Eigentlich reichen die Standard settings locker aus. Es gibt halt dann nur individuelle Anpassungen falls nötig.
 
Zurück
Oben