Frage zur robots.txt

Warum sperrst du die nicht einfach aus? Was willst du mit dem Müll auf deinem Server? Was bringen die dir?

Außerdem würde ich mich echt nicht darauf verlassen, dass allow: / nicht von allen Bots als "Bitte alles aufsaugen was ihr findet" interpretiert wird.
 
Ich meine du hast dich hier letztens noch darüber beschwert, dass du zu wenig Connections frei hattest und lässt dann fast jeden Bot tun und lassen was er will.
Alles unnötige Ressourcen werden da verschleudert.
 
Also eher so?

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow: /account/
Disallow: /profil/
Disallow: /goto/
Disallow: /login/
Disallow: /admin.php
Disallow: /js/
Disallow: /help/
Disallow: /hilfe/
Disallow: /misc/
Disallow: /misc/contact
Disallow: /misc/kontakt

User-Agent: Googlebot-Mobile
Disallow: /account/
Disallow: /profil/
Disallow: /goto/
Disallow: /login/
Disallow: /admin.php
Disallow: /js/
Disallow: /help/
Disallow: /hilfe/
Disallow: /misc/
Disallow: /misc/contact
Disallow: /misc/kontakt

User-agent: msnbot
Disallow: /account/
Disallow: /profil/
Disallow: /goto/
Disallow: /login/
Disallow: /admin.php
Disallow: /js/
Disallow: /help/
Disallow: /hilfe/
Disallow: /misc/
Disallow: /misc/contact
Disallow: /misc/kontakt

User-agent: bingbot
Disallow: /account/
Disallow: /profil/
Disallow: /goto/
Disallow: /login/
Disallow: /admin.php
Disallow: /js/
Disallow: /help/
Disallow: /hilfe/
Disallow: /misc/
Disallow: /misc/contact
Disallow: /misc/kontakt

User-agent: Slurp
Disallow: /account/
Disallow: /profil/
Disallow: /goto/
Disallow: /login/
Disallow: /admin.php
Disallow: /js/
Disallow: /help/
Disallow: /hilfe/
Disallow: /misc/
Disallow: /misc/contact
Disallow: /misc/kontakt

User-agent: strucr
Disallow: /account/
Disallow: /profil/
Disallow: /goto/
Disallow: /login/
Disallow: /admin.php
Disallow: /js/
Disallow: /help/
Disallow: /hilfe/
Disallow: /misc/
Disallow: /misc/contact
Disallow: /misc/kontakt

User-agent: strucr-phone
Disallow: /account/
Disallow: /profil/
Disallow: /goto/
Disallow: /login/
Disallow: /admin.php
Disallow: /js/
Disallow: /help/
Disallow: /hilfe/
Disallow: /misc/
Disallow: /misc/contact
Disallow: /misc/kontakt

User-agent: strucr-tablet
Disallow: /account/
Disallow: /profil/
Disallow: /goto/
Disallow: /login/
Disallow: /admin.php
Disallow: /js/
Disallow: /help/
Disallow: /hilfe/
Disallow: /misc/
Disallow: /misc/contact
Disallow: /misc/kontakt

Sitemap: https://www.android-port.de/sitemap.php




Ich hätte jetzt noch gerne den Bot von http://wayback.archive.org/ erlaubt, wie wird der definiert weiß das jemand?
 
User-agent: *
Disallow: /account/
Disallow: /profil/
Disallow: /goto/
Disallow: /login/
Disallow: /admin.php
Disallow: /js/
Disallow: /help/
Disallow: /hilfe/
Disallow: /misc/
Disallow: /misc/contact
Disallow: /misc/kontakt
Disallow: /data/
Disallow: /internal_data/

Sitemap: https://www.android-port.de/sitemap.php



Dann lass ich das erstmal so. Und kümmere mich um die anderen Baustellen. Nochmal vielen Dank
 
Ahem.

User-agent: *
Disallow: /

Sperrt alle komplett aus. Den rest kannst du dir dann sparen.

Das ist so nicht ganz richtig. Der robot.txt Standard sagt, dass erst mal alles erlaubt ist.

Also mit keiner oder einer leeren robots.txt lässt du alle Bots auf alles zugreifen.

Mein Eintag kehrt das erst mal um, indem er sagt alles ist gesperrt.
Jeder weitere Eintrag für die Bots definiert dann genau, ob ein Bot zugelassen wird und was der zu befolgen hat.
Wird er nicht definiert in der robots.txt hat er auch keinen Zugriff.
@Maestro2k5 hat die aber definiert.

Glaub mir das funktioniert bestens. Ich mach das bei allen meinen Projekten so und die ranken in der Regel bestens.
 
Kannst ja mal durch die Webmaster Tools simulieren. Dann wirst du ja sehen, dass ich recht habe :)

Übrigens hab ich gerade noch mal einen Blick auf deine Seite geworfen.
Die schlechten Meta Tags sind jetzt draußen.

Dafür sind die Meta Tags "Keywords" und "description" auf jedem Beitrag gleich. Das wird von Google auch sehr schlecht gewertet.
Den Meta Tag "abstract" würde ich dann auch gleich mal löschen, zumal er bei dir eine exakte Kopie von "description" ist. Keine moderne Suchmaschine benutzt das Tag und wenn es dann auch noch doppelten Inhalt gibt, könnte das leicht als Spam gewertet werden.
 
Das mit den meta Tags pro Beitrag kann ich doch gar nicht beeinflussen.

Klar kannst du das. Schau dir mal die description von dieser Seite hier an im Quelltext. Die ist auch von Seite zu Seite unterschiedlich.

Den Keywords Tag kannst du aus dem Template nehmen.
 
Ich kenne das anders, aber wenn es bei dir so geht, muss ich mich geschlagen geben. Ist mir neu dieser Weg.

Meta Ta Keyword ist im übrigen seit Jahren überflüssig. Der wird weder von Google noch von Bing ausgewertet, ausser wenn die Seite über eine News-Sitemap bei Google angemeldet ist. Die Arbeit kannst du dir sparen.
 
Gilt doch nur für das Fetchen oder als Google Bot Anzeigen in den WMT denke ich.
Alle meine Seiten, selbst die Galerie mit vielen JS Skripten, werden richtig im Google Cache angezeigt obwohl /js/ gesperrt ist für den Googlebot.
 
Google Cache ist was anderes.

Geh mal in die Webmaster-Tools -> Crawling -> Abruf wie durch Google.

Google empfiehlt nun mal jetzt, die Daten nicht per robots zu sperren.

Ich geh bei mir den Kram durch.
 
Hallo

Ich habe auch eine "Robot.txt" erstellt, allerdings meldet Google Webmastertool, es sei ein "Robot.txt" vorhanden.
mache ich was falsch?

Code:
# robots.txt for http://www.windowsforum.ch/
# file created: 20.01.2015
User-agent: *
Disallow: /cgi-bin/    # roboter ausschliessen von bestimmten Verzeichnissen
Disallow: /js/
Disallow: /daten/
Disallow: /admin.php
Disallow: /my_sql_dumper

# email Sammler draussenbleiben
User-agent:EmailCollector
Disallow: /

# Robots die durchdrehen fliegen raus
User-agent: GagaRobot
Disallow: /
 
hast Du robots.txt oder robot.txt?
Kai
 
Danke

ich habe es nun geändert auf "robots.txt"

trotzdem bekomme ich diesen Fehler.
1.jpg
 
Zurück
Oben