XF1.x Google-Bots von "Neuesten Inhalten" blockieren

Dieses Thema im Forum "Informationen, Tipps und Tricks" wurde erstellt von Triops, 15. Jan. 2020.

  1. Triops

    Triops Aktives Mitglied Lizenzinhaber

    Im Grunde freut man sich ja, wenn die Google-Bots in Horden (bei mir oft 300 bis 800 Stück) vorbeikommen, alles indexieren und sich nach ein paar Stunden oder 1-2 Tagen zurückziehen.

    Bei mir ist nun seit x Tagen die Hölle los. Meist um/über 500 Google-Bots sind fast ständig da und greifen ständig und immer wieder die "Aktuellsten Inhalte" ab:

    upload_2020-1-15_12-58-35.png

    Das geht seitenweise so!
    Problem: ich muss für Leistung und Transfer bezahlen, der Cache reicht regelmäßig nicht mehr und die Seite wird mega zäh bis zum Stillstand / Fehlermeldungen.

    Wie kann ich verhindern, dass diese Seite so oft und fortwährend von Google (Bing macht das nicht) aufgerufen wird?

    Ich habe in den Ursprung der Site schon eine robots.txt gepackt, aber seit einer Stunde wird sie anscheinend nicht gelesen / ist nicht wirksam, denn die Bots verhalten sich weiterhin so.

    User-Agent: Googlebot
    Disallow: /find-new/

    Kann man in den Webmastertools einzelne Bereiche blocken?
    Was kann ich sonst tun bzw. prüfen, ob die robots.txt gelesen wird? Wie schnell wirkt sie?

    Danke für jeden Hinweis. Ich bin mittlerweile echt genervt. Das war zwar immer mal so, vor allem nach Zeiten vieler, vieler neuer Beiträge in der Hochsaison, aber hier scheinen die Bots festzuhängen.
     
  2. Tealk

    Tealk Bekanntes Mitglied Lizenzinhaber

    Wo gibt es denn solche Angebote oO?

    Schon einmal mit "User-agent: *" probiert? Vielleicht ist es gar nicht der Google Robot und wird nur falsch erkannt? Hast du eine access.log von deinem Webserver? Dann könnte man die IP nachprüfen und gegebenenfalls blockieren.
     
  3. Triops

    Triops Aktives Mitglied Lizenzinhaber

    Es sind Google-Bots, durchgereicht durch mein Cloudflare z.B.:

    172.69.xx.xx - - [15/Jan/2020:06:46:25 +0000] "GET /find-new/42278395/posts?page =2 HTTP/1.1" 303 5 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.goog le.com/bot.html)" "66.249.65.138, 172.69.xx.xx"

    * hat übrigens auch nichts gebracht. Alleine die access.logs sind riesig groß, das aktuell über 80 MB
     
  4. Tealk

    Tealk Bekanntes Mitglied Lizenzinhaber

    Dafür gibts eig. logrotate

    Allein das die robots.txt ignoriert wird wundert mich.
     
  5. Triops

    Triops Aktives Mitglied Lizenzinhaber

    Klar rotieren die Logs, aber das ist nur von wenigen Stunden...
     
  6. Triops

    Triops Aktives Mitglied Lizenzinhaber

    Kann man die Seite/Suche "find-new" kurzfristig hart abschalten? Den Button dahin habe ich für Gäste schon ausgeblendet.
    Ich habe lieber 10000 Fehler in den Webmastertools (oder genau einen für /find-new/ als diese ständige Seuche - kurzer einfacher aber harter Schnitt wäre doch wirkungsvoll.
     
  7. Tealk

    Tealk Bekanntes Mitglied Lizenzinhaber

    Du könntest vom Webserver aus einen rewrite machen.
     
  8. Tealk

    Tealk Bekanntes Mitglied Lizenzinhaber

  9. Triops

    Triops Aktives Mitglied Lizenzinhaber

    Danke! Aus meiner rauskopierten Liste aus den access.logs war ad hoc keine dabei.
     
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden