XF2.3 Sitemaps von .php auf .xml umstellen?

Nathea · 8. Mai 2025

Hallo liebe Forengemeinde,

in unserem Forum Apfeltalk suchen wir aktuell nach Ursachen dafür, dass seit geraumer Zeit unsere Foren-Sitemaps (Verzeichnis "community") nicht mehr sauber von Google gelesen werden. Die regelmäßige Generierung der Sitemaps via cronjob funktioniert, die Dateien werden auch erzeugt und abgelegt.

Unsere robots.txt sieht seit Ewigkeiten so aus:

Code:

User-agent: *
Disallow: /magazin/author/
Disallow: /redaktion/
Disallow: /go/
Disallow: /misc/cookies/
#Disallow: /community/forums/magazin.263
User-agent: WebReaper
User-agent: WebCopier
User-agent: Offline Explorer
User-agent: HTTrack
User-agent: Microsoft.URL.Control
User-agent: EmailCollector
User-agent: penthesilea

Sitemap: https://www.apfeltalk.de/community/sitemap.php

Die generierten Sitemaps sehen, wenn man sie live via sitemap.php anschaut, auch sauber aus. Dennoch möchte Google sie nicht indexieren.

Wir fragen uns nun, ob eine Umstellung auf .xml Veränderungen/Verbesserungen mit sich brächten und wie dann die syntax der Datei aussehen müsste. So sieht sie ja auf dem Server aktuell aus:

Code:

<?php

use XF\Pub\App;
use XF\Sitemap\Renderer;

$dir = __DIR__;
require $dir . '/src/XF.php';

\XF::start($dir);
$app = \XF::setupApp(App::class);

/** @var Renderer $renderer */
$renderer = $app['sitemap.renderer'];
$request = $app->request();
$response = $app->response();
$counter = $request->filter('c', 'uint');

$response = $renderer->outputSitemap($response, $counter);
$response->send($request);

Oder gibt es einen anderen Bug auf unserer Seite, den wir bisher übersehen? Für Eure Unterstützung wären wir sehr dankbar!

Viele Grüße,
Sylvia

otto · 8. Mai 2025

Was sagt denn ggf. das Errorlog des Servers? Da müsste man doch ggf. was finden, wenn da Zugriffe auf die Sitemap scheitern.
Ich hab die Sitemaps auch auf Standard und Google liest die ohne Probleme. Daher denke ich ist es bei euch ggf. eher ein Berechtigungsproblem. Was sagt denn Goggle wenn ihr die Sitemap mal manuell auslesen lasst?

Nathea · 9. Mai 2025

Unser Serverprotokoll weist keine Fehler aus. Die Crawling-Statistik weist keine Fehler aus. Robots.txt kann gelesen werden.

Bei der Seiten-Indexierung gibt es eine erhebliche Zahl von Fehlern "Wegen eines anderen 4xx-Problems blockiert", in den Details zu dein Einzelseiten sieht das dann so aus, wir rätseln noch, woher das kommen könnte.

Bildschirmfoto 2025-05-09 um 09.51.49.png

Die Seitenindexierung selbst sieht auf den ersten Blick "sauber" aus:

Bildschirmfoto 2025-05-09 um 10.00.29.png

Geht man ins detail, zeigt sich dieses Bild:

Bildschirmfoto 2025-05-09 um 10.00.44.png

Nur die letzte Datei/Sitemap-Seite wurde sauber gelesen und verarbeitet, die anderen weisen (obwohl sie alle zusammen erzeugt wurden) einen Fehler auf.

otto · 9. Mai 2025

Bei mir schaut das z.B. so aus:

Und das bei beiden Varianten (XML und php)

Anderes Forum von mir:

Auch keine Probleme.

Sicher, das nicht womöglich ein Addon oder Style quer schießt? Ansonsten würde ich mich mal direkt an Google wenden, und die bitten das man dir sagt wo der Fehler vermutlich liegt.

Nathea · 9. Mai 2025

otto schrieb:
Sicher, das nicht womöglich ein Addon oder Style quer schießt? Ansonsten würde ich mich mal direkt an Google wenden, und die bitten das man dir sagt wo der Fehler vermutlich liegt.

Das Problem gab es unter 2.2 und ebenso immer noch, jetzt unter 2.3, mit frischem ebenfalls neuem Template. Wir hatten gehofft, dass mit dem Upgrade eine Verbesserung möglich wäre, aber das ist bisher nicht erkennbar.

Gibt es denn Apps, die da Probleme bereiten könnten?

otto · 9. Mai 2025

Es gibt Plugins die beeinflussen können was Robots lesen können. Das kann dann schnell mal Fehlermeldungen hageln.

Aber was mir gerade auffällt - fehlt deiner Robots.TXT nicht ein Allow: / am Ende vor der Zeile mit der Sitemap?

Hier mal eine meiner Robots.txt

Code:

# /robots.txt file for https://www.zetor-forum.de
# folgenden Bots alles verbieten - so die sich dran halten
User-agent: Baidu
User-agent: Baiduspider
User-agent: Baiduspider-video
User-agent: Baiduspider-image
User-agent: BoardReader
User-agent: BoardTracker
User-agent: dotbot
User-agent: Gigabot
User-agent: magpie-crawler
User-agent: NaverBot
User-agent: proximic
User-agent: Sosospider
User-agent: Twiceler
User-agent: Yandex
User-agent: YoudaoBot
User-agent: Yeti
User-Agent: trendictionbot
User-Agent: Bytespider
User-Agent: SiteAuditBot
User-Agent: SemrushBot
Disallow: /

# folgenden Bots alles erlauben - was erlauben Gooogle? ;-)
User-agent: Mediapartners-Google
Allow: /

# Zugriff auf folgende Verzeichnisse bzw. Dateien allen Bots verbieten
User-agent: *
Disallow: /whats-new/
Disallow: /was-ist-neu/
Disallow: /account/
Disallow: /benutzerkonto/
Disallow: /posts/
Disallow: /conversations/
Disallow: /login/
Disallow: /anmelden/
Disallow: /admin.php
Disallow: /install/*
Disallow: /internal_data/*
Disallow: /js/*
Disallow: /impressum/
Disallow: /moderators/
Allow: /

Sitemap: https://www.zetor-forum.de/sitemap.php

Kann aber auch sein dass ich irre, hab mich mit der Robots.TXT schon lang nicht mehr befasst.

Nathea · 12. Mai 2025

In welches Serververzeichnis legt XF Eure generierten Sitemap-Dateien (.gzip) ab? Auch in /internal_data/sitemaps?

Kirby · 12. Mai 2025

otto schrieb:

Hier mal eine meiner Robots.txt

Code:

# /robots.txt file for https://www.zetor-forum.de
# folgenden Bots alles verbieten - so die sich dran halten
User-agent: Baidu
User-agent: Baiduspider
User-agent: Baiduspider-video
User-agent: Baiduspider-image
User-agent: BoardReader
User-agent: BoardTracker
User-agent: dotbot
User-agent: Gigabot
User-agent: magpie-crawler
User-agent: NaverBot
User-agent: proximic
User-agent: Sosospider
User-agent: Twiceler
User-agent: Yandex
User-agent: YoudaoBot
User-agent: Yeti
User-Agent: trendictionbot
User-Agent: Bytespider
User-Agent: SiteAuditBot
User-Agent: SemrushBot
Disallow: /

Kann aber auch sein dass ich irre, hab mich mit der Robots.TXT schon lang nicht mehr befasst.

Vielleicht solltest Du das mal wieder tun, denn falls og. Code bewirken soll dass für Baidu bis SemrushBot alles verboten ist muss ich dir leider sagen:
Das funktioniert ggf. leider nicht ganz so wie erwartet.

Kirby · 13. Mai 2025

Nathea schrieb:
Nur die letzte Datei/Sitemap-Seite wurde sauber gelesen und verarbeitet, die anderen weisen (obwohl sie alle zusammen erzeugt wurden) einen Fehler auf.

Was für einen Fehler?

Nathea · 13. Mai 2025

So sieht das aktuell bei uns aus:

Bildschirmfoto 2025-05-13 um 12.09.50.png

Bildschirmfoto 2025-05-13 um 12.10.03.png

Eine URL-Prüfung zeigt folgendes Bild:

Bildschirmfoto 2025-05-13 um 12.11.32.png

otto · 26. Mai 2025

Kirby schrieb:
Das funktioniert so nicht.

Ok, and why ... ? ;-)
Kann auch sein das ich vor Ewigkeiten da noch anderes (htaccess, Addons, what ever) gemacht habe was ich aktuell nicht mehr auf dem Schirm hab, aber Baidu taucht schon länger nicht mehr mit den mir bekannten Spidern in den Logs auf.
Dennoch wäre es nett wenn ich erühre, wo in der Robots der Fehler liegt.

Kirby · 26. Mai 2025

Man mag es kaum glauben, aber das Robot Exclusion Protocol wurde formal erst 2022 in RFC 9309 standardisiert obwohl es die Technik im Grunde schon seit 30 Jahren gibt.

Dass das so lange ohne formalen Standard genutzt wurde hat leider dazu geführt dass viele Implementierungen unvollständig bzw. im Grunde fehlerhaft sind.

Wenn Du deine robots.txt einmal mit diversen Online-Tools wie z.B.

robots.txt Validator and Testing Tool | TechnicalSEO.com

Test and validate your robots.txt. Check if a URL is blocked and how. You can also check if the resources for the page are disallowed.

technicalseo.com

Robots.txt Testing Tool: Validate your Robots.txt File — LOGEIX

Ensure your site is crawler-friendly with our Robots.txt Tester. Verify and optimize your robots.txt file, and boost your site's visibility in search results.

logeix.com

Robots.txt Tester & Validator | Find & Fix SEO Issues

Test and validate your robots.txt file with our free Robots.txt Tester. Easily check for errors, analyze directives, and optimize your site’s crawlability for better SEO.

rankmath.com

Robots.txt Testing Tool, Check and Validate Robots.txt Rules + Insights

Use our Robots.txt checker to test and validate Robots.txt rules for any website. Plus gain insights into our Robots Blockage Study for free.

nexunom.com

robots.txt Testing Tool

Test a list of URLs against a live or custom robots.txt file, using Google's open source parser.

tamethebots.com

testest, dann wirst Du feststellen dass viele z.B. Baiduspider als zugelassen melden.

Wenn diese Fehler nur Prüftools beträfen, dann wäre das nicht weiter dramatisch - man könnte einfach ein korrekt funktionierendes Tool nutzen.

Leider haben sich Fehler auch vielfach in Bibliotheken / Crawler eingeschlichen sodass eine nach RFC 9309 korrekte robots.txt ggf. nicht zum gewünschten Ergebnis führt.

(Meine) Empfehlung daher (wenn die Regeln nicht zu umfangreich und man keine Lust hat für jeden dämlichen Robot individuell zu prüfen ob er Sammelregeln korrekt interpretiert):

Code:

# /robots.txt file for https://www.zetor-forum.de
# folgenden Bots alles verbieten - so die sich dran halten
User-agent: Baidu
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-video
Disallow: /

User-agent: Baiduspider-image
Disallow: /

Damit erreicht man maximale Kompatibilität.

XF2.3 Sitemaps von .php auf .xml umstellen?

Nathea

Aktives Mitglied

otto

Die 5k-Labertasche

Nathea

Aktives Mitglied

otto

Die 5k-Labertasche

Nathea

Aktives Mitglied

otto

Die 5k-Labertasche

Nathea

Aktives Mitglied

Kirby

Bekanntes Mitglied

Kirby

Bekanntes Mitglied

Nathea

Aktives Mitglied

otto

Die 5k-Labertasche

Kirby

Bekanntes Mitglied

robots.txt Validator and Testing Tool | TechnicalSEO.com

Robots.txt Testing Tool: Validate your Robots.txt File — LOGEIX

Robots.txt Tester & Validator | Find & Fix SEO Issues

Robots.txt Testing Tool, Check and Validate Robots.txt Rules + Insights

robots.txt Testing Tool

Wir schützen deine Privatsphäre