XF2.3 Sitemaps von .php auf .xml umstellen?

Nathea

Aktives Mitglied
Lizenzverwender
Registriert
5. Juli 2019
Beiträge
60
Punkte
33
Hallo liebe Forengemeinde,

in unserem Forum Apfeltalk suchen wir aktuell nach Ursachen dafür, dass seit geraumer Zeit unsere Foren-Sitemaps (Verzeichnis "community") nicht mehr sauber von Google gelesen werden. Die regelmäßige Generierung der Sitemaps via cronjob funktioniert, die Dateien werden auch erzeugt und abgelegt.

Unsere robots.txt sieht seit Ewigkeiten so aus:

Code:
User-agent: *
Disallow: /magazin/author/
Disallow: /redaktion/
Disallow: /go/
Disallow: /misc/cookies/
#Disallow: /community/forums/magazin.263
User-agent: WebReaper
User-agent: WebCopier
User-agent: Offline Explorer
User-agent: HTTrack
User-agent: Microsoft.URL.Control
User-agent: EmailCollector
User-agent: penthesilea

Sitemap: https://www.apfeltalk.de/community/sitemap.php

Die generierten Sitemaps sehen, wenn man sie live via sitemap.php anschaut, auch sauber aus. Dennoch möchte Google sie nicht indexieren.

Wir fragen uns nun, ob eine Umstellung auf .xml Veränderungen/Verbesserungen mit sich brächten und wie dann die syntax der Datei aussehen müsste. So sieht sie ja auf dem Server aktuell aus:

Code:
<?php

use XF\Pub\App;
use XF\Sitemap\Renderer;

$dir = __DIR__;
require $dir . '/src/XF.php';

\XF::start($dir);
$app = \XF::setupApp(App::class);

/** @var Renderer $renderer */
$renderer = $app['sitemap.renderer'];
$request = $app->request();
$response = $app->response();
$counter = $request->filter('c', 'uint');

$response = $renderer->outputSitemap($response, $counter);
$response->send($request);

Oder gibt es einen anderen Bug auf unserer Seite, den wir bisher übersehen? Für Eure Unterstützung wären wir sehr dankbar!

Viele Grüße,
Sylvia
 
Was sagt denn ggf. das Errorlog des Servers? Da müsste man doch ggf. was finden, wenn da Zugriffe auf die Sitemap scheitern.
Ich hab die Sitemaps auch auf Standard und Google liest die ohne Probleme. Daher denke ich ist es bei euch ggf. eher ein Berechtigungsproblem. Was sagt denn Goggle wenn ihr die Sitemap mal manuell auslesen lasst?
 
Unser Serverprotokoll weist keine Fehler aus. Die Crawling-Statistik weist keine Fehler aus. Robots.txt kann gelesen werden.

Bei der Seiten-Indexierung gibt es eine erhebliche Zahl von Fehlern "Wegen eines anderen 4xx-Problems blockiert", in den Details zu dein Einzelseiten sieht das dann so aus, wir rätseln noch, woher das kommen könnte.
Bildschirmfoto 2025-05-09 um 09.51.49.png

Die Seitenindexierung selbst sieht auf den ersten Blick "sauber" aus:

Bildschirmfoto 2025-05-09 um 10.00.29.png

Geht man ins detail, zeigt sich dieses Bild:

Bildschirmfoto 2025-05-09 um 10.00.44.png

Nur die letzte Datei/Sitemap-Seite wurde sauber gelesen und verarbeitet, die anderen weisen (obwohl sie alle zusammen erzeugt wurden) einen Fehler auf.
 
Bei mir schaut das z.B. so aus:
1746782403055.png
1746782420465.png
Und das bei beiden Varianten (XML und php)



Anderes Forum von mir:
1746782664678.png
Auch keine Probleme.


Sicher, das nicht womöglich ein Addon oder Style quer schießt? Ansonsten würde ich mich mal direkt an Google wenden, und die bitten das man dir sagt wo der Fehler vermutlich liegt.
 
Sicher, das nicht womöglich ein Addon oder Style quer schießt? Ansonsten würde ich mich mal direkt an Google wenden, und die bitten das man dir sagt wo der Fehler vermutlich liegt.
Das Problem gab es unter 2.2 und ebenso immer noch, jetzt unter 2.3, mit frischem ebenfalls neuem Template. Wir hatten gehofft, dass mit dem Upgrade eine Verbesserung möglich wäre, aber das ist bisher nicht erkennbar.

Gibt es denn Apps, die da Probleme bereiten könnten?
 
Es gibt Plugins die beeinflussen können was Robots lesen können. Das kann dann schnell mal Fehlermeldungen hageln.

Aber was mir gerade auffällt - fehlt deiner Robots.TXT nicht ein Allow: / am Ende vor der Zeile mit der Sitemap?

Hier mal eine meiner Robots.txt
Code:
# /robots.txt file for https://www.zetor-forum.de
# folgenden Bots alles verbieten - so die sich dran halten
User-agent: Baidu
User-agent: Baiduspider
User-agent: Baiduspider-video
User-agent: Baiduspider-image
User-agent: BoardReader
User-agent: BoardTracker
User-agent: dotbot
User-agent: Gigabot
User-agent: magpie-crawler
User-agent: NaverBot
User-agent: proximic
User-agent: Sosospider
User-agent: Twiceler
User-agent: Yandex
User-agent: YoudaoBot
User-agent: Yeti
User-Agent: trendictionbot
User-Agent: Bytespider
User-Agent: SiteAuditBot
User-Agent: SemrushBot
Disallow: /

# folgenden Bots alles erlauben - was erlauben Gooogle? ;-)
User-agent: Mediapartners-Google
Allow: /

# Zugriff auf folgende Verzeichnisse bzw. Dateien allen Bots verbieten
User-agent: *
Disallow: /whats-new/
Disallow: /was-ist-neu/
Disallow: /account/
Disallow: /benutzerkonto/
Disallow: /posts/
Disallow: /conversations/
Disallow: /login/
Disallow: /anmelden/
Disallow: /admin.php
Disallow: /install/*
Disallow: /internal_data/*
Disallow: /js/*
Disallow: /impressum/
Disallow: /moderators/
Allow: /

Sitemap: https://www.zetor-forum.de/sitemap.php

Kann aber auch sein dass ich irre, hab mich mit der Robots.TXT schon lang nicht mehr befasst.
 
Zurück
Oben