Typo3 - Site Crawler indiziert nach HTTPS-Umstellung nicht mehr

Wir haben bereits in diesem Artikel über die Typo3-Extension Site Crawler berichtet und gezeigt, wie man alle Typo3-Seiten in den Search Index automatisiert aufnehmen lassen kann. Nach der Umstellung der Seiten von PC-Erfahrung.de von HTTP auf HTTPS funktionierten die altbewährten Skripte nicht mehr. Die URLs wurden zwar erfolgreich in die Queue aufgenommen, aber keine der Seiten wurde in den Index aufgenommen. Die Tabellen wie index_rel, index_fulltext und Co. waren leer. Das Ergebnis: die Typo3-Suche funktioniert nicht.

Die Index-Tabellen der Typo3-Suche bleiben leer

Leider ist nicht sofort ersichtlich, was die Fehlerursache ist, so dass etwas tiefer in die Extension hineingeschaut werden musste.

Fehleranalyse

Der Site Crawler führt im wesentlichen zwei Tasks aus:

Alle Seiten in die Warteschlange aufnehmen
typo3/cli_dispatch.phpsh crawler_im 1 -d 99 -conf indexall -o queue
Die Seiten aus Warteschlange abarbeiten
typo3/cli_dispatch.phpsh crawler 1 -d 99 -conf indexall

Punkt 1 funktioniert einwandfrei, aber der Punkt 2 scheiterte. Kurz gesagt: die Seiten wurden in die Queue aufgenommen, aber die Indizierung scheiterte.

Nach einem Blick auf "WEB -> Info -> beliebe Seite -> Site Crawler -> Log" wurde das Problem sichtbar.

Der Crawler versucht weiterhin die alte http:// anstatt der neuen https:// Domain aufzurufen. Anstatt eines 200 HTTP Status Code begrüßt im aber ein 301, was den Crawler dazu veranlasst, die Seite nicht zu indizieren.

Nach etwas Recherche wurde die entsprechende Codestelle in typo3conf/ext/crawler/class.tx_crawler_lib.php gefunden:

       protected function getBaseUrlForConfigurationRecord($baseUrl,$sysDomainUid) {
                $sysDomainUid = intval($sysDomainUid);
                if ($sysDomainUid > 0) {
                        $res = $GLOBALS['TYPO3_DB']->exec_SELECTquery(
                                '*',
                                'sys_domain',
                                'uid = '.$sysDomainUid .
                                t3lib_BEfunc::BEenableFields('sys_domain') .
                                t3lib_BEfunc::deleteClause('sys_domain')
                        );
                        $row = $GLOBALS['TYPO3_DB']->sql_fetch_assoc($res);
                        if ($row['domainName'] != '') {
                                return 'http://'.$row['domainName'];
                        }
                }
                return $baseUrl;
        }

Vereinfacht steht hier: wenn eine BaseUrl aus einer Config übergeben wurde, nimm diese, ansonsten nimm eine '.$row['domainName'].

Die Lösung: Crawler Konfig anpassen

In der Regel legt man für den Site Crawler eine Konfiguration in der Root-Seite an.

WEB -> Liste -> "ROOT-SEITE" -> crawler

Crawler Config - Base Url

Dort lässt sich eine Base-URL eintragen, die noch auf http:// verwies.

16.04	Die evolutionäre Entwicklung von P...
31.03	Wie sicher ist Cloud-Hosting
30.08	Datenrettung unter Linux
15.06	Vom Entwurf bis zum CMS:
20.04	Gebrauchte Software-Lizenzen
10.04	chatGPT
05.02	Nintendo Wii im Jahr 2023
25.11	DJI GO4 App startet nicht
25.11	Drohnen

08.11	Bill Gates erklärt das Scheitern von Windows Mobile
09.04	Der Google-App Friedhof - Auflistung eingestellter Google-Dienste
08.04	History Nvidia 1999-2017 inkl. Tech-Demos
08.04	16x Nvidia Geforce GTX 1080 Ti
02.04	Neue Diesel: Fast kein NOx mehr
25.03	Oslo - Norwegens Hauptstadt bietet induktives Laden für Taxis an
25.03	Quake 2 mit Raytracing

29.01	Bios Update auf Asus Prime X470 Pro
02.09	Workstation
13.04	20 Jahre PC-Erfahrung.de
21.08	PC Selbst zusammenbauen
03.08	Neue DSLM im Jahr 2021
15.07	Mein Pc hat sich deaktiviert.
15.07	nvcontainer nerft...
27.05	Desktop-PC Studium
09.04	Bluetooth Probleme

Grafikchiprangliste Desktop

Jubiläum

Prozessorliste - neu hinzugefügte Modelle

Menü

Neue Seiten @ PCE

Externe News

Neues aus dem Forum

Linkwolke

Artikel-Info

Typo3 - Site Crawler indiziert nach HTTPS-Umstellung nicht mehr

Fehleranalyse

Die Lösung: Crawler Konfig anpassen