Auf der Suche nach einem vernünftigen Google/Yahoo Sitemap-Generator, der auch uneingeschränkt große Verzeichnisbäume ließt, bin ich heute endlich fündig geworden! Dieser Sitemapgenerator namens GSiteCrawler läuft lokal auf dem PC, eignet sich für Google sowie Yahoo und ist kostenlos verfügbar! Darüber hinaus werden auch Reports über “broken Links” – dass heißt URLs, die es nicht mehr gibt oder ungültig sind – geschrieben.

Sitemaps sind ein sehr wichtiger Baustein zum optimierten Indexieren von Webseites für Suchmaschinen wie Yahoo oder Google. Mit einer einzigen Sitemap-Datei stehen den Suchmaschinen alle relevanten Dateien des Verzeichnisbaums zur Verfügung. Das ist ein großer Vorteil für die Suchmaschinen, denn sie brauchen nicht selbst, immer wieder aufs Neue, sich auf die Suche machen. 

Statt dessen verrichtet diese Arbeit nun der Sitemap Generator für die Suchmaschinen. Wenn ihr das erste mal den Sitemapgeneratur durch eure Seite laufen lasst, werdet ihr sehen, dass dies ein wenig Zeit in Anspruch nehmen wird. Bei Millionen von Webseiten stellt dies einen erheblicher Kostenfaktor für Suchmaschinen dar.

Suchmaschinen können nun mit Hilfe der Sitemaps direkt auch tief verlinkte URL-Adressen zugreifen und schneller überprüfen/feststellen, ob sich die Inhalte der Seiten geändert haben.  Die Sitemapgeneratoren helfen dabei die Sitemap-Dateien für Google SITEMAP.XML oder auch Yahoo “URLLIST.TXT” für Websiten zu erstellen, ohne selbst jede Webpage-Datei per Hand referenzieren zu müssen. Selbst der Upload dieser Sitemapdateien  auf den FTP-Root der Domain kann automatisiert werden. Ein Eintrag des Sitemaps in den Google-Webmaster-Tools ist dennoch zu empfehlen.

Doch Achtung – man sollte diese Sitemaps regelmäßig aktualisieren – sonst könnte es durchaus länger dauern bis Google einen neuen Artikel auf eurer Seite referenziert – dies ist allerdings eine persönliche Erfahrung. Es würde mich interessieren, welche Erfahrungen ihr diesbezüglich gemacht habt? Außerdem sollte man in einer “Robots.txt”-Datei alle nicht für die Öffentlichkeit bestimmten Seiten von den Sitemap-Crawlern ausschließen. Mehr dazu in einem folgenden Post.

Das Sitemap-Tool von dem ich Berichte heißt “GSiteCrawler” und wird hier als download angeboten.

Zitat von “http://gsitecrawler.com/de/“:

Der GSiteCrawler verwendet verschiedene Techniken, um alle Seiten in Ihrer Website zu finden und kann damit alle Arten von Ausgaben und Statistiken erstellen. Wenn Sie nur eine einfach Google Sitemap-Datei benötigen, dann genügt es, wenn Sie dem Vier-Punkte-Wizard folgen. Das Programm erstellt dann automatisch die Sitemap-Datei und auf Wunsch wird sie sogar gleich auf Ihren Server aufgeladen. Schneller geht’s nicht!