Google Indexierung / Duplikat

sirAnton · 26 November 2023

Hallo, seit paar Wochen wurden fast alle meine Seiten aus den Google Index genommen mit dem vermerk:
"Duplikat – vom Nutzer nicht als kanonisch festgelegt"
Vor einem Monat waren noch alle Indexiert.
Ich habe 3 Domains .de .com .eu wobei jeweils 2 mit einer 301 Weiterleitung auf meine Haupt Domain weiterleiten.
Auch habe ich eine Subdomain eingerichtet die von www. auf meine Haupt Domain weiterleitet.
Könnte das das Problem sein, oder wo sollte man anfangen?

threadi · 28 November 2023

Ein Link zur Seite könnte helfen.

sirAnton · 28 November 2023

Ok,

msrtec - Hardwareentwicklung - Softwareentwicklung - Fertigung

Wir bieten Ihnen Hard & Softwareentwicklung, mechanische Konstruktionen, aber auch Reparaturen, Elektronikfertigung, 3D Druck und Fräsen für Prototypen

msrtec.eu

hab mich nicht getraut, da glaube ich Google die UGC Links von Usern in Foren mit Spam gewisser xxx Seiten gleichsetzt.

threadi · 28 November 2023

Also das einzige Problem was ich sehe ist, dass deine Domain unter www und ohne www erreichbar ist. Du solltest dich für eine Schreibweise entscheiden und dorthin alles weiterleiten.

Die Meldung hast du doch aus der Search Console? Dort bezieht sie sich auf die Domain die dort angemeldet ist - nicht auf irgendwelche anderen die parallel noch existieren könnten. Die kanonische URL einer Seite sollte man per Meta-Tag hinterlegen. Den sehe ich bei dir nirgends. Siehe: https://developers.google.com/search/docs/crawling-indexing/consolidate-duplicate-urls?hl=de

sirAnton · 28 November 2023

Danke, ich hatte bei Strato eine Subdomain www. angelegt die weiterleitete auf meine Hauptdomain. Die Subdomain mit der Weiterleitung habe ich vorgestern gelöscht. Also leitet der Server von Strato www. anfragen weiterhin weiter. Somit war das anscheinend doppelt.
Mal sehen ob sich bei Google was tut. Habe die Überprüfung in der Console beantragt.

Das mit dem rel="canonical" werde ich auch schauen möglichst bald zu machen.

sirAnton · 21 Dezember 2023

Hallo, in der Google Konsole wird noch meine index.php als duplicated content angesehen.
Die Hauptseite kann über meinedomain_de oder meinedomain_de/index.php aufgerufen werden.
Für den Crawler anscheinend doppelt. Wie kann man das lösen?
Was ich auch nicht verstehe warum Google meine meinedomain_de/sitemap.xml nicht akzeptiert.

threadi · 22 Dezember 2023

Entscheide dich für eine Startseiten-URL: mit oder ohne index.php. Die jeweils andere leitest Du per 301 zur Startseiten-URL um. Mit der Zeit erkennt Google das dann auch.

Eine sitemap.xml kann aus vielerlei Gründen nicht akzeptiert werden. Ich sehe derzeit nichts was dagegen spricht. Schreibt Google dazu nicht mehr?

ThomasF · 23 Dezember 2023

Laut sitemap.org ist die korrekte schreibweise so:

XML:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.example.com/</loc>
      <lastmod>2005-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
</urlset>

Das andere gedöns ist falsch oder veraltet oder was weiß ich... :)

Das Problem mit dem Duplikat hatte ich auch lange Zeit, trotz 'canonical'. .. und da steckte der Fehler: In der sitemap stand auch ein "Duplikat".

XML:

<loc>https://example.com</loc>
<loc>https://example.com/index.php</loc>

Seit ich die Variante mit "index.php" verwende ist der Duplikat-Fehler weg.

sirAnton · 23 Dezember 2023

Ok, ich leite das jetzt mit PHP 301 auf die index.php weiter und hoffe ich hab dann Ruhe von dem Google gemeckere

PHP:

<?php
    $pfad = $_SERVER["REQUEST_URI"];
    if ($pfad == "/"){
        header("HTTP/1.1 301 Moved Permanently");
        header("Location: https://meinedomain_de/index.php");
        header("Connection: close");
    }
?>

Zu der sitemap.xml kommt von Google nur "Sitemap konnte nicht gelesen werden" warum auch immer

ThomasF · 23 Dezember 2023

google: Sitemap-Fehler

sirAnton · 23 Dezember 2023

@ThomasF , habe die sitemap mal angepasst und neu eingereicht. Steht zwar immer noch "Sitemap konnte nicht gelesen werden" aber mal sehen...

ThomasF · 23 Dezember 2023

Dann würde ich noch angeben , dass es sich um ein xml Dokument handelt und die richtige Zeichencodierung verwendet wird. Hoffenlich auch so abgespeichert.

XML:

<?xml version="1.0" encoding="UTF-8"?>

sirAnton · 23 Dezember 2023

Ist so drinnen, wird nur im Browser nicht angezeigt. Im Seitenquelltext schon. VG
UTF-8 muss ich noch prüfen, evt. liegt da der Fehler
Edit: Überprüft sicher gespeichert im UTF-8 Zeilenende Unix/Linux

sirAnton · 21 März 2024

Letztens sind leider wieder Seiten aus dem Index gefallen. Der Grund:
Gecrawlt – zurzeit nicht indexiert
Diese Seiten werden in den Google-Suchergebnissen nicht indexiert oder angezeigt.
Nachdem ich die Indexierung manuell angefragt habe sind diese jetzt wieder drin, aber so etwas ist doch absolut nervig und geschäftsschädigend.
Auch bei der Sitemap kommt nach wie vor Verarbeitungsfehler. Da bin ich ratlos.

ThomasF · 21 März 2024

Ich habe auf die schnelle keinen Fehler in der sitemap.xml gefunden. aber du kannst Dir das Leben einfacher machen wenn du die priority weg lässt, die wird von den großen SuMa ignoriert. Bei lastmod vergleicht google ob das stimmig ist mit den Daten. Ich bin dazu übergegangen auch das wegzulassen, weil die SuMa sowiso schaut ob sich was geändert hat und wann. Damit ist die sitemap gleich viel aufgeräumter.
Sitemap erstellen und einreichen

Ich würde mal die robots.txt reparieren. "allow" ist nicht Teil der Vereinbarung. Evtl. ist Google da nicht einverstanden.
How to configure robots.txt to allow everything?

Code:

User-agent: *
Disallow:

ThomasF · 21 März 2024

Ansonsten rate ich mal, weil ich keine Ahnung habe, aber eine Lösung interassant finde.
Da Google bereits beim einlesen Fehler zeigt sage ich mal: Die sitemap-Datei hat nicht das erwartete Format.
"UTF-8 ohne BOM" wäre richtig.
Ob Dein verwendetes "UTF-8 Zeilenende Unix/Linux" da stört weiß ich wie gesagt nicht. Ich hab dazu das da gefunden:

Das Carriage Return (CR) -Zeichen ( 0x0D, \r) bewegt den Cursor an den Zeilenanfang, ohne zur nächsten Zeile zu gelangen. Dieses Zeichen wird in Commodore- und Early Macintosh-Betriebssystemen (OS-9 und früher) als neues Zeilenzeichen verwendet.

Das Zeilenvorschubzeichen (LF) ( 0x0A, \n) bewegt den Cursor nach unten zur nächsten Zeile, ohne zum Zeilenanfang zurückzukehren. Dieses Zeichen wird in UNIX-basierten Systemen (Linux, Mac OSX usw.) als neues Zeilenzeichen verwendet.

Die EOL-Sequenz (End of Line) ( 0x0D 0x0A, \r\n) besteht aus zwei ASCII-Zeichen, einer Kombination aus CR- und LF-Zeichen. Der Cursor bewegt sich sowohl nach unten zur nächsten Zeile als auch zum Anfang dieser Zeile. Dieses Zeichen wird in den meisten anderen Nicht-Unix-Betriebssystemen, einschließlich Microsoft Windows, Symbian OS und anderen, als neues Zeilenzeichen verwendet.

sirAnton · 21 März 2024

Ich habe mal die XML neu erstellt mit dem Visual Studio Code Editior als pure UTF8.
Bei der Google Console unter "Neue Sitemap hinzufügen" steht immer noch

! Sitemap konnte nicht gelesen werden

Ich bin mir aber nicht sicher ob die Meldung aktuell ist, da als info

"Google verarbeitet die Sitemap in regelmäßigen Abständen und überprüft sie auf Änderungen. Du wirst benachrichtigt, wenn ein Problem auftreten sollte."

kommt.

ThomasF · 21 März 2024

threadi schrieb:
Also das einzige Problem was ich sehe ist, dass deine Domain unter www und ohne www erreichbar ist. Du solltest dich für eine Schreibweise entscheiden und dorthin alles weiterleiten.

ist immer noch unter mit und ohne erreichbar.

sirAnton · 21 März 2024

Echt komisch. Ich habe alle Subdomains mit Umleitung damals gelöscht und es sind auch keine mehr vorhanden. Das muss der Strato Webserver selber veranlassen. Googel meckert jedenfalls nicht mehr wegen Duplikat.

ThomasF · 22 März 2024

Ich würde mal sowas in die .htaccess packen:

Apache-Konfiguration:

# Doppelten Content vermeiden (mit www nach ohne www umleiten)
RewriteCond %{HTTP_HOST} ^www\.msrtec\.eu$ [NC]
RewriteRule ^(.*)$ https://msrtec.eu/$1 [R=301,L]

Google Indexierung / Duplikat

Neues Mitglied

Moderator

Neues Mitglied

Moderator

Neues Mitglied

Neues Mitglied

Moderator

Mitglied

Neues Mitglied

Mitglied

Neues Mitglied

Mitglied

Neues Mitglied

Neues Mitglied

Mitglied

Mitglied

Neues Mitglied

Mitglied

Neues Mitglied

Mitglied