Google sieht doppelt.


Eine kleine Abhandlung über Duplicate Content und dumme Webmaster und Suchmaschinen.
Interessiert hier niemanden? Das ist mir jetzt einfach mal vollständig egal, ich muss es mir von der Seele schreiben:

Wer sich wundert, dass man über die Seiten-Suche hier keine Artikel mehr aus dem Blog findet, dem sei gesagt: weil Google dumm ist. Und faul. Zweimal das selbe zu lesen, ödet Google an. Und straft so etwas als „duplicate content“ ab. Das ist ja im Prinzip ok, denn man muss bei Google ja nicht alles doppelt finden.

Google versucht daher bei der Anzeige seiner Suchergebnisse (SERPs) keine doppelten Einträge anzuzeigen. Das macht Google, indem es den doppelten Content (Duplicate Content) ausfiltert. Ein Blog sollte also versuchen, so wenig doppelte Inhalte wie möglich zu liefern.

Und wenn zuviel doppelt und ähnlich ist, dann wird die ganze Seite als unwichtig eingestuft und man kann sie über die Suche mit Google praktisch nicht mehr finden. So mit diesem Blog geschehen. Nun tröstet es mich nur, dass es ausgewiesenen Suchmaschinen Experten auch passiert, erschreckend ist jedoch, dass auch sie sich manchmal nur langsam davon erholen.

Ja, schreibe ich denn hier alles doppelt und dreifach?
bloedesgoogle2.gifNein, aber die Software, mit der dieses Blog betrieben wird, ist ein Klonschaf und vervielfacht die Inhalte und stellt sie auch sehr ähnlich dar. Wichtiges von Unwichtigem zu unterscheiden, gelingt der dummen Suchmaschine nicht, wenn der noch dümmere Webmaster nicht vernünftig sortiert. Google schaut sich die Seiten an, vergleicht sie und sieht dann so etwas, wie links auf dem Bild dargestellt.

Das ist natürlich mehr als langweilig für eine Suchmaschine. Und wenn man sie so anödet, dann kennt sie kein Pardon und schmeisst einfach alles raus. Da hilft es nichts, wenn die hier gezeigten Archivseiten für die Leserschaft durchaus interessant sein können. Bei der Suche nach Seiten aus diesem Blog bleiben nur 7 übrig. Unerfreulicherweise auch noch die absolut unwichtigsten.

Was ist die Folge?
bloedesgoogle.gifZunächst einmal, das die lokale Suche für den Blog nun ergebnislos bleibt. Zum anderen werden diese Seiten nicht mehr gefunden und auch nicht mehr besucht, wie aus der Graphik ersichtlich wird. Die gelben Bereiche der Balken sind die Besucher, die über die Suchmaschinen kommen, die grauen kommen direkt über diese Seite. Kein Drama, es sind ja immer noch fast tausend pro Tag, aber man möchte ja auch gelesen werden, wenn man so einen Blog schreibt. So, diejenigen, die mich nur trösten möchten: Ich bitte um Kommentare… Wer wissen will, was man tun kann: weiterlesen.

Was tun?
Optimistisch wie ich bin, hoffe ich, dass dieser Beitrag irgendwann auch mal von den Suchmaschinen gelistet wird, daher hier die Liste der Massnahmen, die ich ergriffen habe:

Fehlersuche
Das Hauptproblem dürfte ein die Brotkrümelnavigation sein, die ich hier einsetze. Dass dem Ersteller dieses Programms nun gerade die Webseite gehackt wurde, ist jedoch bedauerlich, ich war´s nicht. Es zeigt das Datum als klickbare Links an und dadurch erscheinen über jedem Artikel die Archiv-Links zu Jahr, Monat und Tag.

Google nur Ausgewähltes vorlegen
Wegnehmen wollte ich es nicht, daher habe ich mich eines anderen Plugins bedient, mit dem man vorgeben kann, welche Seiten von den Suchmaschinen gelistet werden und nur die jeweils erste Seite der Monatsarchive und Kategorien sowie die Homepage, die einzelnen Artikel und die Info-Seiten rechts oben. Außerdem habe ich es modifiziert, damit es nicht „page“ und andere sinnlose Links anzeigt.

Alles schön unterschiedlich beschreiben
Mit dem Metatag „Description“ kann man den Inhalt einzelner Webseiten beschreiben. Sehr mühselig, das einzeln zu machen und daher gibt es auch dafür ein kleines Plugin, welches den Metatag „description“ automatisch in die einzelnen Seiten einfügt.

Nun haben die einzelnen Seiten auch noch einen Titel, den man möglichst je nach aufgerufener Seite unterschiedlich gestalten sollte. Dazu habe ich den Header für diesen Blog abgeändert:

<?php if ( is_home() ) {
echo '<title>';echo bloginfo('name');echo ' - ';echo 'Aktuelle Artikel und News zum Thema Kinderwunsch';echo '</title>';
} ?>
<?php if ( is_single() ) {
echo '<title>';echo wp_title('');echo ' &raquo; ';echo bloginfo('name');echo '</title>';
} ?>
<?php if ( is_category() ) {
echo '<title>';echo bloginfo('name');echo ' - ';echo single_cat_title();echo '</title>';
} ?>
<?php if ( is_page() ) {
echo '<title>';echo wp_title('');echo ' &raquo; ';echo bloginfo('name');echo '</title>';
} ?>
<?php if ( is_archive() ) {
echo '<title>';echo ' &raquo; ';echo bloginfo('name');echo ' - ';echo single_month_title('');echo '</title>';
} ?>

Das sollte durcheinander genug sein, hoffe ich.

Doppelte Links entschärfen
Trackbacks, Feeds und die Möglichkeit, einen Artikel zu drucken, führen zu weiteren Versionen identischer Inhalte, daher wurden diese mit einem rel=“nofollow“ -Link entschärft, bzw. in der robots.txt-Datei ausgeschlossen.

Letztere könnte so aussehen, wenn man es wirklich wissen will, ich habe es nicht so auf die Spitze getrieben:
User-agent: *
Disallow: /wp-
Disallow: /search
Disallow: /feed
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Disallow: /*/*/page/$
Disallow: /*/*/*/page/$
Disallow: /*/*/*/*/page/$

www. erzwingen
Google ist wirklich pingelig. Wenn man eine Seite im Internet aufruft, dann kann man das auch meist ohne das „www“ vorweg. Also z. B. http://wunschkinder.net/blog/. Dann existieren für Google jedoch zwei identische Seiten, die über verschiedene Adressen ereichbar sind und sieht gleich wieder doppelt. Auch dazu gibt es ein Plugin, mit welchem man die Version mit oder ohne „www“ erzwingen kann.

Man kann es auch mit einem Eintrag in die .htaccess-datei bewirken:
RewriteEngine On
RewriteCond %{HTTP_HOST} !^www\.deineseite\.de$ [NC]
RewriteRule ^(.*)$ http://www.deineseite.de/$1 [R,L]
RewriteBase /
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]

damit wird auch gleich ein fehlender „/“ am Ende der Adresse hinzugefügt

Google Bescheid sagen
Mit dem Google-Sitemap-Generator von Arne Brachold und die Seiten bei Google anmelden.

Was vergessen?
Ja, Zeit. Wie immer benötigt man Geduld. Wenn jemand Kompetentes dies liest und einen Fehler oder Fehlendes findet, bin ich für jeden Ratschlag extrem dankbar. Danke.


Noch Fragen?

Dann haben Sie in unserem Kinderwunschforum die Möglichkeit, sich mit anderen Betroffenen auszutauschen oder Fragen an unsere Experten zu richten. Und hier finden Sie die Übersicht über zahlreiche andere Foren von wunschkinder.net.
Die am häufigsten gestellten Fragen haben wir nach Themen geordnet in unseren FAQ gesammelt.
Das könnte Sie auch interessieren

Kommentar

Deine Email-Adresse wird nicht veröffentlicht.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

5 Kommentare
  1. Elmar Breitbach
    Donza schreibt

    Aaah, jetzt verstehe ich erst! –> Hier auf der Wunschkinder-Seite benutzen Sie ja auch Google als Suchfunktion, d.h. man kann HIER auch keine alten Beiträge mehr finden!
    Sehr ärgerlich!!!! 🙁

  2. Elmar Breitbach
    E. Breitbach schreibt

    eben…:-(

  3. Elmar Breitbach
    Suse schreibt

    bisher fand ich noch immer, was ich suchte, nur dauerte es manchmal etwas und ist nicht unbedingt linear logisch zu nennen…

    😉
    Grüßle
    S.

  4. Elmar Breitbach
    Jens schreibt

    Also ich hab gleich gefunden was ich suchte. Hat aber nicht so lang gedauert.

  5. […] bin ja momentan so ein wenig deprimiert, weil Google meine Kinderwunsch-News aufs Abstellgleis gestellt hat. Und zwar gründlich und offenbar für […]