header

RIO NORD BLOG

Archive for the "Search Engine-Marketing" Category

Das Thema near duplicate content detection

04.09.2011

Nachdem wir ja viel im Bereich Contenterstellung für unsere Kunden machen, fand ich neulich dieses Patent durchaus interessant:

http://appft1.uspto.gov

Google hat also ein Patent angemeldet, dass sich mit dem Thema „Detecting Near Duplicate Content“ beschäftigt. Mal abgesehen davon, dass dieses Patent in Europa nicht gilt (da hierzulande ein Streit über Software-Patente entbrannt ist), bedeutet das nicht, dass Google sein Potent nicht weiter entwickelt und auch nutzt. Patentlegung war bereits im Jahr 2008.

Wo mag der weltgrößte Web-Technologie-Konzern heute stehen in dieser Sache?

Da die englische Sprache weniger komplex ist und es sich aufgrund der schieren Verbreitung mehr lohnen dürfte, im englischen Bereich aktiv zu werden, vermute ich, die Jungs sind deutlich weiter als noch vor 3 Jahren.
Dass eine Suchmaschine duplikate Texte (also gleich) überhaupt erkennen kann, ist ja bereits eine unglaubliche Leistung. Allgemein auch noch alle Texte auf eine Ähnlichkeit hin zu anderen Texten zu untersuchen, ist aber unfassbar (aufwändig). Vorweg gesagt, ist Googles Bestreben gleichen oder auch nur sehr ähnlichen Content aufzufinden, mit dem eines Lehrers zu vergleichen, der nicht will, dass seine Schüler abschreiben. Aus Sicht der Suchmaschine ist es tatsächlich ja auch wenig sinnvoll, eine gleiche oder ähnliche Kopie zu indizieren oder gar sie aufzubewahren, denn eine Lagerung (selbst noch so kleiner digitaler Textmengen) kostet ja Geld. Also macht es Sinn, nach Texten zu suchen, die gleich oder ähnlich sind und sie aus dem eigenen Index zu verbannen.
Nur wie geht man dazu vor?

Als erstes substrahiert man die sinnhaltigen Texte von den Fülltexten der Navigation und den Webdesign Elementen. Ist ja klar. Danach unterteilt man die Texte mittels der Shingle Technik. Shingle heißt auf Englisch Schindel.

Einen Satz in Schindeln zu unterteilen hat den Sinn, seine einzelnen Elemente zu identifizieren und danach rechnerisch vergleichen zu können. Auf diese Weise vergleicht man nicht jedes Wort mit jedem Wort sowie einem Synonym dieses Wortes, was schnell zu ein paar Billionen Rechenoperationen führen müsste – pro Satz wohlgemerkt. Sondern durch die Shindle-technik unterteilt man den Satz in einzelne Elemente, die man rechnerisch vergleichen kann. Das ist wirklich clever, weil es die Komplexität vereinfacht, aber die Auffindbarkeit von Ähnlichkeit erheblich verschnellert. Dabei wird das Dokument in Tokens unterteilt. Ein Token ist meistens ein Wort. Man kann aber auch Buchstaben oder Sätze damit ausdrücken. Bleiben wir beim Wort.

Ein Satz wie dieser hier kann verwendet werden,

(ein, satz,wie,dieser,hier,kann,verwendet,werden)

um seine Schindelbarkeit zu zeigen, also it’s shinglenes. Sorry für dieses atemlose Denglisch.

{(ein, satz,wie),(wie,dieser,hier,kann),(kann,verwendet,werden)}

Von diesen Schindeln können wir natürlich auch ein paar Alternativen bilden. Dann erhält jede Schindel eine ID. Mit dieser ID bekommt jede Schindel einen Fingerprint. Diese Technik wurde übrigens von einem gewissen Herrn Charikar erfunden. Mit dieser Fingerprint-Technik kann man dann berechnen, wie wahrscheinlich es ist, dass soundsoviele Shindles einen ähnlichen Fingerprint aufweisen. Das ist natürlich extrem unwahrscheinlich, weswegen dann der Text als höchstwahrscheinlich abgeschrieben oder unrechtmäßig ähnlich umgeschrieben gilt und ergo nicht mehr als relevant für den Index gilt. Buh und raus bist Du. Dies wird übrigens rein praktisch gesehen mittlerweile mit mathematischen Vektoren pro Dokument erledigt, die selbst nur ca. 50kb wiegen. Und das war 2008.

Man darf getrost annehmen, dass

a) die Serverrechnerleistung heute günstiger zu bekommen istals in 2008

und

b) es vielleicht sogar noch ein paar kb Einsparpotential gibt.

Noch Fragen?

Wen das Thema auf der mathematischen Ebene noch weiter interessiert, dem sei hier die empirische Begründung eng ans Herzchen gelegt.

http://www.cs.brown.edu/courses/cs253/papers/nearduplicate.pdf

Hinreißend, wenn Ihr mich fragt. :-)

Ach ja. Und was soll das jetzt in einem Blog von rio nord und SEO und so? Na, sehr einfach. Die ganzen Textspinning-Machines da draußen werden es zukünftig noch schwerer haben. Most searchengines will sort these spinningtexts out – sooner or later. Von daher sollte man seine SEO-Texte eben besser selber schreiben. Oder auf jemanden zurückgreifen, der dies besser, und vor allem günstiger als jeder Werkstudentschreiberling oder die Hausfrau daheim es für 400 EUR im Monat und hochwertiger tun kann, weil er sich gewerbsmäßig damit auskennt. Womit wir wieder bei Rio wären. :-)

Webmastertools mit zusätzlichen Features

20.04.2010

Die Entwicklungen bei Google werden ständig voran getrieben und so hat es nun auch mal wieder die Webmastertools ‘erwischt’. Seit einigen Tagen kann man dort weitere nützliche Daten die die eigenen Webseiten betreffen einsehen. Im Dashboard bekommt man nun zu den häufigsten Zehn Suchanfragen die Impressionen und die Clickthrough Rate für die letzten 30 Tage angezeigt.

webmastertools-2010

Schaut man sich die häufigsten Suchanfragen genau an, so lässt sich für jede aufgezeichnete Suchanfrage die ausgelieferte Position und deren Einblendungen sowie dazugehörige Clickthrough ansehen. Zusätzlich kann man sehen welche Seite wie oft eingeblendet wurde. Das ganze wird grafisch unterstützt, ganz ähnlich wie wir es bereits von Google Analytics kennen.

Hier geht es zur Google Webmaster Zentrale

Bei Facebook richtig ‘landen’

07.04.2010

Facebook hat sich als SocialMedia-Plattform weltweit etabliert und ist wohl kaum noch aus dem Internet wegzudenken. Der Dienst wird von seinen registrierten Usern sehr häufig unter anderem auch über das mobile Internet ‘gefüttert’. Sicherlich gibt es noch immer Einzelne die sich nicht bei Facebook registrieren, allerdings muss man hier wohl schon bald von einer Minderheit sprechen. Was für einzelne User zutrifft kann für Unternehmen und deren Marken nicht gelten. Wer sich hier nicht positioniert kann unter Umständen Nachteile erfahren, denn die Konkurrenten sind zahlreich und aktiv. Was man tun kann, damit das eigene Unternehmen bei Facebook richtig landet haben wir heute für Euch zusammengefasst.

Wir beginnen mit der Registrierung. Hier ist es wichtig auf den richtigen Namen der eigenen Facebook-Seite zu achten. Nutzen Sie Markennamen, Unternehmensnamen oder Suchbegriffe. Wählen Sie den Seitennamen nicht zu lang. Sorgen Sie für Klarheit beim Nutzer!

Wählen Sie eine Kategorie die zu ihrem Unternehmen passt. Facebook hat eine Reihe sinnvoller Zusammenstellungen für verschiedene Branchen gemacht. Wählen Sie hieraus die treffende Branche um sicherzustellen, dass Sie auch wirklich alle relevanten Informationen an die Nutzer transportieren können. Nehmen Sie sich Zeit bei der Auswahl, denn Kategorie und auch der zuvor erwähnte Seitennamen lassen sich später nicht mehr ändern.

Nutzen Sie die Beschreibung von 250 Zeichen die unter dem Punkt ‘Über’ für Ihre Facebook-Seite zur Verfügung steht. Kommen sie in kurzen und klaren Sätzen auf den Punkt! Nutzen sie so viele Zeichen wie möglich.

Wählen Sie ein Logo, welches man erkennen kann (gut aussieht) und auch einen hohen Wiedererkennungswert hat. Das Logo kann 200 Pixel breit und 650 Pixel hoch sein! Minimalste Größte sollte 200 x 200 Pixel sein, größer ist aber besser!

Informieren Sie die Nutzer. Im Reiter Info können Informationen hinterlegt werden. Nutzen Sie die Möglichkeit und versuchen Sie hier viele, vor allem relevante, Infos zu geben. Dies kann von Lieferbedingungen über Öffnungszeiten bis hin zu Filialadressen und vielem mehr gehen! Tipp: Aktivieren Sie nur die Reiter hinter denen Sie auch wirklich Informationen hinterlegen, leere deaktivieren Sie also besser um Nutzer nicht zu enttäuschen.

Nutzen Sie die Facebook Vanity-URL und halten Sie sich dabei an Unternehmens-, Marken- oder Domainnamen. Dies erhöht die Wiedererkennung. Zu generische Begriffe sind deshalb nicht gut, weil sie unter Umständen von Facebook genutzt werden könnten.

Nutzen Sie die Möglichkeit einer eigenen Landingpage (FBML-Seite) die in HTML dargestellt werden kann. Hier können Sie unabhängig eine eigene Seite zum akquirieren von neuen Fans gestalten mit der Sie auch zusätzlich in den Suchmaschinen besser gefunden werden.

Beiträge wie Bilder und Videos sollten ebenso wie Events beschrieben werden. Nutzen Sie hier und da auch immer wieder wichtige Suchbegriffe, aber werden Sie nicht zu aufdringlich damit. Semantische Begriffe beziehungsweise Synonyme sind hier ebenfalls gut am Platz.

Feedinhalte sollten so optimiert werden, dass sie in Facebook auch richtig dargestellt werden können und die Leser ansprechen. In den meisten Fällen ist es sinnvoll neue Feedinhalte und auch sonstige Links über die Funktion ‘Link einfügen’ zu generieren, denn hier sind die Gestaltungsmöglichkeiten größer und Nutzer werden individueller angesprochen.

Schaffen Sie Mehrwert auf Ihrer Facebook-Seite. Warum sollten die Nutzer Ihre Fans werden? Was ist der Vorteil eines Fans Ihres Unternehmens? Versuchen Sie die Nutzer durch einfache aber effektive Mittel nicht nur zum bleiben zu bewegen sondern andere Freunde von dem Angebot zu überzeugen. Dies geht sehr gut, wenn man seinen Nutzern ein Vorteil verschafft, der nur auf der Facebook-Seite existiert.

Machen Sie Werbung für Ihre facebook-Seite. Nutzen Sie die Möglichkeiten um die eigene Facebook-Seite bekannt zu machen. Dies kann schon auf der eigenen Domain beginnen aber auch mit einem Newsletter sehr gut bekannt gemacht werden.

Verlinken Sie aus den Facebook-Beiträgen auf die richtigen Unterseiten ihrer Unternehmenswebsite. Bleiben Sie dabei immer relevant und verlinken Sie nicht von einem Beitrag über rote Socken auf grüne Handschuhe oder gar die Startseite. Von der Startseite geht das Gesuche erst richtig los, muten Sie dies den Nutzern nicht zu. Nehmen Sie die Nutzer bei der Hand und führen Sie diese genau ans Ziel!