header

RIO NORD BLOG

Posts Tagged "SEO"

Das Thema near duplicate content detection

04.09.2011

Nachdem wir ja viel im Bereich Contenterstellung für unsere Kunden machen, fand ich neulich dieses Patent durchaus interessant:

http://appft1.uspto.gov

Google hat also ein Patent angemeldet, dass sich mit dem Thema „Detecting Near Duplicate Content“ beschäftigt. Mal abgesehen davon, dass dieses Patent in Europa nicht gilt (da hierzulande ein Streit über Software-Patente entbrannt ist), bedeutet das nicht, dass Google sein Potent nicht weiter entwickelt und auch nutzt. Patentlegung war bereits im Jahr 2008.

Wo mag der weltgrößte Web-Technologie-Konzern heute stehen in dieser Sache?

Da die englische Sprache weniger komplex ist und es sich aufgrund der schieren Verbreitung mehr lohnen dürfte, im englischen Bereich aktiv zu werden, vermute ich, die Jungs sind deutlich weiter als noch vor 3 Jahren.
Dass eine Suchmaschine duplikate Texte (also gleich) überhaupt erkennen kann, ist ja bereits eine unglaubliche Leistung. Allgemein auch noch alle Texte auf eine Ähnlichkeit hin zu anderen Texten zu untersuchen, ist aber unfassbar (aufwändig). Vorweg gesagt, ist Googles Bestreben gleichen oder auch nur sehr ähnlichen Content aufzufinden, mit dem eines Lehrers zu vergleichen, der nicht will, dass seine Schüler abschreiben. Aus Sicht der Suchmaschine ist es tatsächlich ja auch wenig sinnvoll, eine gleiche oder ähnliche Kopie zu indizieren oder gar sie aufzubewahren, denn eine Lagerung (selbst noch so kleiner digitaler Textmengen) kostet ja Geld. Also macht es Sinn, nach Texten zu suchen, die gleich oder ähnlich sind und sie aus dem eigenen Index zu verbannen.
Nur wie geht man dazu vor?

Als erstes substrahiert man die sinnhaltigen Texte von den Fülltexten der Navigation und den Webdesign Elementen. Ist ja klar. Danach unterteilt man die Texte mittels der Shingle Technik. Shingle heißt auf Englisch Schindel.

Einen Satz in Schindeln zu unterteilen hat den Sinn, seine einzelnen Elemente zu identifizieren und danach rechnerisch vergleichen zu können. Auf diese Weise vergleicht man nicht jedes Wort mit jedem Wort sowie einem Synonym dieses Wortes, was schnell zu ein paar Billionen Rechenoperationen führen müsste – pro Satz wohlgemerkt. Sondern durch die Shindle-technik unterteilt man den Satz in einzelne Elemente, die man rechnerisch vergleichen kann. Das ist wirklich clever, weil es die Komplexität vereinfacht, aber die Auffindbarkeit von Ähnlichkeit erheblich verschnellert. Dabei wird das Dokument in Tokens unterteilt. Ein Token ist meistens ein Wort. Man kann aber auch Buchstaben oder Sätze damit ausdrücken. Bleiben wir beim Wort.

Ein Satz wie dieser hier kann verwendet werden,

(ein, satz,wie,dieser,hier,kann,verwendet,werden)

um seine Schindelbarkeit zu zeigen, also it’s shinglenes. Sorry für dieses atemlose Denglisch.

{(ein, satz,wie),(wie,dieser,hier,kann),(kann,verwendet,werden)}

Von diesen Schindeln können wir natürlich auch ein paar Alternativen bilden. Dann erhält jede Schindel eine ID. Mit dieser ID bekommt jede Schindel einen Fingerprint. Diese Technik wurde übrigens von einem gewissen Herrn Charikar erfunden. Mit dieser Fingerprint-Technik kann man dann berechnen, wie wahrscheinlich es ist, dass soundsoviele Shindles einen ähnlichen Fingerprint aufweisen. Das ist natürlich extrem unwahrscheinlich, weswegen dann der Text als höchstwahrscheinlich abgeschrieben oder unrechtmäßig ähnlich umgeschrieben gilt und ergo nicht mehr als relevant für den Index gilt. Buh und raus bist Du. Dies wird übrigens rein praktisch gesehen mittlerweile mit mathematischen Vektoren pro Dokument erledigt, die selbst nur ca. 50kb wiegen. Und das war 2008.

Man darf getrost annehmen, dass

a) die Serverrechnerleistung heute günstiger zu bekommen istals in 2008

und

b) es vielleicht sogar noch ein paar kb Einsparpotential gibt.

Noch Fragen?

Wen das Thema auf der mathematischen Ebene noch weiter interessiert, dem sei hier die empirische Begründung eng ans Herzchen gelegt.

http://www.cs.brown.edu/courses/cs253/papers/nearduplicate.pdf

Hinreißend, wenn Ihr mich fragt. :-)

Ach ja. Und was soll das jetzt in einem Blog von rio nord und SEO und so? Na, sehr einfach. Die ganzen Textspinning-Machines da draußen werden es zukünftig noch schwerer haben. Most searchengines will sort these spinningtexts out – sooner or later. Von daher sollte man seine SEO-Texte eben besser selber schreiben. Oder auf jemanden zurückgreifen, der dies besser, und vor allem günstiger als jeder Werkstudentschreiberling oder die Hausfrau daheim es für 400 EUR im Monat und hochwertiger tun kann, weil er sich gewerbsmäßig damit auskennt. Womit wir wieder bei Rio wären. :-)

Caffein – Die Umstellungen und Veränderungen

02.07.2010

In letzter Zeit stapeln sich die Aufgaben und erfreulicherweise auch die Aufträge hier in Rio. Isch komm kaum noch zu Posts. Eine der wichtigsten Dinge aus SEO-Betrachtung muss aber Erwähnung finden und das sind die Veränderungen durch Caffein.Caffein - dies vielleicht vorneweg ist ein bitterer Stoff (!), aber durchaus stimulierend, wenn auch psychoaktiv.

Google hat ja die Umstellung auf die im Jahr 2009 eingeführte Technik neulich erst final abgeschlossen, bei der das neue und deutlich leistungsstärkere Dateisystem GFS 2 (Google File System 2) zum Einsatz kommt. Es macht deutlich, dass Google eher in Zukunft das Delta der Veränderung der Inhalte misst und entsprechend verarbeitet. Ziemlich schlauer Schachzug bei diesem ganzen Web 2.0 Content-Wahnsinn, der ja bereits jetzt jeden Tag das Netz um einige Tausend Terrabyte größer macht. Von daher sind Websites mit beständig neuen Inhalten deutlich besser gestellt als die statischen Websites. Aber das ist ja nun wirklich nichts neues.

Wie ist denn die wirkliche Veränderung durch Caffein?

Google sagt ja: „Ne, also das ist ja echt gar kein neuer Algo, vielmehr eine Überarbeitung unseres Index. Da ändert sich doch nix und alles peace und so“. Tatsächlich sind die Änderungen aber in jedem Bereich zu spüren, denn die Auswirkungen auf den Index sind teilweise durchaus spürbar und in Teilen auch dramatisch. Viele Webseitenbetreiber haben festgestellt, dass die Rankings sich geändert haben nach der Umstellung auf Caffein (Platz 1 auf 2 ist schon echt hart, aber von der Seite 1 auf die Seite 3 zu verschwinden wirklich und eindeutig geschäftsschädigend wie bei einigen unserer Kunden geschehen). Denn neue Inhalte haben nun schneller die Möglichkeit nach oben zu kommen, News und aktualisierte Blogposts und Foreneinträge haben eine größere Chance, schneller und höher gerankt zu werden (aber auch gleichzeitig wieder durch neue Blogposts von anderen Seiten verdrängt zu werden). Social Buzz (u.a. die Like-Funktion von facebook) wird grundsätzlich stärker in die Bewertung mit einbezogen. Aus SEO-Sicht wieder ein schlauer Schachzug, weil viele Hunderttausend Meinungsäußerungen wahrlich nur äusserst schwer durch SEO-technische Maßnahmen beeinflusst werden können*. Zudem werden durch Caffein bestimmte technische Besonderheiten einer Website stärker gemessen und fliessen ein ins Ranking, u.a. Ladezeiten einer Seite, Domainage, Anzahl und Qualität der Backlinks und (wie ich finde extrem kriegsentscheidend) die semantische Relevanz der Websitetext zum Linktag.

Google verändert viele Dinge, um stärker in Richtung einer Aktualität und letztlich , Echtzeitsuchmaschine zu gehen, u.a. auch über das Thema Pubsubhubbub. Das ist ein neues Protokoll, dass sich im Bereich von Blogs quasi über Nacht zum Standard entwickelt hat: hier kann frischer Inhalt auf einer Website an Google proaktiv gemeldet werden. Das ist durchaus ein Vorteil, anstatt eine Woche auf den Bot zu warten. Hübsch anzuschauen die Videobotschaft der beiden Google Mitarbeiter, die´s erfunden haben:

http://code.google.com/p/pubsubhubbub/

Eine von Caffein zwar unabhängige Angelegenheit, die sog. Mayday-Umstellung hat den Algorithmus aber allerdings wirklich verändert und betrifft Long-Tail-Suchanfragen. Lesenwert hier aus dem Webmasterblog von Google dieser Beitrag: http://bit.ly/avQZqW

Google ändert also eine Menge Dinge, um seinen Index frischer zu machen (angeblich bis zu 50% aktueller). Man sollte in diesem Zusammenhang natürlich mit ein paar Experten sprechen, was man denn so alles machen kann (natürlich mit uns), u.a. sollte man bald einmal eine HTML5-Version anbieten.

*es sei denn man spricht mit Ralph Fantomaster Tegtmeier mal darüber, was man da so alles machen kann, but that´s another story. ;-D

COLT - ein Tool aus Link Research Tools

29.04.2010

Wir haben vorgestern mit einer kleinen Serie zu den Link Research Tools begonnen. Heute wollen wir das zweite von insgesamt momentan fünf Tools aus den Link Research Tools von cemper.com vorstellen:

COLT - steht für Common outbound links tool und findet bedeutende Webseiten die von Autoritäten im Internet verlinkt werden. Das bedeutet es werden Webseiten identifiziert von denen ein Link für Ihr Projekt sinnvoll ist. Auf Grund der Tatsache, dass Links von starken Autoritäten wie Universitäten für Privatpersonen und auch Unternehmen nur schwer zu bekommen sind, macht es Sinn, dort zu schauen wo diese Autoritäten hin verlinkt haben und von dort eben auch zu versuchen einen Link zu erhalten.

lrt-colt-report

Der Report an sich ähnelt vom Aussehen (Aufbau) dem des CBLT (common back links tool). Auch hier können wieder zahlreiche Analyseparameter angezeigt werden, was die Identifizierung der besonders interessanten Links erleichtert. Als Export erhält man so eine Liste mit potenziellen Backlinks die man ansprechen sollte um von dort verlinkt zu werden. Hierzu ist vielleicht auch der aktuelle Beitrag von gestern interessant.

Im nächsten Beitrag der Serie geht es dann um das Back Links und Anchor Text Tool, dem dritten Tool aus den Link Research Tools.