WDF = What Da Fuck? Eine kurze Einführung zu WDF*IDF

12.02.18 | 0 Kommentare

Einleitung

Als ich Ethnologie studierte, kam es in Mode, bestimmte Daten softwaregestützt auszuwerten. In einem Fall ging es um die Analyse so genannter „kultureller Domänen“. Unter anderem entscheidet das Programm auf Basis der Daten darüber, ob ein Begriff eine Domäne ist oder nicht.

Von Natur aus misstrauisch gegenüber Datenauswertungen, die ich nicht selbst nachvollziehen kann, fragte ich den Professor, wie genau das Programm diese Entscheidung trifft.

Seine Antwort: „Das weiß ich nicht, und das will ich auch nicht wissen. Dafür gibt es Arbeitsteilung, und man muss auch Vertrauen haben, dass andere ihre Arbeit gut machen.“

Wahrscheinlich fehlt mit da ein gewisses Urvertrauen. Aber manchmal ist das auch besser so.

Ich bemühe mich immer nach Kräften zu verstehen, was einer Sache zugrunde liegt. Was bringt mir das aber?

In diesem Falle war es so, dass das Programm relativ willkürlich an einer bestimmten Stelle einen Schnitt zog: Ab x Personen ist es eine kulturelle Domäne. Eine Person weniger – keine kulturelle Domäne.

Das wissend, würde ich mir dann zutrauen, es unter gewissen Umständen trotzdem als kulturelle Domäne aufzufassen, wenn es eben nur genau eine Person unter Grenzwert ist. Ich muss dazu nur natürlich wissen, was das Programm auf den ersten Blick eher verschleiert.

Um also als Ethnologe selbst über einen kulturellen Sachverhalt urteilen zu können, muss ich (a) trotz Software meine eigenen Daten im Griff haben und (b) wissen, wie das Programm funktioniert.

Ich kenne dann die Grenzen des Programms, weiß, wofür es taugt und wofür nicht.

So ähnlich ist es bei WDF*IDF auch!

Verstehe, was Du tust (auch, wenn Du es nicht magst)

Ich persönlich mag keine softwaregestützte Auswertung in der Kulturwissenschaft. Ich glaube, dass es der Erkenntnis eher ab- als zuträglich ist. Trotzdem habe ich mich damit auseinandergesetzt.

Vielleicht geht es Dir mit Dingen wie SEO, Keywordanalyse oder WDF*IDF ähnlich wie mir mit der Software in der Ethnologie.

Für viele Texter sind Kennzahlen und Prinzipien des Online Marketings anfangs böhmische Dörfer – jedenfalls, wenn sie nicht aus einer Agentur oder dem OM-Team eines Unternehmens kommen. Aber Du agierst als Texter souveräner, wenn Du ein wenig davon verstehst.

Ein wichtiges Tool im Online Marketing ist die WDF*IDF-Analyse, die zur Content-Optimierung dient. Der große WDF*IDF-Hype ist zwar vorbei – dennoch: WDF*IDF ist ein beliebtes Tool zur On Page-Optimierung und wird bisweilen direkt beim Texter mitbestellt.

Doch was ist das eigentlich genau, und wie erstellt man solche Analysen?

Was es ist, ist leicht erklärt. Ob Du es in der Praxis brauchst, hängt ganz davon ab, mit welchen Kunden Du zusammenarbeitest und worauf Du Dich spezialisierst. Wissen, was WDF*IDF eigentlich ist, solltest Du aber auf jeden Fall. Also: Weiterlesen!

Was ist WDF*IDF?

WDF*IDF ist eigentlich nichts Aufregendes. Es ist eine Analyse der Termgewichtung, die sich aus zwei Teilen zusammensetzt – WDF (Within Document Frequency) und IDF (Inverse Document Frequency).

Vielleicht hast Du die Formel schon mal gesehen und den Schock Deines Lebens bekommen. Ich erspare sie Dir hier. Trotzdem sei gesagt: Die Mathematik hinter dieser Formel ist wirklich nicht kompliziert.

Und wenn Du mir das nicht glaubst, sei trotzdem beruhigt: Um mit WDF*IDF zu arbeiten, brauchst Du die Formel gar nicht zu benutzen.

WDF (Within Document Frequency)

WDF setzt die Anzahl eines Keywords zur Gesamtzahl der Wörter im Dokument ins Verhältnis. Diese Kennzahl ist damit der Keyworddichte (keyword density) ähnlich. Es gibt jedoch einen wesentlichen Unterschied:

Die Keyworddichte berechnest Du mit einem einfachen Dreisatz. Sie entspricht Gesamtwortzahl geteilt durch die Anzahl des Hauptkeywords.

Die WDF hingegen ist eine Logarithmusfunktion. Der Logarithmus bewirkt eine Stauchung des Wertes, weil die Logarithmusfunktion für höhere Werte nicht so schnell steigt wie für niedrige. (Ich will hier nicht ins Detail gehen, sagen wir darum: Das ist einfach eine Eigenschaft der Logarithmusfunktion.)

Das bedeutet also, dass eine starke Erhöhung der Keywordzahl nicht zu einer linearen Erhöhung des WDF-Wertes führt, wie es bei der Keyworddichte der Fall ist. Damit fallen Extremwerte nicht so stark ins Gewicht, und die WDF ist nicht so leicht manipulierbar wie die Keyworddichte. Banal gesagt: Du kannst die Keyworddichte verdoppeln, indem Du einfach die doppelte Anzahl eines Keywords in den Text „hineinkloppst“. Das funktioniert bei der WDF nicht so einfach.

Die WDF wird für alle Begriffe im Text berechnet, so dass Du ein Bild davon bekommst, welche Begriffe in Deinem Text zum Zeitpunkt der Analyse besonders zentral sind.

IDF (Inverse Document Frequency)

Der Nachteil einer reinen Betrachtung der WDF: Wörter, die in allen Texten besonders häufig vorkommen, wie „weil“, „und“, „es“ und so weiter werden ebenfalls einbezogen und verzerren mit ihrer syntaktischen Notwendigkeit die inhaltliche Gewichtung. Es sind ja eigentlich die speziellen, seltener vorkommenden Begriffe, die etwas darüber aussagen, worum es in einem Text geht, für welche Begriffe er also relevant ist.

Darum gibt es die IDF (ebenfalls eine Logarithmusfunktion). Mit der Inverse Document Frequency wird die Anzahl aller Dokumente zu der Anzahl derjenigen Dokumente ins Verhältnis gesetzt, die den Begriff enthält. Je mehr Dokumente den Begriff enthalten, desto geringer ist der IDF-Wert für den Begriff. Entsprechend hat ein Begriff wie „es“ einen extrem niedrigen IDF-Wert, weil er einfach fast überall vorkommt. Begriffe, die einen Inhalt besonders machen, weil sie spezifisch sind und nicht häufig im Dokumentenkorpus vorkommen, haben hingegen einen hohen IDF-Wert.

WDF*IDF

Um nun unseren eigenen Text zu analysieren, ist es sinnvoll, ihn nicht isoliert zu betrachten, sondern eben im Verhältnis zu dem zu betrachten, was alle anderen schon geschrieben haben.

Darum werden WDF und IDF in der WDF*IDF-Analyse kombiniert – und zwar durch Multiplikation. So erhältst Du einen Gesamtwert, der berücksichtigt, wie stark einzelne Begriffe in Deinem Text vorkommen, aber auch, wie häufig sie schon überhaupt im Internet vorkommen.

WDF*IDF-Analysen werden mit Tools durchgeführt, die Dir die Werte für alle Terme (Wörter, Begriffe) in Deinem Text auswerfen. Berechnen musst Du bei der WDF*IDF-Analyse also nichts – Du musst nur wissen, was Dir die Werte sagen.

Okay – wozu ist das nun alles gut?

Eigentlich erklärt es sich schon aus dem bisher Gesagten: WDF*IDF-Analysen werden von vielen Online Marketern eingesetzt, um (suchmaschinen-)optimierte Inhalte für ihre Website zu erstellen. Es geht also nicht um die gefühlte Relevanz eines Textes für den Leser, sondern um die dem Dokument von Suchmaschinen zuerkannte Relevanz, die sich auf das Ranking auswirkt (und damit darauf, wie viele den Text letztlich lesen).

Mit der WDF*IDF-Analyse kannst Du zum einen generell checken, ob ein Text, den Du bereits veröffentlicht hast und der indexiert ist, für alle wichtigen Begriffe optimiert ist. Du kannst so zum Beispiel Begriffe (und damit auch Aspekte eines Themas!) finden, die in anderen relevanten Dokumenten vorkommen, die Du aber vielleicht vergessen hast.

Zudem kannst Du – vor der Texterstellung – bereits feststellen, welche Keywords für ein Thema relevant sind und danach Deinen eigenen Text erstellen.

WDF*IDF-Analysen sind also sowohl interessant für die Optimierung bestehender Inhalte als auch für die Erstellung optimierter neuer Inhalte. Manchmal werden diese Analysen, wie schon erwähnt, auch bei Textern direkt mit in Auftrag gegeben – zu wissen, wie man mit WDF*IDF-Tools umgeht, ist also durchaus sinnvoll.

Du möchtest gerne wissen, wie Du WDF*IDF in der Praxis einsetzt? Dann lies diesen Artikel hier!

Kritik an WDF*IDF

Nicht jeder liebt WDF*IDF. Ich auch nicht. Dafür gibt es einige Gründe.

Zunächst einmal bin ich selbst ein Freund der These: Wir schreiben für Leser, nicht für Suchmaschinen. Und ich bin mir sicher, dass das die langfristig beste Strategie für Erfolg im Netz ist.

Zweitens bin ich generell kein Freund der „Verformelung der Welt“. WDF*IDF ist ein Versuch, ein bestimmtes Problem (nämlich Relevanz) mathematisch zu modellieren. „Echte“ Relevanz (damit meine ich die, die Menschen, nicht Suchmaschinen, Texten zuerkennen) basiert aber nicht auf Termfrequenz. Wir zählen nicht, wie oft das Wort vorkommt. Wir finden einen Text relevant oder nicht, und das tun wir auf Basis unseres Interesses, unserer Motivation, einen Text zu lesen.

Das Modell nimmt Termfrequenz entsprechend lediglich als einen Indikator für Relevanz. Das muss nicht vollkommen verfehlt sein. Es ist nur, meine ich, unnötig.

Wenn ich schreibe, schaue mir die Texte der Konkurrenz an, ich recherchiere zum Thema, ich mache mich mit der Zielgruppe und ihren Bedürfnissen vertraut – dann verfasse ich einen Text. Ich persönlich optimiere darum nie nach WDF*IDF, wenn es um meine eigenen Texte geht. Ich vertraue darauf, mit meiner Recherche und meinem Wissen, „echte Relevanz“ zu erzeugen, und ich vertraue darauf, dass Algorithmen immer besser werden, diese zu erkennen.

Es gibt noch ein paar andere Argumente, die gegen WDF*IDF sprechen – nicht pauschal, sondern in Hinblick auf die Anwendbarkeit und die Qualität der Tools.

Zum einen monieren manche Kritiker, dass viele Tools die Werte unzureichend berechnen. Für die Gesamtzahl der Dokumente überhaupt und für die Gesamtzahl der Dokumente, die den Term enthalten (also die IDF-Seite unserer Formel), so die Kritiker, würden keine akkuraten Daten erhoben werden. (Das kann ich leider nicht einschätzen – wenn es Dir genauer interessiert, schaue mal unten in den weiterführenden Quellen.)

Hinzu kommt, dass der WDF*IDF-Wert viele Dinge ausblendet (Synonyme, Verteilung über den Text etc.), die für die Einschätzung der Relevanz wichtig sind und – das ist aus meiner Sicht das Wesentliche an diesem Argument – die von Suchmaschinen eigentlich problemlos erhoben werden können. Daher ist also fraglich, ob Termfrequenz als Indikator für die Relevanz wirklich so aussagekräftig ist.

Sowieso ist WDF*IDF nur bei längeren Texten sinnvoll einsetzbar.

Fazit: Wie relevant sind WDF*IDF-Analysen (für Texter)?

WDF*IDF-Analysen sind ein Baustein einer On Page-Optimierung für die Suchmaschine. Mehr und mehr setzt sich jedoch die Idee durch, dass wir nicht für die Suchmaschine, sondern für den Leser schreiben sollten. Wer nur den Leser im Blick hat, braucht eigentlich auch keine WDF*IDF-Analyse – und das ist auch die Sichtweise, die ich persönlich bevorzuge.

Im Prinzip ist unser Ziel als Texter, relevanten Content zu erstellen – und zwar

(a) relevanteren als den der Mitstreiter auf den ersten organischen Rankings in Suchmaschinen und

(b) relevanteren als alle anderen überhaupt.

Das kannst Du aber durchaus mit Sinn und Verstand und einer guten Recherche erzielen – und meines Erachtens auch besser als mit einer WDF*IDF-Analyse.

Aber: Wenn Dein Kunde möchte, dass Du mit WDF*IDF arbeitest – warum nicht? Diese Kompetenz erweitert Dein Portfolio und macht Dich für manche Kunden attraktiver!

Newsletter

NEWSLETTER

NEWSLETTER

Abonniere jetzt meine Newsletter und verpasse keine meiner Beiträge mehr

Du hast dich erfolgreich in die Newsletter eingetragen