Die Sterne lügen nicht — sie wiederholen sich aber ständig: Text-Re-use in Horoskopen

Posted on 15th Februar 2016 in Datengeleitete Analysen, n-Gramme, Off Topic, Textklassifikation

Kaum ein großes Online-Medium jenseits des Qualitätsjournalismus kommt ohne Horoskop aus. Und das, obwohl schon Adorno der Astrologie vor mehr als 50 Jahren bescheinigte, dass die sozialen und psychologischen Bedingungen, die sie ermöglichten, mit dem (damaligen) allgemeinen Aufklärungszustand unvereinbar seien.


Astrologie zwischen Rationalität und Irrationalität

Aus Sicht der Astrologie wirken Gestirnkonstellationen unmittelbar auf den irdischen Gang der Dinge. Sie vermittelt damit ein Weltbild, in dem jeder Mensch unter dem Einfluss objektiver, abstrakter und depersonalisierter Kräfte handelt. So objektiv mess- und berechenbar der Lauf der Gestirne auch sein mag, über die Art und Weise ihres (vermeintlichen) Einflusses auf die Schicksale der Menschen lässt die Astrologie uns im Dunkeln. Dieses Nebeneinander von Rationalität, Empirismus und Transzendenz hat Adorno im Oxymoron des naturalistischen Supranaturalismus gefasst. Folgt man Adorno, korrespondiert dieses Weltbild der Wahrnehmung vieler Menschen in funktional hochgradig differenzierten Gesellschaften: die Unübersichtlichkeit der Welt und die Sinnlosigkeit und Berdohlichkeit sozialer Prozesse wird durch den Glauben an eine Instanz kompensiert, die ein Versprechen auf rationale Begründbarkeit des ansonsten Unerklärlichen gibt. Auf diese Weise wirkt die Astrologie in doppelter Hinsicht stabilisierend auf die Gesellschaft, indem sie den herrschenden Rationalitätstyp bestätigt und die Irrationalitäten der sozialen Ordnung erklärbar macht.

Das Horoskop ist ein Text. Dieser Text leitet bestimmte Aspekte des Lebens einer Personengruppe, die über den Zeitpunkt ihrer Geburt definiert ist, aus einer aktuellen Gestirnkonstellation kausal ab; das klingt dann etwa so: „Unter dem aktuellen Jupiter-Uranus-Einfluss wird Ihr scharfer Zwillinge-Geist noch einmal geschärft.“ Je ausführlicher ein Horoskop ist, desto gründlicher wird die Gestirnkonstellation als argumentative Ressource genutzt. In den knappen Pressehoroskopen fällt sie dagegen sogar häufig zugunsten deutungsoffener und deshalb für jeden mit individuellem Sinn füllbarer Aussagen weg.

Sprachliche Analysen wie die von Katja Furthmann haben an Pressehoroskopen eine Reihe von Themen (Liebe, Beruf, Freizeit und Freundschaft, Gesundheit, Finanzen) und wiederkehrenden Topoi, die sich um den Metatopos des erfüllten, ausgeglichenen Lebens gruppieren („Sie haben hohe Ansprüche – gut so. Aber bitte verlangen Sie nichts Unmögliches“, „So schön die Sommerpartys auch sind, Sie sollten mal wieder richtig ausschlafen“), herausgearbeitet.


Reverse Engineering des Transzendenten mittels maschineller Textanalyse?

Wenn Horoskoptexte Übersetzungen von Gestirnkonstellationen in für den Einzelnen anschlussfähige Darstellungen künftigen Erlebens sind, dann müsste in der Analyse sprachlicher Muster von Horoskoptexten und ihrer Distribution die höhere Ordnung, die den Gang unserer aller Leben bestimmt, zumindest aufscheinen — so dachte ich. Vielleicht wäre es sogar möglich wie bei einem Reverse Engineering die Strukturen und Verhaltensweisen der Konstruktionselemente unserer Welt zu extrahieren. Ich machte mich also daran, Horoskope zu sammeln.

Das Sammeln der Horoskope gestaltete sich jedoch schwieriger als gedacht. Denn obwohl jedes größere Online-Medium täglich ein Horoskop veröffentlicht, werden die Horoskoptexte nicht archiviert. Meist ist nur das tagesaktuelle Horoskop verfügbar, selten noch das vom Tag vorher und die Horoskope weiterer Tage. Und fast immer stammen die Horoskope aus derselben Quelle, die mit lizensierten Astrologen, Content nach Maß und flexiblen Push- bzw. Pullservices wirbt.

Endlich wurde ich aber in den Tiefen und Oberflächen des Netzes fündig und konnte gemeinsam mit einem Kollegen für den Zweck der Erforschung von Textmustern 383 Tageshoroskope für jedes der zwölf Sternzeichen extrahieren. Eine simple datengeleitete Analyse gängiger Phrasen zeigte schon, dass die insgesamt 4596 Texte hochgradig rekurrent sind. Das ganze Ausmaß der Text-Re-use wurde mir aber erst deutlich, als ich die längste Überschneidung zwischen zwei Texten (longest common substring) berechnete. Mehrere Horoskoptexte waren völlig deckungsgleich. Und nicht nur das.


Im Himmel nichts Neues

Die 4596 Tageshoroskope wurden mit gerade einmal 894 unterschiedlichen Texten bestückt. Von diesen wurden 568 Texte, das sind 65.5%, mehrfach benutzt. 146 von ihnen sogar zehn mal und mehr. Der am häufigsten gebrauchte Text fand 88 mal Verwendung! Der Text besteht aus zwei Sätzen, die den Angehörigen der Zielgruppe am betreffenden Tag eine außerordentliche Selbstreflexion hinsichtlich ihrer Emotionen und Ziele voraussagt und ihnen auch einen erfüllten Kontakt mit ihren Mitmenschen prophezeit:

Sie sind sich Ihrer Gefühle, Wünsche und Bedürfnisse auf ungewöhnlich klare Weise bewusst und können entsprechend für Ihr Wohlbefinden sorgen. Auch für die Anliegen anderer sind Sie offen und begegnen ihnen mit einer menschlichen und warmen Herzlichkeit.

Positive Emotionen und herzliche Kontaktfreude sind durchweg die Themen der am häufigsten verwendeten Tageshoroskope, auch bei dem mit 72 mal am vierthäufigsten verwendeten Text:

Mehr als üblich sprechen Sie über Ihre Gefühle. Durch das Gespräch finden Sie leicht Kontakt und zeigen vermutlich auch Interesse für das Seelenleben anderer. Sie formulieren Ihre Gedanken nicht besonders sachlich und logisch, dafür umso menschlicher.

Der Traum vom Reverse-Engineering platzte endgültig, als ich die Distribution der Text über die Zeit und die Sternzeichen analysierte. Beim häufigsten Horoskoptext lässt diese Verteilung auf den ersten (und auch nicht auf den zweiten) Blick keine Muster erkennen.



Der Text streut unsystematisch über alle Sternzeichen und den gesamten Zeitraum. Einzige Restriktion: Der Text kann am selben Tag nicht bei zwei Sternzeichen gleichzeitig erscheinen. Dagegen ist es aber durchaus möglich, dass er beim gleichen Sternzeichen an zwei aufeinanderfolgenden Tagen erscheint, ja sogar an drei, wie das Beispiel des dritthäufigsten Textes belegt:



Die Analysen über das gesamte Sample zeigten keine nennenswerte Kovariation, der tiefere Sinn der Textwahl blieb ihnen ebenso verborgen wie die für den Uneingeweihten unsichtbaren Kräfte, die unsere Schicksale steuern.

Mein heutiges Horoskop lautet: „Sag es mit einem Lächeln! heißt Ihr Tagesmotto.“ Ich sei heute mitteilsam und kompromissbereit. Meine freundliche, friedfertige Stimmung werde mit mit vielen Menschen in Kontakt bringen und könne zwischen unterschiedlichen Meinungen vermitteln und eine gemeinsame Basis schaffen. Ein guter Tag, um endlich mal wieder zu bloggen, denke ich mir. Und mein heutiger Horoskoptext kommt in meinem Korpus sogar nur neun mal vor! Das ist gemessen an der sonstigen Wiederverwertungsorgie nachgerade ein individueller Text und wird ganz sicher stimmen. Wie alle Horoskope.


Literatur

Adorno, Theodor: Aberglaube aus zweiter Hand. In: Gesammelte Schriften. Band 8. Frankfurt am Main: Suhrkamp 1997, S. 142-167.

Aphek, Edna, Yishai Tobin: The Semiotics of Fortune Telling. Amsterdam u.a.: Benjamins 1989.

Furthmann, Katja: Die Sterne Lügen nicht. Eine linguistische Analyse der Textsorte Pressehoroskop. Göttingen: V&R unipress 2006.


Gängige Irrtümer bei der maschinellen Autorenidentifikation — Vortrag online

Liebe Freunde der Sicherheit,

bei den diesjährigen Datenspuren des C3D2 in Dresden habe ich einen Vortrag zum Thema „Gibt es einen sprachlichen Fingerabdruck? Gängige Irrtümer bei der maschinellen Autorenidentifikation“ gehalten. Das Video zum Vortrag ist nun online.





Vielen Dank an das Orga-Team für die interessante und perfekt organisierte Tagung!


Geschichte der computergestützten Autorenerkennung am Beispiel der Texte der „militanten gruppe“

Liebe Freunde der Sicherheit,

Die Verfahren, die bei der maschinellen Autorenidentifizierung zum Einsatz kommen, wurden im Verlauf der Geschichte immer mächtiger, analog zur Entwicklung der Rechenleistung von Computern. Die computergestützte Autorenerkennung kann grob in drei Phasen eingeteilt werden.

1. Die Suche nach globalen Konstanten
Ausgehend von der Annahme, dass dem Stil eines Autors etwas Invariantes eignen müsse, waren die ersten Versuche, Autorschaft aufgrund sprachlicher Merkmale zuzuschreiben, von der Suche nach einem Maß geprägt, das die stilistische Einmaligkeit in einem einzigen Wert ausdrückt. Ich habe an anderer Stelle (hier und hier) einige Werte zur Wortschatzkomplexität vorgestellt und getestet, die in der Forschung als Repräsentanten von Ideolekten verstanden wurden.

2. Autorenidentifizierung mittels multivariater Statistik
Während die Klassifikation mittels einer autorspezifischen Konstanten ein univariates Verfahren ist, wurde ab den 1960er Jahren damit begonnen, mehrere Merkmale von Texten zur Identifizierung von Autorschaft heranzuziehen. Das grundlegende Verfahren dabei ist, einzelne Dokumente als Punkte in einem mehrdimensionalen Raum aufzufassen. Der wahrscheinliche Autor eines in Frage stehenden Textes ist dann jener, dessen Texte die größte Nähe zum Punkt des anonymen Textes im multidimensionalen Raum haben.

3. Klassifikation mittels maschinellen Lernens
Bei der Autorenidentifikation wird seit den 1990er Jahren mit überwachtem maschinellen Lernen gearbeitet. Ziel des maschinellen Lernens ist es, einen Klassifikator zu finden, der ein Set an Texten möglichst gut in Klassen einteilt, um danach zu prüfen, welcher Klasse der Klassifikator den anonymen Text zuordnen würde. Hierfür werden Merkmale von Trainingstexten, also von Texten, von denen die Autoren bekannt sind, als numerische Vektoren abgebildet. Mit Methoden maschinellen Lernens sucht man dann im Vektorraum nach Klassengrenzen, die eine Klassifikation mit möglichst wenigen Fehlern ermöglicht.

Im Folgenden möchte ich die verschiedenen Verfahren anhand diverser linguistischer Merkmale illustrieren, vor allem mit dem Ziel, einen kritischen Blick darauf zu ermöglichen, was eigentlich gemessen wird, wenn Autorenidentifikation betrieben wird. Zur Illustration wähle ich einen fünf Jahre zurückliegenden Fall, bei dem das BKA linguistisches Profiling betrieb.


Der „Fall“

Am 31. Juli 2007 brannten in Brandenburg / Havel mehrere Fahrzeuge der Bundeswehr. Drei mutmaßliche Täter wurden bei der Ausführung des Brandanschlags verhaftet. Am 1. August 2007 stürmte ein Sondereinsatzkommando auch die Wohnung des Soziologen Andrej Holm. Ihm wird vorgeworfen, Mitglied der „militanten gruppe“, einer damals als terroristisch eingestuften linksradikalen Gruppierung zu sein, die auch für die Brandanschläge in Brandenburg verantwortlich war. Die Polizei hielt ihn für den intellektuellen Kopf der Gruppe und den Verfasser der zahlreichen Bekennerschreiben und Diskussionspapiere, die die militante Gruppe veröffentlicht hatte. Die militante gruppe wird für 25 Brandanschläge, vornehmlich auf Fahrzeuge von Polizei und Bundeswehr, aber auch auf Sozial- und Arbeitsämter in den Jahren 2001-2007 verantwortlich gemacht. Sie gab 2009 ihre Selbstauflösung bekannt. Sie wird nicht mehr als terroristische, sondern als linksradikale kriminelle Vereinigung angesehen.

Andrej Holm hatte sich in den Augen der Polizei dadurch verdächtig gemacht, dass seine wissenschaftlichen Arbeiten in sprachlicher Hinsicht Ähnlichkeiten mit den Bekennerschreiben der Gruppe hatten: die Polizei stellte fest, dass Lemmata wie „Gentrifizierung“ und „Prekarisierung“ in den Texten Holms und der mg signifikant häufig vorkamen. Die Polizei hatte gegooglet, berichteten die Medien. Immerhin auch ein computergestütztes Verfahren. Da Verfassungsschutzbehörden sicherlich auch in den Fall involviert waren, kann jedoch auch gemutmaßt werden, dass andere, evtl. auch komplexere Verfahren der maschinellen Autorenidentifizierung zum Einsatz kamen, auch wenn diese im Ermittlungsverfahren gegen Andrej Holm keine weitere Rolle spielen konnten.


Die „Verdächtigen“

Aus Sicht der forensischen Linguistik soll nun der Fall neu aufgerollt werden. Um es gleich zu Beginn zu sagen: Das hier ist kein ernst zu nehmendes linguistisch-forensisches Gutachten und die Ergebnisse sind in keiner Weise dazu geeignet, Verdächtige zu überführen. Das zeigt auch schon die Liste jener, die ich „verdächtige“, Autoren der mg-Texte zu sein, die mithin mit Texten in meinen Trainingsdaten vertreten sind.

Zunächst folge ich unseren Strafverfolgungsbehörden und nehme zwei Korpora des vom BKA Verdächtigten Andrej Holm:

  • gentrification blog, Blog von Andrej Holm: 491 Posts, 304.406 laufende Wortformen, 2008-2012
  • gentrification Theorie, wissenschaftliche Aufsätze von Andrej Holm: 5 Aufsätze, 40.853 laufende Wortformen, 2004-2012.

Wenn Terrorverdacht im Raum steht, dürfen natürlich auch Ermittlungen in islamistischen Kreisen nicht fehlen:

  • Ich nehme zwei Korpora mit allen Forenbeiträgen der Autoren aus einem salafistischen Forum (derW****, 570.016 / Muu****, 268.165), die sich irgendwann einmal zur Situation auf dem Wohnungsmarkt geäußert haben, und
  • das Blog der Islambruderschaft Deutschland, 129.965 laufende Wortformen

Auch muss man aufpassen, sich nicht dem Vorwurf auszusetzen, auf dem rechten Auge blind zu sein:

  • Ich nehme zwei Autorenkorpora aus dem inzwischen geschlossenen NPD-Forum Gernot (88.161), Spinne (147.144) und
  • Michael Kühnens „Schriften“, 111.873 laufende Wortformen.

Zudem will ich überprüfen, ob nicht Alt-RAFler oder andere ehemalige Linksterroristen als militante Gruppe wieder aktiv sind. Daher nehme ich:

  • die Texte der Revolutionären Zellen (203.492) und
  • die Texte der Roten Armee Fraktion (195.939).

Ich nehme auch noch zwei Diskutanden aus dem Diskussionsforum eines globalisierungskritischen Netzwerks hinzu, weil Globalisierungskritiker nunmal verdächtig sind:

  • bur*** (102.955 laufende Wortformen), Pom*** (21.241 laufende Wortformen), 2007-2009.

Hinzu kommen noch zwei Autoren, die sich durch ihre publizistisches Wirken verdächtig gemacht haben:

  • Fefe, wegen Verbreitung von Verschwörungstheorien in seinem Blog: 24.239 Posts, 1.928.027 laufende Wortformen, 2005-2012
  • Franz Josef Wagner mit seiner Kolumne „Post von Wagner“, die von manchem als schwer staatsgefährdend empfunden wird: 1.390 „Briefe“, 233.008 laufende Wortformen, 2006-2012.

Später kommen dann noch die Texte der militanten gruppe dazu:

  • 15 Anschlagserklärungen (27.828)
  • 4 mg express (7.679)
  • 14 Texte zur Militanzdebatte (50.078)
  • 8 thematische Beiträge (90.328)

Die Suche nach globalen Konstanten ist so wenig zeitgemäß, dass ich hier auf die älteren Blogbeiträge verweise. Weil sich die Ergebnisse so gut veranschaulichen lassen, illustriere ich das Vorgehen bei der Autorenidentifizierung mittels multivariater Statistik anhand der Clusteranalyse.


Textclustering

Die Clusteranalyse ist ein strukturentdeckendes Verfahren der multivariaten Statistik. Sie entdeckt Gruppen von „ähnlichen“ Objekten. In unserem Fall sind die Objekte Texte, die aufgrund ihrer Ähnlichkeit bzw. Unähnlichkeit im Hinblick auf linguistische Merkmale gruppiert werden. Natürlich ist es von entscheidender Bedeutung, anhand welcher linguistischer Merkmale ich die Gruppierung vornehmen. Die folgenden drei Analysen zeigen eindrucksvoll, wie unterschiedlich die Ergebnisse bei je unterschiedlichen linguistischen Kategorien sind. Der Übersichtlichkeit halber habe ich mit den Gesamtkorpora gerechnet.

Sicherheitsinformatiker halten Funktionswörter für besonders gute linguistische Kategorien, weil sie glauben, dass sie unbewusst verwendet werden und daher auch nicht manipuliert werden können. Führt man eine Clusteranalyse anhand der Distribution von Funktionswörtern (z.B. Artikel, Präpositionen, Konjunktionen) durch, dann erhält man folgendes, eher unklare Bild:



Dendrogramm Funktionswörter



Die Texte Andrej Holms und der militanten Gruppe sind jeweils gelb gekennzeichnet, jedoch durch verschiedene Schriftfarben von einander abgesetzt. Eine Autorschaft Andrej Holms kann auf der Basis dieser Daten nicht abgeleitet werden — im Gegenteil. Zusammen mit anderen eher weltanschaulich-theorielastigen Texten (RZ, RAF, Islambruderschaft, Kühnen) bilden die Textkorpora der militanten Gruppe ein eigenes Cluster. Offenbar fungiert hier die Textsorte als Hintergrundvariable. Dass Fefe sich in der Nachbarschaft von Franz Josef Wagner befindet, ist ein interessantes Detail.

Führt man eine Clusteranalyse anhand der Distribution von Inhaltswörtern durch, kommt man zu einer anderen Gruppierung der Texte.



Dendrogramm Inhaltswörter



Die Texte zur Rechtfertigung linker Gewalt (RAF, RZ, mg) bilden ein Cluster. Auch Andrej Holms wissenschaftliche Texte und Blogbeiträge lassen sich zusammen als eigene Gruppe interpretieren, die aber einen großen Abstand zum Cluster der mg-Texte aufweist. Obwohl also bestimmte Inhaltswörter das BKA dazu verleitet haben, Andrej Holm zu verdächtigen, ergibt die Analyse von Inhaltswörtern, dass auf ihrer Basis eine Autorschaft kaum wahrscheinlich ist. Ansonsten zeigt das Dendrogramm, das Inhaltswörter sich nur leidlich gut für die Identifizierung inhaltlicher Gemeinsamkeiten eignen. Zwar liegen die Texte von Islambruderschaft und Salafisten in einem Cluster, allerdings befindet sich dort auch Franz Josef Wagner. Auch irritiert die Nachbarschaft, in der sich Fefe befindet.

Ein weitere Kategorie, mittels derer man Texte in interessanter Weise gruppieren kann, sind komplexe n-Gramme; vgl. hierzu einen älteren Beitrag.



Dendrogramm komplexe n-Gramme



Die Ananlyse zeigt hier zwar, dass die Texte Andrej Holms zusammen mit den Texten der militanten Gruppe ein Cluster bilden, allerdings ist auch hier offensichtlich, dass Texte, die entweder wissenschaftlich argumentieren oder sich stilistisch den Anschein von Wissenschaftlichkeit (Kühnen, RAF, RZ) geben wollen, gemeinsam gruppiert wurden. Es ist damit relativ offensichtlich, dass wir hier nicht Autorschaft messen, sondern Stilkonventionen oder Textsorten.


Maschinelles Lernen

Beim maschinellen Lernen sind die oben beschriebenen Korpora die Trainingsdaten, mit deren Hilfe ein Klassifikator berechnet wird. Der Klassifikator kann dann dazu benutzt werden, die anonymen Texte einer Klasse zuzuweisen. Bei der Autorenidentifizierung mittles maschinellem Lernen benutzt man üblicherweise eine große Vielzahl an linguistischen Merkmalen. Ich habe mich auf folgende beschränkt:

  • relative Frequenz intensivierende Partikel (Gradpartikel)
  • durchschnittliche Satzlänge
  • Wortschatzkomplexitätsmaß Yule‘s K
  • relative Frequenz Passiv-Konstruktionen
  • relative Frequenz Konjunktiv I
  • relative Frequenz Konjunktiv II
  • relative Frequenz von Partizipialkonstruktionen
  • relative Frequenz von Präpositionalgruppenclustern
  • Schwierigkeit der Präpositionalgruppencluster (durchschnittliche Häufigkeitsklasse (Quelle: DeReKo) der in Präpositionalgruppenclustern auftretenden Präpositionen)

Anders als bei den Untersuchungen vorher wurde nicht mit Gesamtkorpora gerechnet. Zum Trainieren des Klassifikators wurden alle Einzeltexte benutzt, die mindestens 800 laufende Wortformen haben.

Um zu illustrieren, wie so ein Klassifikator aussehen kann, habe ich das Entscheidungsbaumverfahren benutzt. Beim Entscheidungsbaumverfahren wird eine Datensatz Schritt für Schritt in Unterklassen geteilt.



Aus den Trainingsdaten abgeleiteter Entscheidungsbaum



Im obigen Graph kodiert jeder Pfad vom Wurzelknoten zu einem Blatt eine Entscheidungsregel. Berechnet man nun die linguistischen Merkmale der anonymen Texte, in unserem Fall der Texte der militanten Gruppe, dann können diese mit Hilfe der Entscheidungsregeln einem Autor zugewiesen werden.

Von den 41 Texten der militanten Gruppe werden mittels dieses Klassifikators 13 den Revolutionären Zellen zugeschrieben, 4 einem Diskutanden aus einem Forum, einen Beitrag zur Militanzdebatte soll Fefe verfasst haben, und 23 Texte der militanten Gruppe werden als den Blogbeiträgen von Andrej Holm am ähnlichsten klassifiziert. Dabei ist es bei den allermeisten Blogbeiträgen nur eine Kombination zweier Merkmale, die für die Klassifikation als Holm-Text verantwortlich sind: eine geringe Anzahl von Konjunktiv-II-Formen und ein relativ hoher Anteil Partizipialkonstruktionen. Ich habe die betreffende Entscheidungsregel in der folgenden Abbildung farblich markiert.



Entscheidungsbaum mit markierter Entscheidungsregel



Der Konjunktiv II ist eine grammatische Form, die häufig zum Ausdruck von Höflichkeit benutzt wird oder der Formulierung von Irrealem (etwa in irrealen Konditionalsätzen) dient. Es ist daher nicht falsch anzunehmen, dass es Zusammenhänge zwischen dem Inhalt des Gesagten und der Frequenz von Konjunktiv-II-Formen gibt. Partizipialkonstruktionen sind hingegen typische Merkmale eines Nominalstils, die in einem Wissenschaftler-Blog durchaus erwartbar sind, auch in meinem.

Messen wir hier also tatsächlich einen Individualstil? Oder nicht doch eher inhaltliche und kommunikationsbereichsspezifische Merkmale? Und wenn wir nicht genau wissen, ob unsere Messinstrumente valide sind, wie verhält es sich dann eigentlich mit der prognostischen Güte unseres Modells? Die Frage ist natürlich eine rhetorische, denn wenn die Merkmale nicht valide sind, dann ist der Klassifikator zwar gut genug, um die Trainingsdaten zu klassifizieren, aber er hat keinerlei prognostischen Wert.

Die Analyse zeigt, wie sehr die maschinelle Autorenidentifikation davon abhängig ist, anhand welcher linguistischer Merkmale wir die Klassifikation vornehmen und ob diese Merkmale tatsächlich als Repräsentanten eines Individualstils gelten können. Die Bedeutung kommunikationsbereichs-, textsortenspezifischer und inhaltlicher Faktoren ist bislang von der Forschung noch nicht annähernd hinreichend gewürdigt. Die Gefahr fälschlicherweise in Verdacht zu geraten, ist daher groß.


Autorenidentifizierung: Grundkonstellation und Variationen

Posted on 22nd Januar 2012 in authorship identification, Textklassifikation

Liebe Freunde der Sicherheit,

solange es noch keine Klarnamenpflicht im Internet gibt und noch keine wirksamen Mittel, sie durchzusetzen, ist die Autorenidentifizierung eines der Kerngeschäfte von Sicherheitsinformatikern.

Die Grundkonstellation bei der Autorenidentifizierung sieht wie folgt aus: Zu einem anonymen Text wird ein Autor gesucht. Es gibt eine begrenzte Anzahl möglicher Autoren, von denen jeweils ein Korpus von Texten existiert. Dieses Problem ist im Kern ein Kategorisierungsproblem: Wir müssen die Texte, bei denen die Autoren bekannt sind, anhand ihrer Merkmale in Klassen einteilen und dann untersuchen, in welche Klasse der anonyme Text aufgrund seiner spezifischen Merkmale einteilen würden. Dokumente werden hierfür als numerische Vektoren dargestellt, die die Ausprägung möglicher relevanter Merkmale dieser Texte abbilden. Dann wendet man Methoden des maschinellen Lernens an, um Klassifikatoren zu finden, die die Texte, die zu unterschiedlichen Klassen gehören, voneinander unterscheiden.

Es gibt aber auch eine Reihe von Problemen, die sich nicht mit den Standardverfahren maschinellen Lernens lösen lassen und bei denen die Autorenidentifikation noch nicht so erfolgreich ist:

  1. Das Verifikationsproblem: Es gibt kein geschlossenes Set an Kandidaten, aber einen Verdächtigen. Ziel ist es, Kriterien dafür zu finden, ob der Verdächtige der Autor ist oder nicht. Im Prinzip handelt es sich hier um ein Klassifikationsproblem mit nur einer Klasse – unschön!
  2. Das Nadel-im-Heuhaufen-Problem: Es gibt eine große Anzhal von Kandiadten von denen nur kleine Trainingskorpora zur Verfügung stehen. Wegen der großen Anzahl Kandidaten (und damit Klassen) können hier (noch) keine Lern-Modelle eingesetzt werden.
  3. Das Profiling-Problem: Es gibt keine Trainingskorpora, anhand derer wir Kandidatenprofile errechnen können; Ziel ist dann, möglichst viel über die Eigenschaften des Autors herauszufinden. Insbesondere Geschlecht, Muttersprache und Alter, aber auch charakterliche Grundeigenschaften sind Gegenstand der Analysen.

Dennoch ist die Klassifikation mittels Methoden maschinellen Lernens eine zentrale Technik bei der Autorenidentifizierung, aber auch in anderen Bereichen. Diese Methoden sollen im Blog nach und nach vorgestellt werden.


Linguistische Differenzialanalyse und Autorenidentifikation

Liebe Freunde der Sicherheit,

eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.

Linguistische Differenzialanalyse

Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:

„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)

Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.

Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.

Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode

Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.

Hierfür habe ich dreierlei benötigt:

  1. Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.

  2. eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.

  3. einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.

Ergebnisse: gerne | mit Freude | gern | mit Vergnügen

Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.

Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:


Standardabweichung Varianten
0.396034689707957 gerne | mit Freude | gern | mit Vergnügen
0.384572324926231 Glaube | Bekenntnis | Konfession | Denomination
0.383741494895807 kriminell | verbrecherisch | auf der schiefen Bahn | delinquent | straffällig
0.381850019132707 gütlich | friedlich | geruhsam | gewaltfrei | sanft | gütig | friedfertig | ohne Gewalt | verträglich | amikal | gewaltlos | herzensgut | friedliebend
0.380304172683078 passen | zurückstellen | aufschieben | aussetzen | verschieben | vertagen | intermittieren
0.378560699614743 weg | Fern | fern
0.372789498557065 Information | Schalter | Auskunftsschalter | Auskunft
0.371710005433523 Realität | Praxis
0.371674963099053 rechnen | rentieren | auszahlen | amortisieren | lohnenswert | lohnen | Früchte tragen | bezahlt machen
0.36944693958052 betreiben | nachgehen | ausüben
0.36617435642474 Raum | Kosmos | Weltraum | Weltall | Universum | Sphäre | All
0.363908308274997 billig | kostengünstig | kosteneffektiv | preiswert | wohlfeil | kostenwirksam | preisgünstig | günstig | spottbillig
0.363872962376017 heraus | hervor
0.362606570091546 Vater | Erzeuger | Daddy | Vati | Senior | der Alte | Papi | Kindsvater | Paps | alter Herr | leiblicher Vater | Dad | Papa | Pa
0.362155688620303 verurteilen | verdonnern | bestrafen | für schuldig erklären | aburteilen | schuldig sprechen | mit Strafe belegen | Strafe verhängen
0.361149279496628 verantwortlich | zuständig
0.360881847188603 passen | geeignet
0.360877848087947 drücken | knautschen | pressen | zwängen | pferchen | stopfen | quetschen | pfropfen | proppen
0.36060656555393 Entwicklung | Änderung | Tapetenwechsel | Dynamik | Veränderung
0.360040253521303 vergessen | übersehen | verschwitzen | verschlafen | verfehlen | verpassen | versäumen | verpennen
0.359950475146227 anschließen | beitreten | Mitglied werden
0.359570245588916 richten | urteilen
0.358943241670499 aktiv | umtriebig | engagiert | unter Strom stehend | rege | betriebsam
0.35883310781789 unbedingt | mit aller Macht | ganz und gar | auf Gedeih und Verderb | bedingungslos | auf Biegen und Brechen | um jeden Preis | rückhaltlos | mit aller Gewalt | auf Teufel komm raus | ohne Rücksicht auf Verluste
0.357590418501272 Öffentlichkeit | Allgemeinheit | Gemeinwesen
0.357565689315277 überlegen | dominierend | tonangebend | am stärksten ausgeprägt | übermächtig | führend | herrschend | beherrschend | am ausgeprägtesten | dominant
0.357282147746873 Stelle | Ortsangabe | Position | Lokalität | Örtlichkeit | Lokalisation
0.357222116951858 aufnehmen | einwerfen | reinziehen | konsumieren | reinzischen | schlucken | einnehmen | ingestieren | reinpfeifen | zu sich nehmen
0.356676679221292 Schule | Lager | Strömung
0.356337633441186 Reihe | Anzahl
0.355919880776704 kaufen | ankaufen | erwerben | aufkaufen | erkaufen | erstehen
0.355352816416153 sammeln | regenerieren | wiederherstellen | neu erstellen | erholen | berappeln
0.355209713591625 Kommentar | Notiz | Anmerkung
0.354982488402154 hart | grausam | empfindungslos | hartherzig | kalt | kaltherzig | eisig
0.354591844205998 langsam | nach und nach | gemütlich | allmählich | geruhsam | gemach | ruhig | gemächlich
0.354328900327031 Wert | Rang | Bedeutung | Wichtigkeit | Geltung | Einfluss
0.354060472670956 merken | realisieren | registrieren | perzipieren | zur Kenntnis nehmen | wahrnehmen | mitbekommen
0.353578904341922 Pflicht | Agenda | Obliegenheit | Schuldigkeit | Verbindlichkeit | Verpflichtung
0.353533447923133 stimmen | aussprechen | plädieren
0.353483316676806 Zahl | Wert
0.35347391485945 Gewalt | Heftigkeit | Schwung | Wucht | Vehemenz | Kraft | Ungestüm | Schmackes | Karacho
0.352956200168923 schützen | beschützen | sichern
0.352517940599203 herrschen | regieren
0.35232461896263 Studie | Analyse
0.352296794150891 gestalten | einrichten
0.352192163220551 verantwortlich | verantworten | den Hut aufhaben | verantwortlich zeichnen | Verantwortung tragen
0.352048952616805 Zustimmung | Zuspruch | Beipflichtung | Bestätigung | Bejahung | Affirmation | Bekräftigung | Zusagung
0.351173408423386 beantragen | vorschlagen


Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.

Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…


Literatur:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

 

 

comments: Kommentare deaktiviert für Linguistische Differenzialanalyse und Autorenidentifikation tags: , , , , , , , , ,

Textklassifikation und Autorenidentifikation mit Hilfe komplexer n-Gramm-Analyse

Heute möchte ich eine Methode zur Klassifikation von Texten vorstellen, in der sprachliche Einheiten nicht isoliert betrachtet werden, sondern jeweils kleine Fetzen sprachlichen Materials analysiert werden. Je größer die analysierten Fetzen sind, desto eher kann man natürlich davon ausgehen, dass sie irgendwelche relevanten Informationen transportieren: Ein Satz enthält mehr Informationen als zwei Wörter. Je größer allerdings die Einheiten sind, desto unwahrscheinlicher ist es, dass sie in der gleichen Form wieder auftreten. Das ist wiederum problematisch, weil man bei der Analyse ja nach wiederkehrenden Mustern sucht und je größer die Einheiten sind, desto mehr Text braucht man, damit man wiederkehrende Muster in aussagekräftiger Zahl bekommt. Alles eine Frage der Skalierung also. Die im Folgenden beschriebene und erprobte Methode könnte man als komplexe n-Gramm-Analyse bezeichnen.

komplexe n-Gramme

n-Gramme sind Einheiten, die aus n Elementen bestehen. Normalerweise werden n-Gramme als Folge von Wortformen verstanden. Im Rahmen einer n-Gramm-Analyse werden alle im Korpus vorkommenden n-Gramme berechnet, wobei bestimmte Parameter wie Länge der Mehrworteinheit (aus zwei, drei oder mehr Wörtern bestehend) oder Spannweite (sind Lücken zwischen den Wörtern erlaubt?) festgelegt werden. Die hier verwendete n-Gramm-Analyse betrachtet jedoch nicht nur Wortformen als Einheiten, sondern auch weitere interpretative linguistische Kategorien. Dies können zum einen Elemente sein, die sich auf die Tokenebene beziehen und die Wortform funktional oder semantisch deuten (als Repräsentant einer Wortart oder als Teil einer semantischen Klasse). Zum anderen aber auch Elemente, die über die Tokenebene hinausgreifen, etwa das Tempus oder die Modalität einer Äußerung (direkte vs. indirekte Rede).

Kombinationen von n Einheiten

Welche Elemente in die Analyse mit einbezogen werden, hängt einerseits von der jeweiligen Forschungsfrage ab, andererseits forschungspraktisch auch davon, welche Ressourcen für die Annotation des Korpus zur Verfügung stehen. Bei standardsprachlichen Korpora können Lemma- und Wortarteninformationen durch Tagger wie dem TreeTagger leicht und effizient annotiert werden. Eine Wortformenfolge wie „Ich glaube, dass“ hat dann in einem XML-annotierten Korpus etwa folgende Form:

<w pos=“PPER“ lemma=“ich“>Ich</w>
<w pos=“VVFIN“ lemma=“glauben“>glaube</w>
<w pos=“$,“ lemma=“,“>,</w>
<w pos=“KOUS“ lemma=“dass“>dass</w>

Berechnet man nun beispielsweise Tetragramme, die nicht nur die Wortformen, sondern auch Lemmata und Wortarteninformationen als weitere Elemente mit einzubeziehen, dann ergeben sich bei drei Dimensionen 3^4=81 Vier-Einheiten-Kombinationsmöglichkeiten:

Ich glaube , dass
ICH GLAUBEN , DASS
PPER glaube , dass
PPER GLAUBEN, dass
Ich VVFIN , dass
Ich glaube , KOUS
PPER VVFIN , dass

Jedes der Tetragramme, das sich in einem der beiden Korpora findet, kann nun als eine Variable aufgefasst werden, aufgrund deren Verteilung sich die Texte im Korpus potenziell stilistisch unterscheiden.

Das GerMov-Korpus

Die folgenden Untersuchungen werden anhand des GerMov-Korpus, einem Korpus zur gesprochenen und geschriebenen Sprache der 68er-Bewegung durchgeführt. Das Korpus habe ich im Rahmen einer umfangreichen Studie zum Einfluss von 68er-Bewegung und Alternativmilieu auf die Kommunikationsgeschichte der Bundesrepublik Deutschland erstellt. Bei der Zusammenstellung des Korpus und seiner Subkorpora waren zunächst außersprachliche Gesichtspunkte, in einem zweiten Schritt textlinguistische Überlegungen leitend. Das Korpus sollte es u. a. erlauben, unterschiedliche Stile der verbalen face-to-face-Interaktion innerhalb der 68er-Bewegung zu rekonstruieren. Dabei wurde ausgehend von der Forschung zum Kleidungsverhalten  und zur medialen Vermittlung expressiver Formen des Protests  von einer lebensstilistischen Dualität innerhalb der Bewegung ausgegangen, die ihre Wurzeln auch in konkurrierenden Ideologien hatte.

Sozialstilistik der 68er-Bewegung

Auf der einen Seite standen die Träger eines intellektuell-avantgardistischen Stils. Bei ihnen handelte es sich um Angehörige unterschiedlicher sozialer Gruppen, die während der 68er-Bewegung aber intensiv kooperierten: zum einen die Studierenden, vornehmlich solche, die in linken Studentenverbänden organisiert waren, zum anderen Linksintellektuelle, die in Politik, Universität, Verwaltung oder im kulturellen Sektor bereits Karriere gemacht hatten, die sich beispielsweise in Republikanischen Clubs zusammenfanden. Sie pflegten einen auf symbolische Distinktion zunächst weitgehend verzichtenden Lebensstil, trugen Anzug oder Freizeitkleidung (Hemd und Pullovern, Jacket und Cordhose) und praktizierten Lebensformen wie andere Menschen ihrer Berufsgruppen. Nur in einem Bereich legten sie Wert auf Unterscheidung: Sie inszenierten sich als intellektuelle Informations- und Diskussionselite.

Auf der anderen Seite standen die Träger eines hedonistischen Selbstverwirklichungsstils, der in Kommunen und Subkulturen geprägt wurde. Sie entdeckten den eigenen Körper als zentrales Medium des expressiven Protestes, griffen – ähnlich den amerikanischen Hippies – tief in den Fundus von Kostümverleihen und Second-Hand-Läden, spielten mit Nacktheit und Schmuck, ließen sich Bärte und Haare wachsen und praktizierten eine ostentativ informelle Körpersprache. Sie verschmolzen antibürgerliche symbolische Formen mit denen jugendlicher Populärkultur zu einem sich als individualistisch verstehenden, lustbetonten Lebensstil: Die Revolution sollte bei jedem Einzelnen beginnen und vor allem Spaß machen. Während die intellektuellen Avantgarden das Ziel der 68er-Bewegung in einer Umwälzung der Besitz- und Produktionsverhältnisse sahen, begriffen die hedonistischen Kommunarden also die Bewegung als Chance für die Entwicklung und Praktizierung neuer Lebensformen, die eine gesellschaftliche Veränderung zwangsläufig mit sich bringen würde.

Zusammensetzung des Korpus

Die Kriterien der Milieuzugehörigkeit der Textproduzenten, der Medialität / Textsorte und der Kommunikationssituation setzte der Textauswahl sehr enge Grenzen. Die einzige Textsorte, für die hinsichtlich aller Kriterien eine hinreichende Menge an Texten gefunden werden konnte, waren Tonbandprotokolle. Insgesamt konnten 29 Tonbandprotokolle aus den Jahren 1967 bis 1969 in Archiven und zeitgenössischen Buch- und Zeitschriftenpublikationen gefunden werden, davon stammen 21 aus dem hedonistischen Selbstverwirklichungsmilieu, 8 aus dem linksintellektuellen Milieu. Die Zuordnung erfolgte beim linksintellektuellen Milieu anhand der identifizierbaren Gesprächsteilnehmer und deren Zugehörigkeit zu politischen Gruppen, die jeweils den Milieus eindeutig zuzuordnen waren. Die Protokolle aus dem Kommunemilieu waren ausnahmslos als solche betitelt und wurden in szenetypischen Kontexten publiziert, was auch hier eine zweifelsfreie Zuordnung ermöglichte.

Das GerMov-Korpus wurde mit Hilfe des TreeTaggers tokenisiert, mit Wortarten-Informationen annotiert und lemmatisiert. Beim verwendeten Tagset handelt es sich um das Stuttgart-Tübingen-Tagset (STTS).  Darüber hinaus wurden einige Kategorien auf der Token-Ebene wie Kommunikationsverben, Intensivierer und Schlagwörter der Neuen Linken annotiert.

Textclustering mittels komplexer n-Gramme

Berechnungsparameter: Berechnet wurden komplexe Pentagramme ohne Leerstellen, die aus den Dimensionen Wortarteninformation (einschließlich semantischer Klassen) und Wortformen zusammengesetzt wurden, wobei auf der Dimension Wortform nur Funktionswörter und Satzzeichen in die Analyse einbezogen wurden. Auf die Dimension Lemma wurde gänzlich verzichtet. Die Pentagramme wurden über Satzgrenzen hinaus berechnet. Es wurden nur solche n-Gramme in die Analyse aufgenommen, die im Gesamtkorpus mindestens vier Mal auftraten. Um den Einfluss der Textlängendifferenz zu reduzieren, wurden für die hierarchische Clusteranalyse nach dem Ward-Verfahren die Frequenzen der n-Gramme nach der Textlänge gewichtet.

Nun aber zu den Ergebnissen der Clusteranalyse: Im folgenden Dendrogramm sind die Namen der Texte so gewählt, dass die anhand außersprachlicher Kriterien erfolgte Milieuzuteilung ersichtlich ist. „Linksintellektuell“ steht für das linksintellektuell-avantgardistische Milieu, „Hedonistisch“ für das hedonistische Selbstverwirklichungsmilieu. Die Ziffer im Anschluss an die Milieubezeichnung ist lediglich eine Identifizierungsnummer. Fünf der 21 Protokolle aus dem hedonistischen Selbstverwirklichungsmilieu stammen aus einer einzigen Kommue, der sog. Linkseckkommune. Sie wurden zusätzlich mit einem „l“ nach der ID gekennzeichnet.

Dendrogramm des Textclusterings anhand komplexer n-Gramme von Tonbandprotokollen der 68er-Bewegung

Dendrogramm des Textclusterings anhand komplexer n-Gramme von Tonbandprotokollen der 68er-Bewegung

Die Clusteranalyse zeigt, dass die Protokolle aus dem linksintellektuellen Milieu ein Cluster bilden, das sich deutlich von den Protokollen des hedonistischen Selbstverwirklichungsmilieus unterscheidet. Innerhalb der Protokolle des hedonistischen Selbstverwirklichungsmilieus bilden die fünf Protokolle aus der Linkeckkommune wiederum ein eigenes Cluster. Die größte Differenz jedoch besteht zwischen Protokoll 14 aus dem hedonistischen Selbstverwirklichungsmilieu und allen anderen Protokollen. Wie ist dieser Unterschied zu erklären? Offensichtlich werden hier Effekte der Textlänge sichtbar. Das Protokoll Nummer 14 ist mit einer Länge von gerade einmal 71 Wörtern das kürzeste und enthält damit offenbar nicht hinreichend viel Text, um aus ihm eine für stilistische Analysen hinreichend große Menge an n-Grammen zu bilden. Die Gewichtung der Frequenz der auftretenden n-Gramme nach der Textlänge dürfte den Effekt noch verstärkt haben.

Geht man von der Annahme aus, dass den sozialstilistischen Unterschieden, auf deren Basis die Zuweisung der Texte zu Milieus erfolgte, auch kommunikationsstilistische Unterschiede korrespondieren, so deuten die Ergebnisse darauf hin, dass das gewählte Verfahren dazu ziemlich gut geeignet ist, stilistische Unterschiede aufzudecken.

Man muss aber der Ehrlichkeit halber hinzufügen, dass die stilistischen Unterschiede in den Texten wirklich sehr ausgeprägt sind und auch bei einer einigermaßen aufmerksamen Lektüre hätten auffallen müssen. Wirklich überrascht war ich allerdings davon, dass sich alle Protokolle der Linkeckkommune tatsächlich in einem Cluster wiederfanden.


Ausführlich nachlesen kann man das Ganze übrigens hier:

Scharloth, Joachim / Noah Bubenhofer (2011): Datengeleitete Korpuspragmatik: Korpusvergleich als Methode der Stilanalyse. In: Ekkehard Felder / Marcus Müller / Friedemann Vogel (Hrsg.): Korpuspragmatik. Thematische Korpora als Basis diskurslinguistischer Analysen von Texten und Gesprächen. Berlin, New York: de Gruyter.

Scharloth, Joachim / Noah Bubenhofer / Klaus Rothenhäusler (2011): „Anders schreiben“ aus korpuslinguistischer Perspektive: Datengeleitete Zugänge zum Stil. In: Britt Marie Schuster / Doris Tophinke: Anders schreiben. Berlin: Erich Schmidt Verlag.




comments: Kommentare deaktiviert für Textklassifikation und Autorenidentifikation mit Hilfe komplexer n-Gramm-Analyse tags: , , , , , ,

Wortschatz-Komplexitätsmaße im Test

Hier mal eine kleine Illustration, welche Ergebnisse die Wortschatz-Komplexitätsmaße für die Klassifikation von Texten liefern. Als Beispielkorpus habe ich die Texte der militanten gruppe gewählt, weil deren Texte vom BKA schon einmal einer forensischen Analyse unterzogen wurden: einer Analyse im Hinblick auf die Ähnlichkeit mit den Texten eines Soziologen, den man verdächtigte Mitglied der Gruppe zu sein. Dabei sollen Inhaltswörter das Hauptkriterium gewesen sein, wollen uns der Spiegel und andere Medien glauben machen. Die Analyse wurde zu einem jener Indizen, mit denen Überwachung, Festnahme und U-Haft des Soziologen gerechtfertigt wurden. Die folgenden Proberechnungen sind keine ernst zu nehmenden forensischen Analysen, die irgend etwas über die Autoren der Texte der mg aussagen. Sie sollen vielmehr zeigen, wie problematisch der Umgang mit Wortschatz-Komplexitätsmaßen ist. Ich halte es daher auch für unproblematisch, sie zu veröffentlichen.

  • Eine Übersicht über die Texte der mg findet sich in der Tabelle am Ende dieses Blog-Eintrags.
  • Die Texte der militanten gruppe gibt es übrigens unter http://www.semtracks.com/cosmov/ als Korpus für sprachlich-sozialwissenschaftliche Analysen.

Die Analyse erfolgte in zwei Schritten: Zuerst wurden für jeden der 52 Texte die Werte Yule’s K, Sichel’s S, Brunet’s W und Honoré’s R berechnet; im Anschluss wurden die Texte auf der Basis der Werte mittels einer hierarchischen Clusteranalyse gruppiert. Die Ergebnisse in Kürze:

  1. Die Dendrogramme unterscheiden sich kaum im Hinblick auf die Anzahl der Cluster. Je nach Lesart könnte man drei bis fünf unterschiedlichen Autoren in den Reihen der militanten gruppe annehmen.
  2. Allerdings unterscheiden sich die Dendrogramme stark im Hinblick auf die Zusammensetzung der Cluster; d.h. die Texte, die man den potenziellen Autoren zuweist, variieren stark. Dies hat natürlich Konsequenzen für die Validität der Ergebnisse von (1.)
  3. Besonders bei Honoré’s R und Brunet’s W werden Frequenzeffekte sichtbar, wenn auch in unterschiedlicher Ausprägung.
  4. Variablen wie Textsorte oder Entstehungszeit scheinen keinen Einfluss auf die Gruppierung der Texte zu haben. Dies überrascht insbesondere im Hinblick auf die Textsorte, denn es wäre zu erwarten, dass argumentative Texte sprachlich anders gestaltet sind als Bekennerschreiben oder Pressemitteilungen.

Honoré’s R

Die Clusteranalyse zeigen, wie stark das Maß von der Wortzahl abhängig ist. So finden sich alle längeren Texte im Cluster links, das sich am stärksten von den anderen unterscheidet.

Honoré's R: Dendrogramm der Texte der militanten gruppe
Honoré’s R: Dendrogramm der Texte der militanten gruppe


Brunet’s W

Brunet’s W neigt interessanterweise dazu, die sehr kurzen und die sehr langen Texte als einer Gruppe zugehörig zu klassifizieren.

Brunet's W: Dendrogramm der Texte der mg
Brunet’s W: Dendrogramm der Texte der mg


Sichel’s S

Im Fall von Sichel’s, das auf der Auswertung von hapax dislegomena beruht, lässt sich keine Hintergrundvariable wie Textlänge, Textsorte oder Entstehungszeit finden, die die Gruppierung der Texte plausibel machen würde.

mg Dendrogramm Sichel's S
Sichel’s S: Dendrogramm der Texte militanten Gruppe


Yule’s K

Gleiches gilt für Yule’s K.

Yule's K: Dendrogramm der Texte der militanten Gruppe
Yule’s K: Dendrogramm der Texte der militanten Gruppe

Je nach gewähltem Maß kommen man also zu einer sehr unterschiedlichen Gruppierung der Texte. Auch die Maße, in denen sich keine starken Frequenzeffekte zeigen, differieren in ihren Clustern. Die Interpretation dieser Ergebnisse im Hinblick auf die Autorschaft ist daher mehr als fragwürdig.

Nr. Token Datum Titel
0 213 2001-06-12 Auch Kugeln markieren einen Schlußstrich …
1 1632 2001-06-14 Die „Stiftungsinitiative der deutschen Wirtschaft“ zur Rechenschaft ziehen – Wolfgang Gibowski, Manfred Gentz und Otto Graf Lambsdorff ins Visier nehmen!
2 1615 2001-06-21 Anschlagserklärung gegen den Niederlassungszweig der Mercedes-Benz AG auf dem DaimlerChrysler-Werk in Berlin-Marienfelde
3 3239 2002-02-05 Anschlagserklärung
4 788 2002-04-29 Anschlagserklärung
5 569 2002-12-31 Anschlagserklärung
6 2032 2003-02-25 Anschlagserklärung
7 845 2003-10-29 Anschlagserklärung – Alba in den Müll! Entsorgt Alba!
8 1121 2003-12-31 Anschlagserklärung
9 1533 2004-03-29 Anschlagserklärung
10 1596 2004-05-06 Anschlagserklärung
11 1681 2004-09-23 Anschlagserklärung
12 816 2005-01-10 Anschlagserklärung
13 857 2005-04-29 Anschlagserklärung
14 1777 2005-11-08 Anschlagserklärung!!!
15 1584 2006-02-16 Anschlagserklärung
16 1209 2006-03-20 Anschlagserklärung
17 2520 2006-04-10 Anschlagserklärung
18 510 2006-05-05 Glückwunschtelegramm & Nachschlag
19 844 2006-05-23 Anschlagserklärung
20 1139 2006-09-03 Anschlagserklärung
21 517 2006-09-10 Anschlagserklärung
22 1824 2006-10-13 Dementi & ein bisschen Mehr
23 1253 2006-12-19 Anschlagserklärung: Das war Mord!
24 419 2007-01-14 Anschlagserklärung
25 505 2007-05-18 Anschlagserklärung
26 2023 Winter 2005 mg-express No.1
27 2114 Sommer 2006 mg-express No.3
28 2547 Herbst 2006 mg-express No.4
29 2384 Frühjahr 2007 mg-express no.5
30 3421 2001-11-23 Ein Debattenversuch der militanten gruppe (mg)
31 9093 2002-08-01 Eine Auseinandersetzung mit den Autonomen Gruppen und Clandestino über die Organisierung militanter Gruppenstrukturen
32 12021 Sommer 2005 Wir haben uns mit einer Menge Puste auf den Weg gemacht
33 1494 2005-01-29 Versuch eines Streitgespräches – Reaktion auf das Interview mit Norbert „Knofo“ Kröcher in der Jungle World Nr. 4/26.1.2005
34 1407 2005-02-15 Zum Interim-Vorwort der Nr. 611 vom 10.2.2005
35 1175 2005-04-01 Anmerkungen zum barricada-Interview mit den Magdeburger Genossen
36 1859 2005-04-01 Zur jw-Artikelserie „Was tun? In der Stadt, auf dem Land oder Papier: Guerillakampf damals und jetzt“
37 3752 2005-06-01 Zur „postautonomen und konsumistischen“ Sicht auf die Militanzdebatte
38 1355 2005-07-01 Was machen wir als militante gruppe (mg) auf einem Sozialforum – haben wir denn nichts Besseres zu tun?
39 2912 2005-08-01 Mut zur Lücke? Zu Wolf Wetzels „postfordistischer Protestwelt“
40 8358 Mitte Mai 2006 Clandestino – was wollt ihr eigentlich?
41 2475 2006-06-03 Zur „Roggan“-Anschlagserklärung der autonomen gruppen
42 2993 2007-04-11 Das „Gnadengesuch“ von Christian Klar und der Instrumentalisierungsversuch einer militanten Aktion
43 8086 Ende Mai 2007 Erklärung zur BWA-Razzia und „Gewaltdebatte“ im Rahmen der Anti-G8-Proteste
44 5172 2002-05-09 Für einen revolutionären Aufbauprozess – Für eine militante Plattform
45 1859 2002-12-19 Presseerklärung – Nr. 1/2002
46 1841 2003-04-17 Presseerklärung zum revolutionären 1. Mai 2003 in Berlin – Nr. 1/2003 von der militanten gruppe (mg)
47 7200 2003-06-15 Ein Beitrag zum Aufruf „27. Juni 1993 – 10 Jahre nach dem Tod von Wolfgang Grams. Glaubt den Lügen der Mörder nicht! Kein Vergeben – Kein Vergessen! Gemeinsam den Kampf um Befreiung organisieren!
48 2623 2004-06-08 Eine Nachbetrachtung zum revolutionären 1. Mai 2004 in Berlin
49 57053 2004-07-01 Bewaffneter Kampf – Aufstand – Revolution bei den KlassikerInnen des Frühsozialismus, Kommunismus und Anarchismus, 1. Teil
50 15696 2004-12-01 (Stadt)guerilla oder Miliz?
51 21701 2006-01-01 Kraushaars Buch „Die Bombe im Jüdischen Gemeindehaus“ und die Diskreditierung des bewaffneten Kampfes


comments: Kommentare deaktiviert für Wortschatz-Komplexitätsmaße im Test tags: , , , ,

Wortschatz-Komplexitätsmaße und Autoridentifizierung

Die Hoffnung, Autoren anhand eines einzigen Indikators unterscheiden oder identifizieren zu können, stand am Anfang der Stilometrie. Der Fokus richtete sich dabei auf Maße, die unterschiedliche Aspekte des Wortschatzgebrauchs modellieren. Sie erlauben Aussagen über eine oder mehrere der folgenden vier linguostatistischen Dimensionen:

  • Verteilung: die Verteilung der Häufigkeit der verwendeten Wörter
  • Konzentration: Anteil (n mal) wiederkehrender Wörter
  • Vielfalt: Anteil nur selten vorkommender Wörter
  • Abdeckung: modelliert das Verhältnis von bestimmten Teilen des Wortschatzes zum Gesamttext (wie viel Prozent eines Textes wird mit den n häufigsten Wörtern / mit Funktionswörtern / … realisiert)

Die Wortschatz-Komplexitätsmaße beruhen meist auf einer teilweisen Verrechnung der folgenden textstatistischen Größen:

  • Anzahl der Token (= Wortzahl eines Textes): N
  • Anzahl der Types (= Anzahl der unterschiedlichen Wörter in einem Text): V
  • Anzahl der hapax legomena (= Types, die genau ein Mal im Text vorkommen): V1
  • Anzahl der dislegomena (= Types, die genau zwei Mal im Text vorkommen): V2
  • Anzahl der Types, die i Mal im Text vorkommen: Vi

Sie erheben den Anspruch, eine Aussage über die Wortschatzdifferenziertheit zu erlauben, das heißt über die Komplexität oder Schlichtheit des in einem Text zum Einsatz kommenden Wortschatzes.

Im Folgenden eine unvollständige Liste prominenter Maße für die Wortschatzkomplexität.

Honoré’s R (1979)

Das von Antony Honoré 1979 vorgeschlagene Maß R basiert auf der Frequenz von nur einmal vorkommenden Wörtern, sogenannten hapax legomena. Es wird wie folgt berechnet:

R = 100 * log N/(1-(V1/V))

Es geht davon aus, dass je häufiger ein Autor Wörter nur einmal benutzt (also beispielsweise Wortwiederholungen vermeidet), desto differenzierter sein Wortschatz ist.

R variiert typischerweise in einer Spanne von 1000 bis 2000, wobei höhere Werte auf einen komplexeren Wortschatz im Text verweisen und zwar in dem Sinn, dass eine große Anzahl Wörter selten im Text auftritt.

Das Maß R ist so konstruiert, dass es unabhängig von der Länge des Textes ist. Es impliziert die Annahme, dass das Verhältnis von hapax legomena zur Menge aller Types bezüglich der logarithmierten Textgrösse konstant ist. Leider ist dies aber nicht der Fall, wie Tweedie und Baayen nachweisen konnten, nimmt es mit zunehmender Textlänge ab.

Sichel’s S (1975)

Dieses Maß beruht auf dem Verhältnis der Frequenz der dislegomena, also von Wörtern, die genau zwei Mal vorkommen, zur Anzahl der Types in einem Text:

S = V2/V

Sichels Untersuchungen ergaben, dass diese Zahl für einen Autor bei Texten zwischen 1000 und 400.000 Wörtern annähernd konstant blieben, sich also robust gegenüber Textlängenschwankungen verhielten.

Brunet’s W (1978)

Ein Maß, das Aussagen weitgehend unabhängig von der Textlänge erlaubt ist Brunet’s W. Es wird wie folgt bestimmt:

W = N^V^-a (lies: N hoch V hoch -a), wobei a eine Konstante ist; Brunet verwendete: a = 0.172

Das Ergebnis variiert gewöhnlich zwischen 10 und 20, wobei ein kleiner Wert eine höhere Komplexität anzeigt.

Yule’s K (1938)

Dieses bereits 1938 vom Statistiker George Udny Yule entwickelte Wortfrequenzmaß gibt an, wie groß die Wahrscheinlichkeit ist, dass beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort gewählt wird. Es wird wie folgt berechnet:

K = 10,000 * (M/N2 – 1/N), wobei M = ∑ i^2*Vi ist.

Ein K-Wert 220 bedeutet, dass die Wahrscheinlichkeit, beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort zu erhalten, 1 zu 220 ist. Durch die Quadrieriung der Frequenz der Typegruppen (i^2) werden hochfrequente Wörter stärker gewichtet als hapax legomena.

Unter der Annahme, dass die Wahl der Wörter unabhängig von einander erfolgte, d.h. eine Poisson-Verteilung vorliegt, ist Yule’s K von der Textlänge unabhängig. Allerdings gibt es viele sprachtheoretische Gründe und empirische Evidenzen anzunehmen, dass die Wahl der Wörter nicht unabhängig von einander erfolgt.

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Will man Texte klassifizieren, z.B. Zeitungstexte automatisch in die Kategorien Nachrichten, Kommentar und Feature sortieren, oder untersuchen, ob Texte unbekannter Herkunft von einem bestimmten Autor stammen, dann muss Merkmale festlegen, anhand derer die Texte mit einander verglichen werden sollen, um sie nach Ähnlichkeit zu ordnen. Im Folgenden eine Liste von Merkmalskategorien, die in der Stilometrie häufig zum Einsatz kommen.

Textkomplexität

  • durchschnittliche Wortlänge bzw. Verteilung der Wortlängen im Hinblick auf Silben- oder Buchstabenzahl
  • durchschnittlich Wortzahl pro Satz
  • Verhältnis von Types zu Token
  • Frequenzen von Wörtern, die bestimmten Häufigkeit angehören, beispielsweise Wörter, die nur einmal vorkommen (hapax legomena)

Funktionswörter

  • Grundannahme 1: Funktionswörter variieren nicht oder kaum mit dem Thema des Textes, sondern bilden eine Art stilistische Konstante
  • Grundannahme 2: Funktionswörter werden nicht bewusst manipuliert
  • Für das Englische werden typischerweise folgende Wortklassen (mit insgesamt einigen hundert Vertretern) verwendet: Pronomen, Präpositionen, Hilfsverben, Modalverben, Konjunktionen und Artikel; daneben auch Zahlen und Interjektionen, auch wenn es sich dabei nicht um Funktionswörter im engeren Sinn handelt

Syntax und Wortarten

  • relative Frequenz bestimmter syntaktischer Konstruktionen, anhand von:
  • Verteilung der Ergebnisse syntaktischer Text-Chunker und Parser
  • Verteilung von Wortartensequenzen oder Verteilung aus Folgen der Kombination von Wortarten und bestimmten Wortklassen

Funktionale lexikalische Taxonomien

  • bestimmte Wortarten und Funktionswörter werden in ein Klassifikationsschema gebracht, das semantische und grammatikalische Unterschiede zwischen unterschiedlichen Klassen auf unterschiedlichen Ebenen der Abstraktion repräsentiert
  • diese Taxonomien können dann benutzt werden, um Merkmale zu konstruieren, die stilistisch relevant sein können: auf der untersten Ebene können dies Funktionswörter oder part-of-speech-Unigramme sein; aber auch abstraktere Ebenen (Verteilung von semantischen Wortklassen) können für die Stilbestimmung eingesetzt werden

Inhaltswörter

  • eine problematische Kategorie, da Inhaltswörter je nach Thema und Kommunikationsbereich variieren
  • üblicherweise können sehr seltene Wörter und solche, die im Korpus eine stabile Verteilung aufweisen, ausgesondert werden
  • als erfolgreich haben sich auch Inhaltswort-n-Gramme und Kollokationen von Inhaltswörtern erwiesen

Buchstaben n-Gramme

  • einige Autoren behaupten, Buchstaben n-Gramme seien nützlich für die Identifizierung lexikalischer Präferenzen, ja sogar für grammatikalische und orthographische Vorlieben
  • der Vorteil: man braucht überhaupt kein linguistisches Wissen
  • offenbar gibt es gewisse Erfolge bei der Anwendung: insbesondere bei der Textsortenidentifikation oder bei der Messung der Ähnlichkeit von Dokumenten

Weitere Merkmale

  • morphologische Analyse: erfolgreich bei morphologisch komplexeren Sprachen
  • Frequenz und Verteilung von Satzzeichen
  • orthographische und/oder grammatikalische Fehler

Traditionelle Forensische Linguistik

Ziel der forensischen Linguistik ist es, aus sprachlichen Äußerungen Informationen über deren Urheber zu gewinnen. Das Attribut „forensisch“ bezieht sich darauf, dass die Äußerung im Kontext von mutmaßlichen Straftaten getätigt wurden oder für deren Aufklärung oder Vorbeugung relevant sind. Dieser Eintrag beschäftigt sich mit der traditionellen forensischen Linguistik, die beispielsweise bei der Analyse von Erpresser- oder Drohbriefen zum Einsatz kommt. Sie hat es mit eher wenig sprachlichem Material zu tun, das einer genauen Analyse unterzogen wird. Mit der computergestützten Stilometrie als Methode der forensischen Linguistik werde ich mich in späteren Beiträgen beschäftigen. Für die Stilmoetrie sind größere Datenmengen erforderlich.

Der linguistische Fingerabdruck: „From Fingerprint to Writeprint“?

Wenn Sicherheitsinformatiker ihre Software verkaufen wollen, dann sprechen sie gerne vom linguistischen Fingerabdruck. Um es gleich vorweg zu sagen: das ist vollkommen unseriös. Außer im Bereich der Stimmidentifizierung (forensische Phonetik) lassen sich sprachliche Äußerungen nicht eindeutig einer Person zuordnen. Der Vergleich  sprachlicher Merkmale von Äußerungen mit einem Fingerabdruck, der für die Identifizierung einer Person verwendet werden kann, ist daher irreführend. Sprachliche „Spuren“ sind keineswegs eindeutig. Der im digitalen Zeitalter von Kriminologen herbeigesehnte „Schreibabdruck“ kann den anaolgen Fingerabdruck nicht ersetzen.

Fehler und Normverstoß

Die traditionelle forensische Linguistik identifiziert also keine Täter, hilft aber dabei, Täterprofile zu erstellen. Sie tut dies, indem sie sprachliche Eigenschaften von Texten mit sozialen Merkmalen in Beziehung setzt. Wichtige Anhaltspunkte sind dabei Verstöße gegen die Regularitäten einer Sprache und gegen sprachliche oder stilistische Normen. Verstöße gegen die Regularitäten einer Sprache können Anzeichen dafür sein, dass der Produzent einer Äußerung kein Muttersprachler ist, insbesondere dann, wenn sie systematisch auftreten. Wenn also in einem Text mehrere Äußerungen wie

… Ich warte für die Übergabe … Ich möchte zu jemandem reden … Suchen Sie nicht für mich …

dann kann man davon ausgehen, dass der Verfasser kein Muttersprachler ist oder sich als Nichtmuttersprachlier  inszenieren möchte. Wenn solche Verstöße als Interferenzen interpretiert werden können, d.h. als Übertragung einer grammatikalischen Struktur aus der Muttersprache, können sie auch als Hinweise auf die Herkunft des Verfassers eines Textes gedeutet werden. Die Beispiele legen den Schluss nah, dass es sich um einen Muttersprachler des Englischen handelt, der hier schrieb und aufgrund mangelnder Kenntnisse des Deutschen feste Verb-Präposition-Verbindungen aus dem Englischen übernommen hat (… I’m waiting for … I want to talk to … Don’t look for …).

Autorprofil — Täterprofil

Neben der Frage, ob es sich um einen Muttersprachler handelt, bieten Texte häufig auch Anhaltspunkte dafür, aus welcher Region ein Autor kommt bzw. ob es Interferenzen mit einem regionalen Dialekt gibt. Wer „größer wie“ statt „größer als“ schreibt, kommt wahrscheinlich nicht aus Norddeutschland. Wer die regionale Variante „benützen“ gebraucht, kommt eher aus dem Süden des deutschen Sprachraums, wahrscheinlich aus dem Südwesten. Die Beherrschung der Rechtschreibung und Interpunktionsregeln, aber auch der richtige bzw. falsche Gebrauch von Fremdwörtern und die syntaktische Komplexität können Hinweise auf den Bildungsstand des Autors liefern. Die Einhaltung bestimmter stilistischer Normen kann zudem auch als Hinweis auf das Alter gedeutet werden. Rückschlüsse auf das Geschlecht des Verfassers sind allerdings nicht möglich.

Forensische Linguistik beim BKA

Das Bundeskriminalamt arbeitet mit dem Kriminaltechnischen Informationssystem Texte (KISTE), das die systematische Erfassung, Annotation, Interpretation und den Vergleich von Texten unterstützt. Aus der verlinkten Powerpoint-Präsentation einer Mitarbeiterin des BKA geht hervor, dass mehr als die Hälfte der untersuchten Texte Schreiben von Erpressern sind; Bedrohung und Volksverhetzung folgen in weitem Abstand. Terrorismus und Extremismus machen gerade einmal 5% der Fälle aus.

Fehleranalyse vs. Stilometrie

Die Fehleranalyse ist besonders dann ein erfolgversprechendes Vorgehen, wenn nur eine geringe Menge sprachlicher Daten vorliegt, die sich für statistische Analysen nicht oder kaum eignet. Bei größeren Datenmengen, in denen signifikante sprachliche Muster identifiziert werden können, kann ein breiteres Spektrum linguistischer Phänomene für die Zuordnung von Texten zu außersprachlichen Merkmalsbündeln herangezogen werden. Dazu demnächst mehr in einer kleinen Serie über Methoden der Stilometrie.

comments: Kommentare deaktiviert für Traditionelle Forensische Linguistik tags: , , , ,