Gängige Irrtümer bei der maschinellen Autorenidentifikation — Vortrag online

Liebe Freunde der Sicherheit,

bei den diesjährigen Datenspuren des C3D2 in Dresden habe ich einen Vortrag zum Thema „Gibt es einen sprachlichen Fingerabdruck? Gängige Irrtümer bei der maschinellen Autorenidentifikation“ gehalten. Das Video zum Vortrag ist nun online.





Vielen Dank an das Orga-Team für die interessante und perfekt organisierte Tagung!


Geschichte der computergestützten Autorenerkennung am Beispiel der Texte der „militanten gruppe“

Liebe Freunde der Sicherheit,

Die Verfahren, die bei der maschinellen Autorenidentifizierung zum Einsatz kommen, wurden im Verlauf der Geschichte immer mächtiger, analog zur Entwicklung der Rechenleistung von Computern. Die computergestützte Autorenerkennung kann grob in drei Phasen eingeteilt werden.

1. Die Suche nach globalen Konstanten
Ausgehend von der Annahme, dass dem Stil eines Autors etwas Invariantes eignen müsse, waren die ersten Versuche, Autorschaft aufgrund sprachlicher Merkmale zuzuschreiben, von der Suche nach einem Maß geprägt, das die stilistische Einmaligkeit in einem einzigen Wert ausdrückt. Ich habe an anderer Stelle (hier und hier) einige Werte zur Wortschatzkomplexität vorgestellt und getestet, die in der Forschung als Repräsentanten von Ideolekten verstanden wurden.

2. Autorenidentifizierung mittels multivariater Statistik
Während die Klassifikation mittels einer autorspezifischen Konstanten ein univariates Verfahren ist, wurde ab den 1960er Jahren damit begonnen, mehrere Merkmale von Texten zur Identifizierung von Autorschaft heranzuziehen. Das grundlegende Verfahren dabei ist, einzelne Dokumente als Punkte in einem mehrdimensionalen Raum aufzufassen. Der wahrscheinliche Autor eines in Frage stehenden Textes ist dann jener, dessen Texte die größte Nähe zum Punkt des anonymen Textes im multidimensionalen Raum haben.

3. Klassifikation mittels maschinellen Lernens
Bei der Autorenidentifikation wird seit den 1990er Jahren mit überwachtem maschinellen Lernen gearbeitet. Ziel des maschinellen Lernens ist es, einen Klassifikator zu finden, der ein Set an Texten möglichst gut in Klassen einteilt, um danach zu prüfen, welcher Klasse der Klassifikator den anonymen Text zuordnen würde. Hierfür werden Merkmale von Trainingstexten, also von Texten, von denen die Autoren bekannt sind, als numerische Vektoren abgebildet. Mit Methoden maschinellen Lernens sucht man dann im Vektorraum nach Klassengrenzen, die eine Klassifikation mit möglichst wenigen Fehlern ermöglicht.

Im Folgenden möchte ich die verschiedenen Verfahren anhand diverser linguistischer Merkmale illustrieren, vor allem mit dem Ziel, einen kritischen Blick darauf zu ermöglichen, was eigentlich gemessen wird, wenn Autorenidentifikation betrieben wird. Zur Illustration wähle ich einen fünf Jahre zurückliegenden Fall, bei dem das BKA linguistisches Profiling betrieb.


Der „Fall“

Am 31. Juli 2007 brannten in Brandenburg / Havel mehrere Fahrzeuge der Bundeswehr. Drei mutmaßliche Täter wurden bei der Ausführung des Brandanschlags verhaftet. Am 1. August 2007 stürmte ein Sondereinsatzkommando auch die Wohnung des Soziologen Andrej Holm. Ihm wird vorgeworfen, Mitglied der „militanten gruppe“, einer damals als terroristisch eingestuften linksradikalen Gruppierung zu sein, die auch für die Brandanschläge in Brandenburg verantwortlich war. Die Polizei hielt ihn für den intellektuellen Kopf der Gruppe und den Verfasser der zahlreichen Bekennerschreiben und Diskussionspapiere, die die militante Gruppe veröffentlicht hatte. Die militante gruppe wird für 25 Brandanschläge, vornehmlich auf Fahrzeuge von Polizei und Bundeswehr, aber auch auf Sozial- und Arbeitsämter in den Jahren 2001-2007 verantwortlich gemacht. Sie gab 2009 ihre Selbstauflösung bekannt. Sie wird nicht mehr als terroristische, sondern als linksradikale kriminelle Vereinigung angesehen.

Andrej Holm hatte sich in den Augen der Polizei dadurch verdächtig gemacht, dass seine wissenschaftlichen Arbeiten in sprachlicher Hinsicht Ähnlichkeiten mit den Bekennerschreiben der Gruppe hatten: die Polizei stellte fest, dass Lemmata wie „Gentrifizierung“ und „Prekarisierung“ in den Texten Holms und der mg signifikant häufig vorkamen. Die Polizei hatte gegooglet, berichteten die Medien. Immerhin auch ein computergestütztes Verfahren. Da Verfassungsschutzbehörden sicherlich auch in den Fall involviert waren, kann jedoch auch gemutmaßt werden, dass andere, evtl. auch komplexere Verfahren der maschinellen Autorenidentifizierung zum Einsatz kamen, auch wenn diese im Ermittlungsverfahren gegen Andrej Holm keine weitere Rolle spielen konnten.


Die „Verdächtigen“

Aus Sicht der forensischen Linguistik soll nun der Fall neu aufgerollt werden. Um es gleich zu Beginn zu sagen: Das hier ist kein ernst zu nehmendes linguistisch-forensisches Gutachten und die Ergebnisse sind in keiner Weise dazu geeignet, Verdächtige zu überführen. Das zeigt auch schon die Liste jener, die ich „verdächtige“, Autoren der mg-Texte zu sein, die mithin mit Texten in meinen Trainingsdaten vertreten sind.

Zunächst folge ich unseren Strafverfolgungsbehörden und nehme zwei Korpora des vom BKA Verdächtigten Andrej Holm:

  • gentrification blog, Blog von Andrej Holm: 491 Posts, 304.406 laufende Wortformen, 2008-2012
  • gentrification Theorie, wissenschaftliche Aufsätze von Andrej Holm: 5 Aufsätze, 40.853 laufende Wortformen, 2004-2012.

Wenn Terrorverdacht im Raum steht, dürfen natürlich auch Ermittlungen in islamistischen Kreisen nicht fehlen:

  • Ich nehme zwei Korpora mit allen Forenbeiträgen der Autoren aus einem salafistischen Forum (derW****, 570.016 / Muu****, 268.165), die sich irgendwann einmal zur Situation auf dem Wohnungsmarkt geäußert haben, und
  • das Blog der Islambruderschaft Deutschland, 129.965 laufende Wortformen

Auch muss man aufpassen, sich nicht dem Vorwurf auszusetzen, auf dem rechten Auge blind zu sein:

  • Ich nehme zwei Autorenkorpora aus dem inzwischen geschlossenen NPD-Forum Gernot (88.161), Spinne (147.144) und
  • Michael Kühnens „Schriften“, 111.873 laufende Wortformen.

Zudem will ich überprüfen, ob nicht Alt-RAFler oder andere ehemalige Linksterroristen als militante Gruppe wieder aktiv sind. Daher nehme ich:

  • die Texte der Revolutionären Zellen (203.492) und
  • die Texte der Roten Armee Fraktion (195.939).

Ich nehme auch noch zwei Diskutanden aus dem Diskussionsforum eines globalisierungskritischen Netzwerks hinzu, weil Globalisierungskritiker nunmal verdächtig sind:

  • bur*** (102.955 laufende Wortformen), Pom*** (21.241 laufende Wortformen), 2007-2009.

Hinzu kommen noch zwei Autoren, die sich durch ihre publizistisches Wirken verdächtig gemacht haben:

  • Fefe, wegen Verbreitung von Verschwörungstheorien in seinem Blog: 24.239 Posts, 1.928.027 laufende Wortformen, 2005-2012
  • Franz Josef Wagner mit seiner Kolumne „Post von Wagner“, die von manchem als schwer staatsgefährdend empfunden wird: 1.390 „Briefe“, 233.008 laufende Wortformen, 2006-2012.

Später kommen dann noch die Texte der militanten gruppe dazu:

  • 15 Anschlagserklärungen (27.828)
  • 4 mg express (7.679)
  • 14 Texte zur Militanzdebatte (50.078)
  • 8 thematische Beiträge (90.328)

Die Suche nach globalen Konstanten ist so wenig zeitgemäß, dass ich hier auf die älteren Blogbeiträge verweise. Weil sich die Ergebnisse so gut veranschaulichen lassen, illustriere ich das Vorgehen bei der Autorenidentifizierung mittels multivariater Statistik anhand der Clusteranalyse.


Textclustering

Die Clusteranalyse ist ein strukturentdeckendes Verfahren der multivariaten Statistik. Sie entdeckt Gruppen von „ähnlichen“ Objekten. In unserem Fall sind die Objekte Texte, die aufgrund ihrer Ähnlichkeit bzw. Unähnlichkeit im Hinblick auf linguistische Merkmale gruppiert werden. Natürlich ist es von entscheidender Bedeutung, anhand welcher linguistischer Merkmale ich die Gruppierung vornehmen. Die folgenden drei Analysen zeigen eindrucksvoll, wie unterschiedlich die Ergebnisse bei je unterschiedlichen linguistischen Kategorien sind. Der Übersichtlichkeit halber habe ich mit den Gesamtkorpora gerechnet.

Sicherheitsinformatiker halten Funktionswörter für besonders gute linguistische Kategorien, weil sie glauben, dass sie unbewusst verwendet werden und daher auch nicht manipuliert werden können. Führt man eine Clusteranalyse anhand der Distribution von Funktionswörtern (z.B. Artikel, Präpositionen, Konjunktionen) durch, dann erhält man folgendes, eher unklare Bild:



Dendrogramm Funktionswörter



Die Texte Andrej Holms und der militanten Gruppe sind jeweils gelb gekennzeichnet, jedoch durch verschiedene Schriftfarben von einander abgesetzt. Eine Autorschaft Andrej Holms kann auf der Basis dieser Daten nicht abgeleitet werden — im Gegenteil. Zusammen mit anderen eher weltanschaulich-theorielastigen Texten (RZ, RAF, Islambruderschaft, Kühnen) bilden die Textkorpora der militanten Gruppe ein eigenes Cluster. Offenbar fungiert hier die Textsorte als Hintergrundvariable. Dass Fefe sich in der Nachbarschaft von Franz Josef Wagner befindet, ist ein interessantes Detail.

Führt man eine Clusteranalyse anhand der Distribution von Inhaltswörtern durch, kommt man zu einer anderen Gruppierung der Texte.



Dendrogramm Inhaltswörter



Die Texte zur Rechtfertigung linker Gewalt (RAF, RZ, mg) bilden ein Cluster. Auch Andrej Holms wissenschaftliche Texte und Blogbeiträge lassen sich zusammen als eigene Gruppe interpretieren, die aber einen großen Abstand zum Cluster der mg-Texte aufweist. Obwohl also bestimmte Inhaltswörter das BKA dazu verleitet haben, Andrej Holm zu verdächtigen, ergibt die Analyse von Inhaltswörtern, dass auf ihrer Basis eine Autorschaft kaum wahrscheinlich ist. Ansonsten zeigt das Dendrogramm, das Inhaltswörter sich nur leidlich gut für die Identifizierung inhaltlicher Gemeinsamkeiten eignen. Zwar liegen die Texte von Islambruderschaft und Salafisten in einem Cluster, allerdings befindet sich dort auch Franz Josef Wagner. Auch irritiert die Nachbarschaft, in der sich Fefe befindet.

Ein weitere Kategorie, mittels derer man Texte in interessanter Weise gruppieren kann, sind komplexe n-Gramme; vgl. hierzu einen älteren Beitrag.



Dendrogramm komplexe n-Gramme



Die Ananlyse zeigt hier zwar, dass die Texte Andrej Holms zusammen mit den Texten der militanten Gruppe ein Cluster bilden, allerdings ist auch hier offensichtlich, dass Texte, die entweder wissenschaftlich argumentieren oder sich stilistisch den Anschein von Wissenschaftlichkeit (Kühnen, RAF, RZ) geben wollen, gemeinsam gruppiert wurden. Es ist damit relativ offensichtlich, dass wir hier nicht Autorschaft messen, sondern Stilkonventionen oder Textsorten.


Maschinelles Lernen

Beim maschinellen Lernen sind die oben beschriebenen Korpora die Trainingsdaten, mit deren Hilfe ein Klassifikator berechnet wird. Der Klassifikator kann dann dazu benutzt werden, die anonymen Texte einer Klasse zuzuweisen. Bei der Autorenidentifizierung mittles maschinellem Lernen benutzt man üblicherweise eine große Vielzahl an linguistischen Merkmalen. Ich habe mich auf folgende beschränkt:

  • relative Frequenz intensivierende Partikel (Gradpartikel)
  • durchschnittliche Satzlänge
  • Wortschatzkomplexitätsmaß Yule‘s K
  • relative Frequenz Passiv-Konstruktionen
  • relative Frequenz Konjunktiv I
  • relative Frequenz Konjunktiv II
  • relative Frequenz von Partizipialkonstruktionen
  • relative Frequenz von Präpositionalgruppenclustern
  • Schwierigkeit der Präpositionalgruppencluster (durchschnittliche Häufigkeitsklasse (Quelle: DeReKo) der in Präpositionalgruppenclustern auftretenden Präpositionen)

Anders als bei den Untersuchungen vorher wurde nicht mit Gesamtkorpora gerechnet. Zum Trainieren des Klassifikators wurden alle Einzeltexte benutzt, die mindestens 800 laufende Wortformen haben.

Um zu illustrieren, wie so ein Klassifikator aussehen kann, habe ich das Entscheidungsbaumverfahren benutzt. Beim Entscheidungsbaumverfahren wird eine Datensatz Schritt für Schritt in Unterklassen geteilt.



Aus den Trainingsdaten abgeleiteter Entscheidungsbaum



Im obigen Graph kodiert jeder Pfad vom Wurzelknoten zu einem Blatt eine Entscheidungsregel. Berechnet man nun die linguistischen Merkmale der anonymen Texte, in unserem Fall der Texte der militanten Gruppe, dann können diese mit Hilfe der Entscheidungsregeln einem Autor zugewiesen werden.

Von den 41 Texten der militanten Gruppe werden mittels dieses Klassifikators 13 den Revolutionären Zellen zugeschrieben, 4 einem Diskutanden aus einem Forum, einen Beitrag zur Militanzdebatte soll Fefe verfasst haben, und 23 Texte der militanten Gruppe werden als den Blogbeiträgen von Andrej Holm am ähnlichsten klassifiziert. Dabei ist es bei den allermeisten Blogbeiträgen nur eine Kombination zweier Merkmale, die für die Klassifikation als Holm-Text verantwortlich sind: eine geringe Anzahl von Konjunktiv-II-Formen und ein relativ hoher Anteil Partizipialkonstruktionen. Ich habe die betreffende Entscheidungsregel in der folgenden Abbildung farblich markiert.



Entscheidungsbaum mit markierter Entscheidungsregel



Der Konjunktiv II ist eine grammatische Form, die häufig zum Ausdruck von Höflichkeit benutzt wird oder der Formulierung von Irrealem (etwa in irrealen Konditionalsätzen) dient. Es ist daher nicht falsch anzunehmen, dass es Zusammenhänge zwischen dem Inhalt des Gesagten und der Frequenz von Konjunktiv-II-Formen gibt. Partizipialkonstruktionen sind hingegen typische Merkmale eines Nominalstils, die in einem Wissenschaftler-Blog durchaus erwartbar sind, auch in meinem.

Messen wir hier also tatsächlich einen Individualstil? Oder nicht doch eher inhaltliche und kommunikationsbereichsspezifische Merkmale? Und wenn wir nicht genau wissen, ob unsere Messinstrumente valide sind, wie verhält es sich dann eigentlich mit der prognostischen Güte unseres Modells? Die Frage ist natürlich eine rhetorische, denn wenn die Merkmale nicht valide sind, dann ist der Klassifikator zwar gut genug, um die Trainingsdaten zu klassifizieren, aber er hat keinerlei prognostischen Wert.

Die Analyse zeigt, wie sehr die maschinelle Autorenidentifikation davon abhängig ist, anhand welcher linguistischer Merkmale wir die Klassifikation vornehmen und ob diese Merkmale tatsächlich als Repräsentanten eines Individualstils gelten können. Die Bedeutung kommunikationsbereichs-, textsortenspezifischer und inhaltlicher Faktoren ist bislang von der Forschung noch nicht annähernd hinreichend gewürdigt. Die Gefahr fälschlicherweise in Verdacht zu geraten, ist daher groß.


Entscheidungsbaumverfahren: Vornamen von Neonazis in Abhängigkeit von Wohnort und Alter

Posted on 25th Januar 2012 in Maschinelles Lernen

Liebe Freunde der Sicherheit,

wenn man Urheber von Bekennerschreiben identifizieren oder feststellen will, ob die Beiträge in einem Internetforum rechtsextreme Tendenzen haben, dann handelt es sich aus mathematisch-informatischer Perspektive um Klassifizierungsprobleme. Man nimmt im ersten Fall eine Menge von Texten, von denen man weiß, wer die Autoren sind. Diese Dokumente werden dann als numerische Vektoren dargestellt, die die Ausprägung möglicher relevanter Merkmale dieser Texte abbilden. Dann wendet man Methoden des maschinellen Lernens an, um einen Klassifikator zu finden, der die Texte, die zu unterschiedlichen Klassen gehören, voneinander unterscheidet. Dieser Klassifikator liefert uns dann einen Hinweise darauf, welcher Klasse sich der Urheber eines Bekennerschreibens mit einer gewissen Wahrscheinlichkeit zuordnen lässt.

Natürlich sind die Ergebnisse des Lernverfahrens nur so gut, wie die Entscheidung, welche Merkmale der Texte für die Klassifizierung relevant sein können. Einige der am häufigsten für die Autorenidentifizierung benutzten linguistischen Feature habe ich in einem früheren Post zusammengestellt. Mir geht es aber hier um die Grundidee des maschinellen Lernens: Man benutzt eine bereits klassifizierte Datenmenge, um aus ihr jene Merkmale zu extrahieren, die für die Klassifizierung unbekannter Daten relevant sind. Eine Möglichkeit, aus Daten Regeln für die Klassifizierung abzuleiten, ist das Entscheidungsbaumverfahren.

Entscheidungsbäume

Beim Entscheidungsbaumverfahren wird eine Datensatz Schritt für Schritt in Unterklassen geteilt. Diese Teilungen der Gesamtmenge in immer kleinere Teilmengen erfolgt anhand eines Sets von Merkmalen, von denen wir vermuten, dass sie für die Einteilung relevant sind.

Nun wollen wir den Datensatz in zwei Unterklassen teilen, die in sich möglichst homogen sind und sich daher auch möglichst stark von einander unterscheiden. Meist wird hier das Kriterium des Informationsgehaltes (Entropie) angewendet. Die Trennkriterien sind so zu wählen, dass die entstehenden Unterklassen im Hinblick auf eine resultierende Klassenverteilung möglichst homogen sind. Dieses Verfahren wendet man nun auch auf jede der neu berechneten Unterklassen an. Ist der Informationsgewinn durch eine weitere Teilung einer Unterklasse sehr gering, dann beendet man das Aufsplitten des Datensatzes an dieser Stelle.

Nach und nach wächst so ein „Baum“, die Bezeichnung eines gerichteten Graphen mit einem Wurzelknoten. Knoten markieren den Vergleich hinsichtlich eines Attributs, Kanten repräsentieren die verschiedenen Ausprägungen des Attributs, Blätter bezeichnen die Klasse. Pfade zu den Blattknoten stellen „Regeln“ dar, die auf künftige Klassifizerungsaufgaben angewendet werden können.

Vornamen von Neonazis in Abhängigkeit von Wohnort und Alter

Nehmen wir ein unverfängliches Beispiel: Wir wollen wissen, welche Namen Neonazis in Abhängigkeit von Alter und Region typischerweise haben. Hierfür nehmen wir einen Datensatz, der auf der Nazileaks-Plattform publiziert wurde und Informationen zu Wohnort und Geburtsdatum enthält. Damit das Ergebnis einigermaßen übersichtlich bleibt, operationalisieren wir die Variable Region über den Postleitzahlenbereich. Um genau zu sein: wir definieren die erste Ziffer der Postleitzahl als relevantes Attribut für die Klassifizierung. Als zweites relevantes Attribut bestimmen wir das Alter.

decision tree: nazivornamen ~ alter + plz_raum (minsplit 20, maxdepth 7)
Entscheidungsbaum: Vornamen von Neonazis
in Abhängigkeit von Alter und PLZ-Raum
(CART, minsplit = 20, maxdepth = 7)

Der berechnete Entscheidungsbaum zeigt, dass zunächst die Variable Alter mit dem Merkmal „jünger als 36“ vs. „36 Jahre und älter“ den Datensatz am besten in zwei Klassen trennt. Die beiden berechneten Subklassen werden beide wiederum durch das Attribut Alter in zwei Subklassen geteilt, ehe das Attribut PLZ-Bereich zu Spaltungen führt. Eine sich aus dem Entscheidungsbaum ableitbare Regel wäre: Neonazis, die über 44 Jahre alt sind und in den PLZ-Bereich 2, 3, 5 oder 7 wohnen, heißen Erik. Allerdings ist die Fehlerquote in den berechneten Klassen so hoch, dass eigentlich keine belastbaren Aussagen möglich sind. Wahrscheinlich haben wir nicht die richtigen Variablen in das Modell eingefügt.

Zwar ist der Baum in dieser Form gerade noch lesbar, aber dennoch überkomplex. Es gibt viele Endknoten, die nur wenige Objekte enthalten. Um die Ergebnisse besser generalisieren zu können, werden die Bäume „beschnitten“. Dieses Verfahren nennt man „Pruning“. Für den obigen Baum wurde schon ein Pre-Pruning vorgenommen: Die Anzahl der Verzweigungen wurde auf 7 begrenzt. Weil das immer noch recht viel ist, kann man auch ein Post-Pruning durchführen. Dabei fallen Knoten wegen oder werden durch ein Blatt ersetzt, die für die Relevanz für die Klassifizierung keine (oder nur geringe) Relevanz besitzen. Der beschnittene Baum hat dann z.B. diese Form:

decision tree: namen ~ alter + plz_raum (minsplit 20, maxdepth 7)
Beschnittener Entscheidungsbaum

Es gibt unterschiedliche Algorithmen zur Berechnung von Entscheidungsbäumen. Hier wurde mit dem CART-Verfahren gerechnet, bei dem der Datensatz bei einem Knoten jeweils binär gesplittet wird. Mein Kollege Noah Bubenhofer, von dem ich das Namensbeispiel übernommen habe, rechnet mit dem C4.5-Algorithmus.

Was kann man nun mit so einem Baum anfangen? Mit diesem speziellen Baum nicht viel. Die Fehlerquote ist zu hoch. Wäre sie niedriger, könnte man die Regeln wie folgt benutzen: Wenn wir den Vornamen einer Person kennen und wissen, dass diese Person ein Neonazi ist, dann könnten wir mit einer gewissen Wahrscheinlichkeit auf Alter und PLZ-Bereich des Wohnortes schließen.



Postleitzahlbereiche in der BRD (Quelle: Wikipedia, Stefan Kühn, CC0 1.0)



Natürlich könnten wir nun nicht einfach behaupten, dass Menschen, die André heißen, älter als 31 Jahre alt sind und aus dem PLZ-Bereich 0 kommen, mit einer bestimmten Wahrscheinlichkeit Neonazis sind. Um solche Aussagen zu ermöglichen hätten wir einen Datensatz gebraucht, der auch die Daten von nicht-Neonazis enthielte. Es könnte ja schließlich auch sein, dass Noenazis genause heißen wie der Rest der Bevölkerung und der obige Baum nur die regionale und altersspezifische Verteilung in Deutschland abbildet. Macht euch also keine Sorgen, wenn ihr Erik heißt und jünger als 22 Jahre alt seid: Wir wissen nicht, welche Gesinnung ihr habt. Noch nicht…

comments: Kommentare deaktiviert für Entscheidungsbaumverfahren: Vornamen von Neonazis in Abhängigkeit von Wohnort und Alter tags: , , ,

Wortschatz-Komplexitätsmaße im Test

Hier mal eine kleine Illustration, welche Ergebnisse die Wortschatz-Komplexitätsmaße für die Klassifikation von Texten liefern. Als Beispielkorpus habe ich die Texte der militanten gruppe gewählt, weil deren Texte vom BKA schon einmal einer forensischen Analyse unterzogen wurden: einer Analyse im Hinblick auf die Ähnlichkeit mit den Texten eines Soziologen, den man verdächtigte Mitglied der Gruppe zu sein. Dabei sollen Inhaltswörter das Hauptkriterium gewesen sein, wollen uns der Spiegel und andere Medien glauben machen. Die Analyse wurde zu einem jener Indizen, mit denen Überwachung, Festnahme und U-Haft des Soziologen gerechtfertigt wurden. Die folgenden Proberechnungen sind keine ernst zu nehmenden forensischen Analysen, die irgend etwas über die Autoren der Texte der mg aussagen. Sie sollen vielmehr zeigen, wie problematisch der Umgang mit Wortschatz-Komplexitätsmaßen ist. Ich halte es daher auch für unproblematisch, sie zu veröffentlichen.

  • Eine Übersicht über die Texte der mg findet sich in der Tabelle am Ende dieses Blog-Eintrags.
  • Die Texte der militanten gruppe gibt es übrigens unter http://www.semtracks.com/cosmov/ als Korpus für sprachlich-sozialwissenschaftliche Analysen.

Die Analyse erfolgte in zwei Schritten: Zuerst wurden für jeden der 52 Texte die Werte Yule’s K, Sichel’s S, Brunet’s W und Honoré’s R berechnet; im Anschluss wurden die Texte auf der Basis der Werte mittels einer hierarchischen Clusteranalyse gruppiert. Die Ergebnisse in Kürze:

  1. Die Dendrogramme unterscheiden sich kaum im Hinblick auf die Anzahl der Cluster. Je nach Lesart könnte man drei bis fünf unterschiedlichen Autoren in den Reihen der militanten gruppe annehmen.
  2. Allerdings unterscheiden sich die Dendrogramme stark im Hinblick auf die Zusammensetzung der Cluster; d.h. die Texte, die man den potenziellen Autoren zuweist, variieren stark. Dies hat natürlich Konsequenzen für die Validität der Ergebnisse von (1.)
  3. Besonders bei Honoré’s R und Brunet’s W werden Frequenzeffekte sichtbar, wenn auch in unterschiedlicher Ausprägung.
  4. Variablen wie Textsorte oder Entstehungszeit scheinen keinen Einfluss auf die Gruppierung der Texte zu haben. Dies überrascht insbesondere im Hinblick auf die Textsorte, denn es wäre zu erwarten, dass argumentative Texte sprachlich anders gestaltet sind als Bekennerschreiben oder Pressemitteilungen.

Honoré’s R

Die Clusteranalyse zeigen, wie stark das Maß von der Wortzahl abhängig ist. So finden sich alle längeren Texte im Cluster links, das sich am stärksten von den anderen unterscheidet.

Honoré's R: Dendrogramm der Texte der militanten gruppe
Honoré’s R: Dendrogramm der Texte der militanten gruppe


Brunet’s W

Brunet’s W neigt interessanterweise dazu, die sehr kurzen und die sehr langen Texte als einer Gruppe zugehörig zu klassifizieren.

Brunet's W: Dendrogramm der Texte der mg
Brunet’s W: Dendrogramm der Texte der mg


Sichel’s S

Im Fall von Sichel’s, das auf der Auswertung von hapax dislegomena beruht, lässt sich keine Hintergrundvariable wie Textlänge, Textsorte oder Entstehungszeit finden, die die Gruppierung der Texte plausibel machen würde.

mg Dendrogramm Sichel's S
Sichel’s S: Dendrogramm der Texte militanten Gruppe


Yule’s K

Gleiches gilt für Yule’s K.

Yule's K: Dendrogramm der Texte der militanten Gruppe
Yule’s K: Dendrogramm der Texte der militanten Gruppe

Je nach gewähltem Maß kommen man also zu einer sehr unterschiedlichen Gruppierung der Texte. Auch die Maße, in denen sich keine starken Frequenzeffekte zeigen, differieren in ihren Clustern. Die Interpretation dieser Ergebnisse im Hinblick auf die Autorschaft ist daher mehr als fragwürdig.

Nr. Token Datum Titel
0 213 2001-06-12 Auch Kugeln markieren einen Schlußstrich …
1 1632 2001-06-14 Die „Stiftungsinitiative der deutschen Wirtschaft“ zur Rechenschaft ziehen – Wolfgang Gibowski, Manfred Gentz und Otto Graf Lambsdorff ins Visier nehmen!
2 1615 2001-06-21 Anschlagserklärung gegen den Niederlassungszweig der Mercedes-Benz AG auf dem DaimlerChrysler-Werk in Berlin-Marienfelde
3 3239 2002-02-05 Anschlagserklärung
4 788 2002-04-29 Anschlagserklärung
5 569 2002-12-31 Anschlagserklärung
6 2032 2003-02-25 Anschlagserklärung
7 845 2003-10-29 Anschlagserklärung – Alba in den Müll! Entsorgt Alba!
8 1121 2003-12-31 Anschlagserklärung
9 1533 2004-03-29 Anschlagserklärung
10 1596 2004-05-06 Anschlagserklärung
11 1681 2004-09-23 Anschlagserklärung
12 816 2005-01-10 Anschlagserklärung
13 857 2005-04-29 Anschlagserklärung
14 1777 2005-11-08 Anschlagserklärung!!!
15 1584 2006-02-16 Anschlagserklärung
16 1209 2006-03-20 Anschlagserklärung
17 2520 2006-04-10 Anschlagserklärung
18 510 2006-05-05 Glückwunschtelegramm & Nachschlag
19 844 2006-05-23 Anschlagserklärung
20 1139 2006-09-03 Anschlagserklärung
21 517 2006-09-10 Anschlagserklärung
22 1824 2006-10-13 Dementi & ein bisschen Mehr
23 1253 2006-12-19 Anschlagserklärung: Das war Mord!
24 419 2007-01-14 Anschlagserklärung
25 505 2007-05-18 Anschlagserklärung
26 2023 Winter 2005 mg-express No.1
27 2114 Sommer 2006 mg-express No.3
28 2547 Herbst 2006 mg-express No.4
29 2384 Frühjahr 2007 mg-express no.5
30 3421 2001-11-23 Ein Debattenversuch der militanten gruppe (mg)
31 9093 2002-08-01 Eine Auseinandersetzung mit den Autonomen Gruppen und Clandestino über die Organisierung militanter Gruppenstrukturen
32 12021 Sommer 2005 Wir haben uns mit einer Menge Puste auf den Weg gemacht
33 1494 2005-01-29 Versuch eines Streitgespräches – Reaktion auf das Interview mit Norbert „Knofo“ Kröcher in der Jungle World Nr. 4/26.1.2005
34 1407 2005-02-15 Zum Interim-Vorwort der Nr. 611 vom 10.2.2005
35 1175 2005-04-01 Anmerkungen zum barricada-Interview mit den Magdeburger Genossen
36 1859 2005-04-01 Zur jw-Artikelserie „Was tun? In der Stadt, auf dem Land oder Papier: Guerillakampf damals und jetzt“
37 3752 2005-06-01 Zur „postautonomen und konsumistischen“ Sicht auf die Militanzdebatte
38 1355 2005-07-01 Was machen wir als militante gruppe (mg) auf einem Sozialforum – haben wir denn nichts Besseres zu tun?
39 2912 2005-08-01 Mut zur Lücke? Zu Wolf Wetzels „postfordistischer Protestwelt“
40 8358 Mitte Mai 2006 Clandestino – was wollt ihr eigentlich?
41 2475 2006-06-03 Zur „Roggan“-Anschlagserklärung der autonomen gruppen
42 2993 2007-04-11 Das „Gnadengesuch“ von Christian Klar und der Instrumentalisierungsversuch einer militanten Aktion
43 8086 Ende Mai 2007 Erklärung zur BWA-Razzia und „Gewaltdebatte“ im Rahmen der Anti-G8-Proteste
44 5172 2002-05-09 Für einen revolutionären Aufbauprozess – Für eine militante Plattform
45 1859 2002-12-19 Presseerklärung – Nr. 1/2002
46 1841 2003-04-17 Presseerklärung zum revolutionären 1. Mai 2003 in Berlin – Nr. 1/2003 von der militanten gruppe (mg)
47 7200 2003-06-15 Ein Beitrag zum Aufruf „27. Juni 1993 – 10 Jahre nach dem Tod von Wolfgang Grams. Glaubt den Lügen der Mörder nicht! Kein Vergeben – Kein Vergessen! Gemeinsam den Kampf um Befreiung organisieren!
48 2623 2004-06-08 Eine Nachbetrachtung zum revolutionären 1. Mai 2004 in Berlin
49 57053 2004-07-01 Bewaffneter Kampf – Aufstand – Revolution bei den KlassikerInnen des Frühsozialismus, Kommunismus und Anarchismus, 1. Teil
50 15696 2004-12-01 (Stadt)guerilla oder Miliz?
51 21701 2006-01-01 Kraushaars Buch „Die Bombe im Jüdischen Gemeindehaus“ und die Diskreditierung des bewaffneten Kampfes


comments: Kommentare deaktiviert für Wortschatz-Komplexitätsmaße im Test tags: , , , ,

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Will man Texte klassifizieren, z.B. Zeitungstexte automatisch in die Kategorien Nachrichten, Kommentar und Feature sortieren, oder untersuchen, ob Texte unbekannter Herkunft von einem bestimmten Autor stammen, dann muss Merkmale festlegen, anhand derer die Texte mit einander verglichen werden sollen, um sie nach Ähnlichkeit zu ordnen. Im Folgenden eine Liste von Merkmalskategorien, die in der Stilometrie häufig zum Einsatz kommen.

Textkomplexität

  • durchschnittliche Wortlänge bzw. Verteilung der Wortlängen im Hinblick auf Silben- oder Buchstabenzahl
  • durchschnittlich Wortzahl pro Satz
  • Verhältnis von Types zu Token
  • Frequenzen von Wörtern, die bestimmten Häufigkeit angehören, beispielsweise Wörter, die nur einmal vorkommen (hapax legomena)

Funktionswörter

  • Grundannahme 1: Funktionswörter variieren nicht oder kaum mit dem Thema des Textes, sondern bilden eine Art stilistische Konstante
  • Grundannahme 2: Funktionswörter werden nicht bewusst manipuliert
  • Für das Englische werden typischerweise folgende Wortklassen (mit insgesamt einigen hundert Vertretern) verwendet: Pronomen, Präpositionen, Hilfsverben, Modalverben, Konjunktionen und Artikel; daneben auch Zahlen und Interjektionen, auch wenn es sich dabei nicht um Funktionswörter im engeren Sinn handelt

Syntax und Wortarten

  • relative Frequenz bestimmter syntaktischer Konstruktionen, anhand von:
  • Verteilung der Ergebnisse syntaktischer Text-Chunker und Parser
  • Verteilung von Wortartensequenzen oder Verteilung aus Folgen der Kombination von Wortarten und bestimmten Wortklassen

Funktionale lexikalische Taxonomien

  • bestimmte Wortarten und Funktionswörter werden in ein Klassifikationsschema gebracht, das semantische und grammatikalische Unterschiede zwischen unterschiedlichen Klassen auf unterschiedlichen Ebenen der Abstraktion repräsentiert
  • diese Taxonomien können dann benutzt werden, um Merkmale zu konstruieren, die stilistisch relevant sein können: auf der untersten Ebene können dies Funktionswörter oder part-of-speech-Unigramme sein; aber auch abstraktere Ebenen (Verteilung von semantischen Wortklassen) können für die Stilbestimmung eingesetzt werden

Inhaltswörter

  • eine problematische Kategorie, da Inhaltswörter je nach Thema und Kommunikationsbereich variieren
  • üblicherweise können sehr seltene Wörter und solche, die im Korpus eine stabile Verteilung aufweisen, ausgesondert werden
  • als erfolgreich haben sich auch Inhaltswort-n-Gramme und Kollokationen von Inhaltswörtern erwiesen

Buchstaben n-Gramme

  • einige Autoren behaupten, Buchstaben n-Gramme seien nützlich für die Identifizierung lexikalischer Präferenzen, ja sogar für grammatikalische und orthographische Vorlieben
  • der Vorteil: man braucht überhaupt kein linguistisches Wissen
  • offenbar gibt es gewisse Erfolge bei der Anwendung: insbesondere bei der Textsortenidentifikation oder bei der Messung der Ähnlichkeit von Dokumenten

Weitere Merkmale

  • morphologische Analyse: erfolgreich bei morphologisch komplexeren Sprachen
  • Frequenz und Verteilung von Satzzeichen
  • orthographische und/oder grammatikalische Fehler