Breivik’s ideological map

Posted on 1st September 2011 in authorship identification, ideology mapping, Visualisierung

Liebe Freunde der Sicherheit,

so wie viele seiner Vorgänger hat der Terrorist Anders Behring Breivik viel Text hinterlassen. Terrorismus ist Kommunikation. Terroristen handeln im Wissen, dass ihre Tat das System nicht umstürzen wird. Terroristische Akte wollen vielmehr Aufmerksamkeit auf eine Botschaft lenken und ihr zugleich Nachdruck verleihen. Selten spricht der Terrorakt jedoch für sich selbst. Der Terrorakt eröffnet vielmehr einen Interpretationsraum, durch den ganz unterschiedliche Wege führen können. Terroristen schreiben Texte, um diesen Raum zu verengen. Mit diesen Texten wollen sie die Interpretationsmacht über ihre Tat behaupten. Zugleich wollen sie uns zeigen, dass sie keine Terroristen sind, die nur Schrecken (lat. terror = „Schrecken“) verbreiten wollen. Sie wollen uns zeigen, dass ihr Ziel nicht die Einschüchterung durch sinnlose Gewalt ist, sondern dass sie eine politische Agenda haben, die auf der Basis rationaler Analysen und stringenter Argumente ihr Vorgehen rechtfertigt. Damit Terrorismus erfolgreich ist, braucht er Medien, die die Aufmerksamkeit auf seine Taten lenken und seine Rechtfertigungen reproduzieren. Deshalb haben alle Terroristen eine Medienstrategie. Deshalb schrieb Breivik sein Manifest „2083: A European Declaration of Independence“ und wählte das Internet für dessen Verbreitung. Das ist eine Möglichkeit, die Dinge zu sehen.


Ideologische Landkarte von Anders Behring Breivik

Breivik's ideological map



Eine andere Möglichkeit ist mir bei der Lektüre verschiedener Blogeinträge, vor allem zweier sehr anregender Texte von Michael Seemann, in den Sinn gekommen. In „Breivik, Queryology und der Weltkontrollverlust“ erklärt er queryologisch, wie sich der Einzeltäter sein geschlossenes Weltbild zurechtfiltern konnte. Mindestens ebenso interessant in diesem Kontext ist jedoch der Blogeintrag „Warum wir Dinge ins Internet schreiben“. Darin deutet mspr0 das Hinterlassen von Datenspuren im Netz als Möglichkeit sich unsterblich zu machen. Denn durch die Analyse dieser Datenspuren werde es in naher oder ferner Zukunft möglich, eine Persönlichkeit zu simulieren. Ins Internet schreiben, sich im Internet bewegen sei daher eine Art „Mindupload“.

Anders Behring Breivik muss damit gerechnet haben, während seiner Tat zu sterben, zumindest wird er es einkalkuliert haben. Ganz sicher aber ist er davon ausgegangen, für sehr lange Zeit sein Dasein im Gefängnis zu fristen. Wer sein Leben für eine Idee einsetzt, der will seine Identität mit der Idee verschmelzen und ihr Unsterblichkeit verleihen. Das Manifest „2083: A European Declaration of Independence“ ist Breiviks Mindupload. Simulieren können (und wollen) wir es nicht, aber visualisieren können wir es.


Die Grafik als zoombares PDF: breivik_ideological_map

comments: Kommentare deaktiviert für Breivik’s ideological map tags: , ,

Off Topic: Einige Fakten zu Spiegel Online – Statistik zur Ressortentwicklung von 2000-2010

Posted on 21st August 2011 in Off Topic

Liebe Freunde der Sicherheit,

heute mal etwas, was uns vom eigentlichen Thema des Blogs wegführt. Die am 25. Oktober 1994 als Onlineversion des Nachrichtenmagazins Der Spiegel gegründet Plattform ist die meistgeklickte Nachrichtenseite im deutschen Sprachraum. Aber wo Erfolg und publizisitische Macht sind, dort ist auch Kritik. Stefan Niggemeier kritisierte letzthin die zunehmende Fixierung auf Spannung statt auf die Nachrichteninhalte. Und Fefe spricht schon lange nur noch vom „ehemaligen Nachrichtenmagazin“. Medienkritische Blogs und Zeitschriften befassen sich ebenfalls mit Spiegel Online, etwa die von Timo Rieg verantwortete Zeitschrift Spiegelkritik (SpKr) oder der vom Journalisten Torsten Engelbrecht betriebene Spiegel-Blog, in dem Recherchefehler und Einseitigkeiten in der Berichterstattung des Leitmediums kritisch reflektiert werden.

Für ein kleines Forschungsprojekt beschäftige ich mich zurzeit ein wenig mit dem Sprachgebrauch auf Spiegel Online. Gewissermaßen als Nebenergebnis habe ich eine Statistik über die Artikel- und Textmengen in den Ressorts des Online-Magazins in den letzten 11 Jahren berechnet. Um der Diskussion um Spiegel Online eine breitere empirische Basis zu geben, habe ich gedacht, ich stelle die Zahlen mal als Grafiken online.

Zur Quelle: Ich habe alle Artikel im Online-Archiv von Spiegel Online gezählt. Manche Ressort-Archive gingen zum Zeitpunkt des Crawlens bis auf das Jahr 1997 zurück. Allerdings war ich mir unsicher, wie vollständig die Archive waren. Andere Ressortarchive begannen erst mit dem Jahr 2000. Daher sind m.E. die Ergebnisse erst ab dem Jahr 2000 valide. Die durchschnittliche Wortzahl pro Artikel ließ sich natürlich auch schon vorher mit dem vorhandenen (selektiven) Material berechnen. Es rauscht immer ein bisschen in den Daten. Die vorgestellten Tendenzen sind aber eindeutig. Ich kommentiere die Ergebnisse nicht, das habe ich schon hinreichend durch meine Auswahl gemacht.

Die folgende Grafik zeigt die Entwicklung der Artikelzahl in den jeweiligen Ressorts:


Spiegel Online: Absolute Anzahl Artikel je Ressort


Wenn man den prozentualen Anteil der Ressorts an der jährlichen Gesamttextmenge berechnet, dann ergibt sich folgende Grafik:


Spiegel Online: Anteil der Artikel der Ressorts an der Gesamtzahl der Artikel (jahresweise)


Für den, der es gerne etwas übersichtlicher hat: Hier mal die Entwicklung der Anzahl der Artikel in den Ressorts Panorama, Politik – Deutschland und Politik – Ausland:


Spiegel Online: Anzahl Artikel Panorama und Politik im Vergleich


Allerdings muss man der Fairness halber sagen, dass die Artikel im Ressort Panorama durchschnittlich kürzer sind, als die in den Politik-Ressorts. Die folgende Grafik zeigt die Entwicklung der durchschnittlichen Artikellängen in den Ressorts. Interessant ist der Knick nach 2009:


Spiegel Online: Entwicklung der durchschnittlichen Wortzahl je Artikel in den Ressorts


Schaut man sich die Gesamtwortzahl an, die in den jeweiligen Ressorts produziert wurde, dann fallen die Unterschiede zwischen Politik und Panorama nicht so krass aus:


Spiegel Online: Entwicklung der Wortzahl in den Ressorts Panorama und Politik im Vergleich


Hier auch noch ein Blick auf die anteilsmäßige Verteilung der Wortzahl auf die Ressorts:


Spiegel Online: Entwicklung der Anzahl Wörter je Ressorts an der Gesamtwortzahl


Wer die Ergebnisse in einer wissenschaftlichen Arbeit zitieren will, kann das so machen:
Scharloth, Joachim (2011): Einige Fakten zu Spiegel Online – Statistik zur Ressortentwicklung von 2000-2010. Online: http://www.security-informatics.de/blog/?p=372.
Ich schicke euch auch gerne die Zahlen zu. Aber WordPress und Tabellen sind halt keine Freunde und meine Zeit ist begrenzt. Die unveränderten Grafiken darf man natürlich verwenden, wenn die Quelle genannt wird.


comments: 10 » tags: ,

Linguistische Differenzialanalyse und Autorenidentifikation

Liebe Freunde der Sicherheit,

eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.

Linguistische Differenzialanalyse

Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:

„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)

Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.

Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.

Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode

Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.

Hierfür habe ich dreierlei benötigt:

  1. Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.

  2. eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.

  3. einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.

Ergebnisse: gerne | mit Freude | gern | mit Vergnügen

Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.

Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:


Standardabweichung Varianten
0.396034689707957 gerne | mit Freude | gern | mit Vergnügen
0.384572324926231 Glaube | Bekenntnis | Konfession | Denomination
0.383741494895807 kriminell | verbrecherisch | auf der schiefen Bahn | delinquent | straffällig
0.381850019132707 gütlich | friedlich | geruhsam | gewaltfrei | sanft | gütig | friedfertig | ohne Gewalt | verträglich | amikal | gewaltlos | herzensgut | friedliebend
0.380304172683078 passen | zurückstellen | aufschieben | aussetzen | verschieben | vertagen | intermittieren
0.378560699614743 weg | Fern | fern
0.372789498557065 Information | Schalter | Auskunftsschalter | Auskunft
0.371710005433523 Realität | Praxis
0.371674963099053 rechnen | rentieren | auszahlen | amortisieren | lohnenswert | lohnen | Früchte tragen | bezahlt machen
0.36944693958052 betreiben | nachgehen | ausüben
0.36617435642474 Raum | Kosmos | Weltraum | Weltall | Universum | Sphäre | All
0.363908308274997 billig | kostengünstig | kosteneffektiv | preiswert | wohlfeil | kostenwirksam | preisgünstig | günstig | spottbillig
0.363872962376017 heraus | hervor
0.362606570091546 Vater | Erzeuger | Daddy | Vati | Senior | der Alte | Papi | Kindsvater | Paps | alter Herr | leiblicher Vater | Dad | Papa | Pa
0.362155688620303 verurteilen | verdonnern | bestrafen | für schuldig erklären | aburteilen | schuldig sprechen | mit Strafe belegen | Strafe verhängen
0.361149279496628 verantwortlich | zuständig
0.360881847188603 passen | geeignet
0.360877848087947 drücken | knautschen | pressen | zwängen | pferchen | stopfen | quetschen | pfropfen | proppen
0.36060656555393 Entwicklung | Änderung | Tapetenwechsel | Dynamik | Veränderung
0.360040253521303 vergessen | übersehen | verschwitzen | verschlafen | verfehlen | verpassen | versäumen | verpennen
0.359950475146227 anschließen | beitreten | Mitglied werden
0.359570245588916 richten | urteilen
0.358943241670499 aktiv | umtriebig | engagiert | unter Strom stehend | rege | betriebsam
0.35883310781789 unbedingt | mit aller Macht | ganz und gar | auf Gedeih und Verderb | bedingungslos | auf Biegen und Brechen | um jeden Preis | rückhaltlos | mit aller Gewalt | auf Teufel komm raus | ohne Rücksicht auf Verluste
0.357590418501272 Öffentlichkeit | Allgemeinheit | Gemeinwesen
0.357565689315277 überlegen | dominierend | tonangebend | am stärksten ausgeprägt | übermächtig | führend | herrschend | beherrschend | am ausgeprägtesten | dominant
0.357282147746873 Stelle | Ortsangabe | Position | Lokalität | Örtlichkeit | Lokalisation
0.357222116951858 aufnehmen | einwerfen | reinziehen | konsumieren | reinzischen | schlucken | einnehmen | ingestieren | reinpfeifen | zu sich nehmen
0.356676679221292 Schule | Lager | Strömung
0.356337633441186 Reihe | Anzahl
0.355919880776704 kaufen | ankaufen | erwerben | aufkaufen | erkaufen | erstehen
0.355352816416153 sammeln | regenerieren | wiederherstellen | neu erstellen | erholen | berappeln
0.355209713591625 Kommentar | Notiz | Anmerkung
0.354982488402154 hart | grausam | empfindungslos | hartherzig | kalt | kaltherzig | eisig
0.354591844205998 langsam | nach und nach | gemütlich | allmählich | geruhsam | gemach | ruhig | gemächlich
0.354328900327031 Wert | Rang | Bedeutung | Wichtigkeit | Geltung | Einfluss
0.354060472670956 merken | realisieren | registrieren | perzipieren | zur Kenntnis nehmen | wahrnehmen | mitbekommen
0.353578904341922 Pflicht | Agenda | Obliegenheit | Schuldigkeit | Verbindlichkeit | Verpflichtung
0.353533447923133 stimmen | aussprechen | plädieren
0.353483316676806 Zahl | Wert
0.35347391485945 Gewalt | Heftigkeit | Schwung | Wucht | Vehemenz | Kraft | Ungestüm | Schmackes | Karacho
0.352956200168923 schützen | beschützen | sichern
0.352517940599203 herrschen | regieren
0.35232461896263 Studie | Analyse
0.352296794150891 gestalten | einrichten
0.352192163220551 verantwortlich | verantworten | den Hut aufhaben | verantwortlich zeichnen | Verantwortung tragen
0.352048952616805 Zustimmung | Zuspruch | Beipflichtung | Bestätigung | Bejahung | Affirmation | Bekräftigung | Zusagung
0.351173408423386 beantragen | vorschlagen


Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.

Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…


Literatur:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

 

 

comments: Kommentare deaktiviert für Linguistische Differenzialanalyse und Autorenidentifikation tags: , , , , , , , , ,

Rezension zu: Drommel, Der Code des Bösen

Liebe Freunde der Sicherheit,

das Ende der Anonymität wird überall ausgerufen: getarnt als Zeitgeistphänomen „Post-privacy“ von den Spacken der datenschutzkritischen Spackeria, von Google+ und Facebook, die sich weniger Cybermobbing und Trolling verprechen, wenn alle im Internet mit Klarnamen auftreten, und nicht zuletzt im Namen der Demokratie von unserem geschätzten Internet-Experten und Innenminister Hans-Peter Friedrich. Solche Überlegungen könnten sich schon bald als überflüssig erweisen, dann nämlich, wenn es gelänge, alle Internetbewohner anhand ihres individuellen Schreibstils zu identifizieren. Dass dies bald der Fall sein könnte, das verspricht uns ein Buch, das kürzlich beim Wilhelm Heyne Verlag erschienen ist und den Titel „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ trägt.

Sein Autor ist Raimund H. Drommel, der verdienstvolle Begründer der akademisch fundierten forensischen Linguistik in Deutschland. Mit seinem Buch liefert er einen Rückblick auf die spektakulärsten seiner „mehr als 1000“ Fälle und „über 300 Gerichtsgutachten“. Und was uns Freunde der Sicherheit freut und hoffnungsfroh in die Zukunft schauen lässt: Drommel „lag immer richtig“ (8).

Die sprachtheoretische Annahmen, die Drommels Arbeit zugrunde liegt, lässt sich anhand eines Vergleichs erläutern. Er schreibt:

„Was kaum jemand weiß: Jeder Mensch bedient sich einer ganz eigenen Sprache; sie ist beinah so unverwechselbar wie unsere DNS. Liegen adäquate Sprachproben vor, kann sie fast ebenso wie diese zweifelsfrei zugeordnet werden. Wir hinterlassen linguistische Spuren, wenn wir etwas sagen oder schreiben.“ (17)

Vom Vergleichsgegenstand DNS überträgt Drommel damit die folgenden Eigenschaften auf den Sprachgebrauch:

  1. Einmaligkeit: der Sprachgebrauch eines Menschen ist so einmalig, dass er seine Identifizierung ermöglicht; Sprachgebrauch ist verräterisch
  2. Unbewusstheit: wir gebrauchen die Sprache (oder zumindest die verräterischen Teile von ihr) unbewusst
  3. Unveränderbarkeit: man kann seinen Sprachgebrauch nicht willkürlich ändern
  4. Wissenschaftliche Erschließbarkeit: um die „sprachliche DNS“ zu entschlüsseln, braucht man wissenschaftliche Methoden; sie ist nicht jedem Intellekt zugänglich

Drommel, früher Professor an der Universität zu Köln, ist ein gestandener Sprachwissenschaftler und weiß natürlich, dass der Vergleich in vielerlei Hinsicht hinkt und sprachtheoretisch nicht haltbar ist. Die Rede von der sprachlichen DNS und – an anderer Stelle – von einem sprachlichen Fingerabdruck (21f) oder einem individuellen Sprachprogramm (40) in jedem Menschen sind Versuche, sprachwissenschaftliche Zusammenhänge durch Anschluss an das Alltagswissen verständlicher zu machen. So setzt sich Drommel selbst kritisch mit Ausdrücken wie „sprachlicher Fingerabdruck“ auseinander, die gerne von sprachwissenschaftlich unbefleckten Sicherheitsinformatikern benutzt werden, um mehr Forschungsgeld einzustreichen.

Cover des Buchs "Der Code des Bösen"

Cover des Buchs "Der Code des Bösen"

Trotz dieser kritischen Selbstreflexionen sind die Gutachten, die Drommel mit seinen Methoden erstellt, vor Gericht als Beweismittel anerkannt. Drommel war Gutachter für den Generalbundesanwalt und hat entscheidend dazu beigetragen, den geheimen Code der RAF zu entschlüsseln. Darüber durfte er jedoch im vorliegenden Buch nichts schreiben. Dennoch lesen sich die einzelnen Kapitel wie eine kleine Geschichte jener Ereignisse, die die Bundesrepublik (und die Schweiz und Österreich) seit den 1980er Jahren bewegten: Entführungen reicher Unternehmer, fingierte Selbstmorde von am Waffenhandel beteiligten Rechtsanwälten, Vorwürfe sexueller Nötigung gegen Medienschaffende, aber auch handfeste politische Skandale wie die niedersächsischen Spielbankaffäre, die Lotto-Affäre in Hessen oder der Tod Uwe Barschels und die Verwicklungen der Kieler CDU-Spitze in die Machenschaften gegen Engholm. In allen Fällen spielten Texte aus der Feder von Opfer oder Täter eine gewichtige Rolle. Und Drommel weiß spannend und detailreich über die Fälle zu erzählen. Allerdings, und es schmerzt mich als Linguisten, das zugeben zu müssen: Die Spannung ergibt sich meist aus dem breiteren kriminalistischen oder zeithistorischen Kontext, weniger aus der Schilderung der sprachlichen Analysen, von denen man den Eindruck gewinnt, dass sie sehr mühsam sein müssen.

Drommel unterscheidet grundsätzlich zwei Fallkonstellationen:

  1. Der Täter ist unbekannt, mit Hilfe einer sprachlichen Analyse soll aber etwas über seine soziale Herkunft in Erfahrung gebracht werden, um so den Kreis möglicher Täter einzugrenzen. Diese Tätigkeit nennt Drommel Sprachprofiling.
  2. Es gibt einen engen Kreis Tatverdächtiger und anhand der vorliegenden sprachlichen Daten soll entschieden werden, wer der Verdächtigen mit größter Wahrscheinlichkeit der Urheber eines Textes ist, der im Kontext eines Verbrechens entstanden ist. Bei dieser Tätigkeit würde ich von Autorenidentifikation sprechen.

Häufig folgen die beiden Fallkonstellationen freileich auf einander, d.h. dass mit Hilfe des Profiling und anderer kriminalistischer Mittel der Täterkreis so weit eingeschränkt wird, dass im Anschluss eine Autorenidentifikation möglich ist.

Wenn Drommel Texte analysiert, dann tut er dies auf allen Ebenen: auf der Ebene des Textkörpers (optische Gestaltung wie Absätze, Überschriften etc.), der grammatischen Formen und Partikeln, des Satzbaus, des Wortgebrauchs und auch auf der Ebene allgemeinerer stilistischer Merkmale, die die Satzebene überschreiten. Wichtige Indizien sind natürlich sprachliche Fehler.

Insbesondere auf der Ebene der Partikeln und der Lemmata benutzt er computergestützte Verfahren, von denen er die „computerbasierte Konkordanzanalyse“ als wichtigstes bezeichnet. Dabei „werden die zu analysierenden Texte in ein spezielles Programm eingelesen und Wort für Wort, Satz für Satz miteinander verglichen.“ (55) Auf diese Weise zeigen sich dem geübten Auge die Unterschiede und Ähnlichkeiten zwischen Texten. Konkordanzen zeigen das jeweilige sprachliche Phänomen in allen sprachlichen Kontexten, in denen sie auftreten. Den Vergleich der Gebrauchsweisen und die Bewertung scheint Drommel selbst ‚von Hand‘ vorzunehmen. Es handelt sich also um eine Mischung aus maschinellem und qualitativem Verfahren. Dies mag solange funktionieren, wie der Umfang der Texte noch einigermaßen überschaubar ist. Für größere Textmengen wäre eine Automatisierung des Abgleichs und eine Quantifizierung der Ergebnisse mittels Signifikanztests sicher die effizientere und womöglich auch die gerichtsfestere Art des Vorgehens. Es verwundert auch, dass Drommel trotz seiner großen Verdienste um die Standardisierung der forensischen Linguistik und seine Bemühungen um die Objektivierung seiner Ergebnisse nicht auf Verfahren maschinellen Lernens setzt, die in der informatischen Autorenidentifikation inzwischen Standard geworden sind.

Insgesamt liegt mit „Dem Code des Bösen“ ein Buch vor, das das Potenzial von Sprachprofiling und Autorenidentifikation einem breiteren Publikum vorstellt. Es gewährt uns Einblick in die Arbeitsweise eines erfahrenen Gutachters, der mit viel kriminalistischer Akribie, aber auch wissenschaftlicher Begeisterung und großem persönlichem Engagement bei der Sache ist.


Bibliographische Angabe:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

Kollokationsgraphen und Ideologieerkennung am Beispiel der Sprache des militanten Islamismus

Liebe Freunde der Sicherheit,

heute möchte ich euch zeigen, wie man Kollokationen dafür benutzen kann, Schemata, Einstellungen oder Ideologien in Texten zu erkennen und zwar am Beispiel des militanten Islamismus. Wer noch nicht weiß, was Kollokationen sind, sollte in einem frühreren Artikel nachlesen.

Kollokationsgraphen

Kollokationen lassen sich als Graphen visualisieren. Was sind Graphen? Nach einer einfachen Definition sind Graphen Mengen von Punkten, zwischen denen Linien verlaufen. Sie dienen der Visualisierung von Zusammenhängen, wobei die Knoten meist Entitäten oder Konstrukten entsprechen und die Kanten Relationen. Im Fall von Kollokationsgraphen sind die Punkte Basen oder Kollokationen und die Kanten stehe für „ist Kollokation von“.

Kollokationsgraphen sind also Visualisierungen von in einem Textkorpus häufig auftretenden Wortverbindungen. Visualisierungen braucht man vor allem dann, wenn man eine große Menge von Daten hat, die man mit traditionellen Darstellungsformen wie Listen oder Tabellen nicht mehr überblicken kann. Die Kollokationen zu einem Wort lassen sich natürlich noch leicht in einer Liste zusammenfassen. Berechnet man aber die Kollokationen zu allen Wörtern in einem Textkorpus und möchte man darüber hinaus noch wissen, welche Wörter welche Kollokationen gemeinsam haben, dann ist das mit einem durchschnittlich leistungsfähigen Gehirn nicht mehr zu schaffen.

Militant islamistische Einstellungen in einem Diskussionsforum

Möchte man nun zum Beispiel anhand von Kollokationen untersuchen, welche Autorinnen und Autoren militant islamistische Positionen in einem Diskussionsforum vertreten, dann muss man zunächst wissen, welche Kollokationen als militant-islamistisch gelten sollen. Das lernt man, indem man zunächst Texte zu einem Korpus zusammenstellt, von denen man weiß, dass sie militant-islamistische Positionen vertreten. „Wissen“ heißt hier, dass jemand diese Texte tatsächlich gelesen und entsprechend bewertet haben sollte. Eigentlich ist das nichts für Korpuslinguisten, denn die sind faul und lesen ihre Texte nicht mehr. Zum Glück gibt es aber den Bundesverfassungsschutz, der uns hier die Arbeit abnimmt. Er hat zum Beispiel die deutsche Webseite der Islambrüderschaft als militant extremistisch eingestuft.

Wir laden uns also sämtliche Texte auf der Seite der Islambrüderschaft herunter, bauen ein hübsches Korpus daraus und berechnen für jedes Lemma die Lemmakollokationen. Am besten vergleichen wir die Liste noch mit einer Kollokationsliste eines nicht-extremistischen Referenzkorpus und streichen all jene Kollokationen, die nicht exklusiv im Islambrüderschaft-Korpus vorkommen. Nun haben wir eine Liste von Kollokationen, die für die Sprache des militanten Islamismus als typisch gelten können.

Als nächstes laden wir uns ein Diskussionsforum herunter und bilden autorenspezifische Korpora, d.h. wir fassen alle Posts von einem Nick zu einem Korpus zusammen. Auch hier berechnen wir zu jedem vorkommenden Lemma die Kollokationen.

Visualisierung militant-islamistischer Einstellungen

Nun kann man für jede autorenspezifische Kollokationsanalyse einen eigenen Kollokationsgraphen berechnen. So werden Wörter, die in den einzelnen Posts häufig miteinander auftreten, sichtbar gemacht. Interessant wird es für die Freunde der Sicherheit dann, wenn man jene Wortverbindungen, die sich auch bei der Islambrüderschaft finden, in den autorenspezifischen Graphen hervorhebt.

Ich habe das mal mit einem Diskussionsforum durchgerechnet, das vom Verfassungsschutz als islamistisch eingestuft wird, wenn auch nicht als militant-islamistisch. Wer wissen möchte, um welches Forum es sich handelt, kann mir gerne eine Mail schicken. Ich werde aber die Nicks nicht verraten. Das Forum ist sehr umfangreich und hat ca. 100 Mio laufende Wortformen.

Im Folgenden seht ihr einen Kollokationsgraphen von einem User, den wir als nicht militant-islamistisch einstufen würden. Es zeigen sich nur wenige typische Wortverbindungen, die auch typisch für die Islambrüderschaft sind. Diese sind im Graphen rot markiert.

 

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

 

Auch im Kollokationsgraphen eines zweiten Users sind Wortverbindungen, die als Indikatoren einer militant-islamistischen Gesinnung gelten können, nur in geringer Zahl vertreten.

 

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

 

Anders ist es bei den Posts zu einem dritten Nick. Hier sind sehr viele Kollokationen rot markiert und dies an fast allen Verdichtungspunkten des Graphen. Die Autorin oder der Autor zeigen also in vielen Themenbereichen (denn als solche lassen sich die Verdichtungsbereiche interpretieren) ähnliche sprachliche Muster wie in den Texten der Islambrüderschaft. Die Freunde der Sicherheit würden sich bei diesem Befund die Texte wohl noch einmal genauer anschauen.

 

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

 

Natürlich könnte man das Verfahren noch verfeinern, indem man beispielsweise die extrahierten militant-islamistischen Kollokationen inhaltlich gewichtet. Aber das ginge nun wirklich zu weit für einen kurzen Blog-Eintrag.

Sicher kann man bezweifeln, ob Kollokationen und Kollokationsnetze wirklich die hermeneutische Lektüre von Texten zu ersetzen. Aber das hieße, das heuristische Potenzial der angewandten Korpuslinguistik misszuverstehen. Denn sie will nicht hermeneutische Lektüren ersetzen. Sie entwickelt Kategorien und Modelle nach eigener Logik, deren Brauchbarkeit sich daran bemisst, ob sie im Rahmen konkreter Anwendungen einen Nutzen haben.

 

 

comments: Kommentare deaktiviert für Kollokationsgraphen und Ideologieerkennung am Beispiel der Sprache des militanten Islamismus tags: , , , , ,

Was sind Kollokationen?

Posted on 2nd Juli 2011 in Kollokationen, Linguistische Kategorien, Semantik

Liebe Freunde der Sicherheit,

heute möchte ich euch eine linguistische Kategorie vorstellen, mit deren Hilfe man mehr über Texte bzw. ihre Autorinnen und Autoren lernen kann, als mit einer einfachen Schlagwortsuche. Und zwar geht es heute um Kollokationen. Sicher ist euch schon aufgefallen, dass manche Wörter öfter zusammen vorkommen als andere. Warum zum Beispiel sagt man „einen Weg einschlagen“ statt „einen Weg wählen“? Warum „begeht“ oder „verübt“ man Terroranschläge statt sie zu „machen“? Oder warum kommt in den Texten der NPD „Ausländer“ sehr häufig zusammen mit dem Wort „kriminell“ vor?

Während wir bei „Weg einschlagen“ und „Terroranschlag verüben“ nicht sagen könne, warum wir ausgerechnet diese Wörter zusammen benutzen, ist das Wortpaar „kriminelle Ausländer“ relativ leicht als Ausdruck einer Ideologie zu deuten. Und wenn man anhand einer Vielzahl solcher häufig gemeinsam gebrauchter Wörter eine Ideologie aus Texten extrahieren kann, dann ist das ein hübscher Ansatzpunkt für Internetüberwacher und Sprachprofiler.

Zwei Definitionsansätze

Solche mehr oder weniger festen Verbindungen von Wörtern nennt man in der Sprachwissenschaft Kollokationen. Natürlich ist sich die Linguistik uneins darüber, was eine Kollokation ist.

Die einen definieren Kollokationen über formale und semantische Merkmale. Demnach könne man die Bedeutung einer Kollokation oft nicht vollständig aus der Bedeutung ihrer Komponenten herleiten, wie das zum Beispiel bei der Wortfolge „keine müde Mark“ der Fall ist. Außerdem seien die Elemente von Kollokationen nicht einfach durch Synonyme oder ähnliche Wörter ersetzbar. „Mittel zum Zweck“ kann man zwar sagen, nicht aber „Mittel zum Ziel“. Und schließlich könne man Kollokationen auch nicht morphologisch modifizieren, also zum Beispiel „zu Sachen kommen“ statt „zur Sache kommen sagen“. Um eine Kollokation nach dieser Definition zu bestimmen, braucht man linguistische Tests und ein gehöriges Maß an Intuition. Für die Freunde der Sicherheit ist diese Definition daher nur bedingt hilfreich.

Der zweite Definitionsansatz eignet sich da schon viel besser. Er definiert Kollokationen als statistisch überzufällig häufige Wortkombinationen, die in natürlicher Sprache gemessen werden können. Kollokationen sind damit ein sprachstatistisches Phänomen und mithin brauchbar für automatisierte Textanalyse.

Wie berechnet man Kollokationen?

Man berechnet Kollokationen zu einem Lemma wie folgt: Man teilt das Korpus in zwei Subkorpora: eines, das den Kontext des gesuchten Wortes (nehmen wir mal das Wort „Zeit“ als Beispiel) bei jedem seiner Auftreten umfasst; ein zweites, das aus dem Rest des Korpus besteht. Kommt nun ein Wort in Subkorpus 1 (also im Kontext des Lemmas „Zeit“) signifikant häufiger vor als im Subkorpus 2, dann handelt es sich um eine Kollokation zum Wort „Zeit“.

 

Kollokationsanalyse zum Wort "Zeit"

Textfenster bei der Berechnung von Kollokationen zum Wort "Zeit": 3 Wörter links, 3 Wörter rechts, Satzgrenze berücksichtigt

 

Im Beispiel hier sind beispielsweise die Lemmata „kurz“, „letzt“, aber auch „in“, „zu“ und der bestimmte Artikel gute Kandidaten.

 

Kollokationsanalyse zum Wort "Zeit"

Mögliche Kollokationen zum Wort "Zeit" (rot)

 

Berechnungsparameter

Kollokationen sind aber natürlich trotzdem nicht objektiv gegeben. Es hängt in hohem Maße von den Berechnungsparametern ab, was als eine Kollokation zu einer Basis aufgefasst wird und was nicht. Zum Beispiel kann man den Raum um die Basis herum variieren, der in den Grafiken oben gelb markiert ist. Man kann Kollokationen aber zum Beispiel auch nur für mit solchen Wörtern berechnen, die im selben Satz stehen. Man kann aber auch grammatische Konstruktionen (z.B. Subjekt-Prädikat-Verbindung) oder Phrasen (Nominalphrasen) als Räume für die Berechnung von Kollokationen ansetzen. Je nach Fragestellung kann es sogar sinnvoll sein, den gesamten Text als Kollokatorenraum zu betrachten. Man erhält jeweils sehr unterschiedliche Ergebnisse.

Natürlich liefert die Kollokation zu einem Wort noch nicht hinreichende Informationen darüber, ob ein Autor oder eine Autorin demnächst einen Kabelbrand legt oder ein Auto anzündet. Aber ich werde demnächst ein paar Beispiele zeigen, was man mit Kollokationen alles machen kann.

 

comments: 1 » tags: ,

Textklassifikation und Autorenidentifikation mit Hilfe komplexer n-Gramm-Analyse

Heute möchte ich eine Methode zur Klassifikation von Texten vorstellen, in der sprachliche Einheiten nicht isoliert betrachtet werden, sondern jeweils kleine Fetzen sprachlichen Materials analysiert werden. Je größer die analysierten Fetzen sind, desto eher kann man natürlich davon ausgehen, dass sie irgendwelche relevanten Informationen transportieren: Ein Satz enthält mehr Informationen als zwei Wörter. Je größer allerdings die Einheiten sind, desto unwahrscheinlicher ist es, dass sie in der gleichen Form wieder auftreten. Das ist wiederum problematisch, weil man bei der Analyse ja nach wiederkehrenden Mustern sucht und je größer die Einheiten sind, desto mehr Text braucht man, damit man wiederkehrende Muster in aussagekräftiger Zahl bekommt. Alles eine Frage der Skalierung also. Die im Folgenden beschriebene und erprobte Methode könnte man als komplexe n-Gramm-Analyse bezeichnen.

komplexe n-Gramme

n-Gramme sind Einheiten, die aus n Elementen bestehen. Normalerweise werden n-Gramme als Folge von Wortformen verstanden. Im Rahmen einer n-Gramm-Analyse werden alle im Korpus vorkommenden n-Gramme berechnet, wobei bestimmte Parameter wie Länge der Mehrworteinheit (aus zwei, drei oder mehr Wörtern bestehend) oder Spannweite (sind Lücken zwischen den Wörtern erlaubt?) festgelegt werden. Die hier verwendete n-Gramm-Analyse betrachtet jedoch nicht nur Wortformen als Einheiten, sondern auch weitere interpretative linguistische Kategorien. Dies können zum einen Elemente sein, die sich auf die Tokenebene beziehen und die Wortform funktional oder semantisch deuten (als Repräsentant einer Wortart oder als Teil einer semantischen Klasse). Zum anderen aber auch Elemente, die über die Tokenebene hinausgreifen, etwa das Tempus oder die Modalität einer Äußerung (direkte vs. indirekte Rede).

Kombinationen von n Einheiten

Welche Elemente in die Analyse mit einbezogen werden, hängt einerseits von der jeweiligen Forschungsfrage ab, andererseits forschungspraktisch auch davon, welche Ressourcen für die Annotation des Korpus zur Verfügung stehen. Bei standardsprachlichen Korpora können Lemma- und Wortarteninformationen durch Tagger wie dem TreeTagger leicht und effizient annotiert werden. Eine Wortformenfolge wie „Ich glaube, dass“ hat dann in einem XML-annotierten Korpus etwa folgende Form:

<w pos=“PPER“ lemma=“ich“>Ich</w>
<w pos=“VVFIN“ lemma=“glauben“>glaube</w>
<w pos=“$,“ lemma=“,“>,</w>
<w pos=“KOUS“ lemma=“dass“>dass</w>

Berechnet man nun beispielsweise Tetragramme, die nicht nur die Wortformen, sondern auch Lemmata und Wortarteninformationen als weitere Elemente mit einzubeziehen, dann ergeben sich bei drei Dimensionen 3^4=81 Vier-Einheiten-Kombinationsmöglichkeiten:

Ich glaube , dass
ICH GLAUBEN , DASS
PPER glaube , dass
PPER GLAUBEN, dass
Ich VVFIN , dass
Ich glaube , KOUS
PPER VVFIN , dass

Jedes der Tetragramme, das sich in einem der beiden Korpora findet, kann nun als eine Variable aufgefasst werden, aufgrund deren Verteilung sich die Texte im Korpus potenziell stilistisch unterscheiden.

Das GerMov-Korpus

Die folgenden Untersuchungen werden anhand des GerMov-Korpus, einem Korpus zur gesprochenen und geschriebenen Sprache der 68er-Bewegung durchgeführt. Das Korpus habe ich im Rahmen einer umfangreichen Studie zum Einfluss von 68er-Bewegung und Alternativmilieu auf die Kommunikationsgeschichte der Bundesrepublik Deutschland erstellt. Bei der Zusammenstellung des Korpus und seiner Subkorpora waren zunächst außersprachliche Gesichtspunkte, in einem zweiten Schritt textlinguistische Überlegungen leitend. Das Korpus sollte es u. a. erlauben, unterschiedliche Stile der verbalen face-to-face-Interaktion innerhalb der 68er-Bewegung zu rekonstruieren. Dabei wurde ausgehend von der Forschung zum Kleidungsverhalten  und zur medialen Vermittlung expressiver Formen des Protests  von einer lebensstilistischen Dualität innerhalb der Bewegung ausgegangen, die ihre Wurzeln auch in konkurrierenden Ideologien hatte.

Sozialstilistik der 68er-Bewegung

Auf der einen Seite standen die Träger eines intellektuell-avantgardistischen Stils. Bei ihnen handelte es sich um Angehörige unterschiedlicher sozialer Gruppen, die während der 68er-Bewegung aber intensiv kooperierten: zum einen die Studierenden, vornehmlich solche, die in linken Studentenverbänden organisiert waren, zum anderen Linksintellektuelle, die in Politik, Universität, Verwaltung oder im kulturellen Sektor bereits Karriere gemacht hatten, die sich beispielsweise in Republikanischen Clubs zusammenfanden. Sie pflegten einen auf symbolische Distinktion zunächst weitgehend verzichtenden Lebensstil, trugen Anzug oder Freizeitkleidung (Hemd und Pullovern, Jacket und Cordhose) und praktizierten Lebensformen wie andere Menschen ihrer Berufsgruppen. Nur in einem Bereich legten sie Wert auf Unterscheidung: Sie inszenierten sich als intellektuelle Informations- und Diskussionselite.

Auf der anderen Seite standen die Träger eines hedonistischen Selbstverwirklichungsstils, der in Kommunen und Subkulturen geprägt wurde. Sie entdeckten den eigenen Körper als zentrales Medium des expressiven Protestes, griffen – ähnlich den amerikanischen Hippies – tief in den Fundus von Kostümverleihen und Second-Hand-Läden, spielten mit Nacktheit und Schmuck, ließen sich Bärte und Haare wachsen und praktizierten eine ostentativ informelle Körpersprache. Sie verschmolzen antibürgerliche symbolische Formen mit denen jugendlicher Populärkultur zu einem sich als individualistisch verstehenden, lustbetonten Lebensstil: Die Revolution sollte bei jedem Einzelnen beginnen und vor allem Spaß machen. Während die intellektuellen Avantgarden das Ziel der 68er-Bewegung in einer Umwälzung der Besitz- und Produktionsverhältnisse sahen, begriffen die hedonistischen Kommunarden also die Bewegung als Chance für die Entwicklung und Praktizierung neuer Lebensformen, die eine gesellschaftliche Veränderung zwangsläufig mit sich bringen würde.

Zusammensetzung des Korpus

Die Kriterien der Milieuzugehörigkeit der Textproduzenten, der Medialität / Textsorte und der Kommunikationssituation setzte der Textauswahl sehr enge Grenzen. Die einzige Textsorte, für die hinsichtlich aller Kriterien eine hinreichende Menge an Texten gefunden werden konnte, waren Tonbandprotokolle. Insgesamt konnten 29 Tonbandprotokolle aus den Jahren 1967 bis 1969 in Archiven und zeitgenössischen Buch- und Zeitschriftenpublikationen gefunden werden, davon stammen 21 aus dem hedonistischen Selbstverwirklichungsmilieu, 8 aus dem linksintellektuellen Milieu. Die Zuordnung erfolgte beim linksintellektuellen Milieu anhand der identifizierbaren Gesprächsteilnehmer und deren Zugehörigkeit zu politischen Gruppen, die jeweils den Milieus eindeutig zuzuordnen waren. Die Protokolle aus dem Kommunemilieu waren ausnahmslos als solche betitelt und wurden in szenetypischen Kontexten publiziert, was auch hier eine zweifelsfreie Zuordnung ermöglichte.

Das GerMov-Korpus wurde mit Hilfe des TreeTaggers tokenisiert, mit Wortarten-Informationen annotiert und lemmatisiert. Beim verwendeten Tagset handelt es sich um das Stuttgart-Tübingen-Tagset (STTS).  Darüber hinaus wurden einige Kategorien auf der Token-Ebene wie Kommunikationsverben, Intensivierer und Schlagwörter der Neuen Linken annotiert.

Textclustering mittels komplexer n-Gramme

Berechnungsparameter: Berechnet wurden komplexe Pentagramme ohne Leerstellen, die aus den Dimensionen Wortarteninformation (einschließlich semantischer Klassen) und Wortformen zusammengesetzt wurden, wobei auf der Dimension Wortform nur Funktionswörter und Satzzeichen in die Analyse einbezogen wurden. Auf die Dimension Lemma wurde gänzlich verzichtet. Die Pentagramme wurden über Satzgrenzen hinaus berechnet. Es wurden nur solche n-Gramme in die Analyse aufgenommen, die im Gesamtkorpus mindestens vier Mal auftraten. Um den Einfluss der Textlängendifferenz zu reduzieren, wurden für die hierarchische Clusteranalyse nach dem Ward-Verfahren die Frequenzen der n-Gramme nach der Textlänge gewichtet.

Nun aber zu den Ergebnissen der Clusteranalyse: Im folgenden Dendrogramm sind die Namen der Texte so gewählt, dass die anhand außersprachlicher Kriterien erfolgte Milieuzuteilung ersichtlich ist. „Linksintellektuell“ steht für das linksintellektuell-avantgardistische Milieu, „Hedonistisch“ für das hedonistische Selbstverwirklichungsmilieu. Die Ziffer im Anschluss an die Milieubezeichnung ist lediglich eine Identifizierungsnummer. Fünf der 21 Protokolle aus dem hedonistischen Selbstverwirklichungsmilieu stammen aus einer einzigen Kommue, der sog. Linkseckkommune. Sie wurden zusätzlich mit einem „l“ nach der ID gekennzeichnet.

Dendrogramm des Textclusterings anhand komplexer n-Gramme von Tonbandprotokollen der 68er-Bewegung

Dendrogramm des Textclusterings anhand komplexer n-Gramme von Tonbandprotokollen der 68er-Bewegung

Die Clusteranalyse zeigt, dass die Protokolle aus dem linksintellektuellen Milieu ein Cluster bilden, das sich deutlich von den Protokollen des hedonistischen Selbstverwirklichungsmilieus unterscheidet. Innerhalb der Protokolle des hedonistischen Selbstverwirklichungsmilieus bilden die fünf Protokolle aus der Linkeckkommune wiederum ein eigenes Cluster. Die größte Differenz jedoch besteht zwischen Protokoll 14 aus dem hedonistischen Selbstverwirklichungsmilieu und allen anderen Protokollen. Wie ist dieser Unterschied zu erklären? Offensichtlich werden hier Effekte der Textlänge sichtbar. Das Protokoll Nummer 14 ist mit einer Länge von gerade einmal 71 Wörtern das kürzeste und enthält damit offenbar nicht hinreichend viel Text, um aus ihm eine für stilistische Analysen hinreichend große Menge an n-Grammen zu bilden. Die Gewichtung der Frequenz der auftretenden n-Gramme nach der Textlänge dürfte den Effekt noch verstärkt haben.

Geht man von der Annahme aus, dass den sozialstilistischen Unterschieden, auf deren Basis die Zuweisung der Texte zu Milieus erfolgte, auch kommunikationsstilistische Unterschiede korrespondieren, so deuten die Ergebnisse darauf hin, dass das gewählte Verfahren dazu ziemlich gut geeignet ist, stilistische Unterschiede aufzudecken.

Man muss aber der Ehrlichkeit halber hinzufügen, dass die stilistischen Unterschiede in den Texten wirklich sehr ausgeprägt sind und auch bei einer einigermaßen aufmerksamen Lektüre hätten auffallen müssen. Wirklich überrascht war ich allerdings davon, dass sich alle Protokolle der Linkeckkommune tatsächlich in einem Cluster wiederfanden.


Ausführlich nachlesen kann man das Ganze übrigens hier:

Scharloth, Joachim / Noah Bubenhofer (2011): Datengeleitete Korpuspragmatik: Korpusvergleich als Methode der Stilanalyse. In: Ekkehard Felder / Marcus Müller / Friedemann Vogel (Hrsg.): Korpuspragmatik. Thematische Korpora als Basis diskurslinguistischer Analysen von Texten und Gesprächen. Berlin, New York: de Gruyter.

Scharloth, Joachim / Noah Bubenhofer / Klaus Rothenhäusler (2011): „Anders schreiben“ aus korpuslinguistischer Perspektive: Datengeleitete Zugänge zum Stil. In: Britt Marie Schuster / Doris Tophinke: Anders schreiben. Berlin: Erich Schmidt Verlag.




comments: Kommentare deaktiviert für Textklassifikation und Autorenidentifikation mit Hilfe komplexer n-Gramm-Analyse tags: , , , , , ,

Wortschatz-Komplexitätsmaße im Test

Hier mal eine kleine Illustration, welche Ergebnisse die Wortschatz-Komplexitätsmaße für die Klassifikation von Texten liefern. Als Beispielkorpus habe ich die Texte der militanten gruppe gewählt, weil deren Texte vom BKA schon einmal einer forensischen Analyse unterzogen wurden: einer Analyse im Hinblick auf die Ähnlichkeit mit den Texten eines Soziologen, den man verdächtigte Mitglied der Gruppe zu sein. Dabei sollen Inhaltswörter das Hauptkriterium gewesen sein, wollen uns der Spiegel und andere Medien glauben machen. Die Analyse wurde zu einem jener Indizen, mit denen Überwachung, Festnahme und U-Haft des Soziologen gerechtfertigt wurden. Die folgenden Proberechnungen sind keine ernst zu nehmenden forensischen Analysen, die irgend etwas über die Autoren der Texte der mg aussagen. Sie sollen vielmehr zeigen, wie problematisch der Umgang mit Wortschatz-Komplexitätsmaßen ist. Ich halte es daher auch für unproblematisch, sie zu veröffentlichen.

  • Eine Übersicht über die Texte der mg findet sich in der Tabelle am Ende dieses Blog-Eintrags.
  • Die Texte der militanten gruppe gibt es übrigens unter http://www.semtracks.com/cosmov/ als Korpus für sprachlich-sozialwissenschaftliche Analysen.

Die Analyse erfolgte in zwei Schritten: Zuerst wurden für jeden der 52 Texte die Werte Yule’s K, Sichel’s S, Brunet’s W und Honoré’s R berechnet; im Anschluss wurden die Texte auf der Basis der Werte mittels einer hierarchischen Clusteranalyse gruppiert. Die Ergebnisse in Kürze:

  1. Die Dendrogramme unterscheiden sich kaum im Hinblick auf die Anzahl der Cluster. Je nach Lesart könnte man drei bis fünf unterschiedlichen Autoren in den Reihen der militanten gruppe annehmen.
  2. Allerdings unterscheiden sich die Dendrogramme stark im Hinblick auf die Zusammensetzung der Cluster; d.h. die Texte, die man den potenziellen Autoren zuweist, variieren stark. Dies hat natürlich Konsequenzen für die Validität der Ergebnisse von (1.)
  3. Besonders bei Honoré’s R und Brunet’s W werden Frequenzeffekte sichtbar, wenn auch in unterschiedlicher Ausprägung.
  4. Variablen wie Textsorte oder Entstehungszeit scheinen keinen Einfluss auf die Gruppierung der Texte zu haben. Dies überrascht insbesondere im Hinblick auf die Textsorte, denn es wäre zu erwarten, dass argumentative Texte sprachlich anders gestaltet sind als Bekennerschreiben oder Pressemitteilungen.

Honoré’s R

Die Clusteranalyse zeigen, wie stark das Maß von der Wortzahl abhängig ist. So finden sich alle längeren Texte im Cluster links, das sich am stärksten von den anderen unterscheidet.

Honoré's R: Dendrogramm der Texte der militanten gruppe
Honoré’s R: Dendrogramm der Texte der militanten gruppe


Brunet’s W

Brunet’s W neigt interessanterweise dazu, die sehr kurzen und die sehr langen Texte als einer Gruppe zugehörig zu klassifizieren.

Brunet's W: Dendrogramm der Texte der mg
Brunet’s W: Dendrogramm der Texte der mg


Sichel’s S

Im Fall von Sichel’s, das auf der Auswertung von hapax dislegomena beruht, lässt sich keine Hintergrundvariable wie Textlänge, Textsorte oder Entstehungszeit finden, die die Gruppierung der Texte plausibel machen würde.

mg Dendrogramm Sichel's S
Sichel’s S: Dendrogramm der Texte militanten Gruppe


Yule’s K

Gleiches gilt für Yule’s K.

Yule's K: Dendrogramm der Texte der militanten Gruppe
Yule’s K: Dendrogramm der Texte der militanten Gruppe

Je nach gewähltem Maß kommen man also zu einer sehr unterschiedlichen Gruppierung der Texte. Auch die Maße, in denen sich keine starken Frequenzeffekte zeigen, differieren in ihren Clustern. Die Interpretation dieser Ergebnisse im Hinblick auf die Autorschaft ist daher mehr als fragwürdig.

Nr. Token Datum Titel
0 213 2001-06-12 Auch Kugeln markieren einen Schlußstrich …
1 1632 2001-06-14 Die „Stiftungsinitiative der deutschen Wirtschaft“ zur Rechenschaft ziehen – Wolfgang Gibowski, Manfred Gentz und Otto Graf Lambsdorff ins Visier nehmen!
2 1615 2001-06-21 Anschlagserklärung gegen den Niederlassungszweig der Mercedes-Benz AG auf dem DaimlerChrysler-Werk in Berlin-Marienfelde
3 3239 2002-02-05 Anschlagserklärung
4 788 2002-04-29 Anschlagserklärung
5 569 2002-12-31 Anschlagserklärung
6 2032 2003-02-25 Anschlagserklärung
7 845 2003-10-29 Anschlagserklärung – Alba in den Müll! Entsorgt Alba!
8 1121 2003-12-31 Anschlagserklärung
9 1533 2004-03-29 Anschlagserklärung
10 1596 2004-05-06 Anschlagserklärung
11 1681 2004-09-23 Anschlagserklärung
12 816 2005-01-10 Anschlagserklärung
13 857 2005-04-29 Anschlagserklärung
14 1777 2005-11-08 Anschlagserklärung!!!
15 1584 2006-02-16 Anschlagserklärung
16 1209 2006-03-20 Anschlagserklärung
17 2520 2006-04-10 Anschlagserklärung
18 510 2006-05-05 Glückwunschtelegramm & Nachschlag
19 844 2006-05-23 Anschlagserklärung
20 1139 2006-09-03 Anschlagserklärung
21 517 2006-09-10 Anschlagserklärung
22 1824 2006-10-13 Dementi & ein bisschen Mehr
23 1253 2006-12-19 Anschlagserklärung: Das war Mord!
24 419 2007-01-14 Anschlagserklärung
25 505 2007-05-18 Anschlagserklärung
26 2023 Winter 2005 mg-express No.1
27 2114 Sommer 2006 mg-express No.3
28 2547 Herbst 2006 mg-express No.4
29 2384 Frühjahr 2007 mg-express no.5
30 3421 2001-11-23 Ein Debattenversuch der militanten gruppe (mg)
31 9093 2002-08-01 Eine Auseinandersetzung mit den Autonomen Gruppen und Clandestino über die Organisierung militanter Gruppenstrukturen
32 12021 Sommer 2005 Wir haben uns mit einer Menge Puste auf den Weg gemacht
33 1494 2005-01-29 Versuch eines Streitgespräches – Reaktion auf das Interview mit Norbert „Knofo“ Kröcher in der Jungle World Nr. 4/26.1.2005
34 1407 2005-02-15 Zum Interim-Vorwort der Nr. 611 vom 10.2.2005
35 1175 2005-04-01 Anmerkungen zum barricada-Interview mit den Magdeburger Genossen
36 1859 2005-04-01 Zur jw-Artikelserie „Was tun? In der Stadt, auf dem Land oder Papier: Guerillakampf damals und jetzt“
37 3752 2005-06-01 Zur „postautonomen und konsumistischen“ Sicht auf die Militanzdebatte
38 1355 2005-07-01 Was machen wir als militante gruppe (mg) auf einem Sozialforum – haben wir denn nichts Besseres zu tun?
39 2912 2005-08-01 Mut zur Lücke? Zu Wolf Wetzels „postfordistischer Protestwelt“
40 8358 Mitte Mai 2006 Clandestino – was wollt ihr eigentlich?
41 2475 2006-06-03 Zur „Roggan“-Anschlagserklärung der autonomen gruppen
42 2993 2007-04-11 Das „Gnadengesuch“ von Christian Klar und der Instrumentalisierungsversuch einer militanten Aktion
43 8086 Ende Mai 2007 Erklärung zur BWA-Razzia und „Gewaltdebatte“ im Rahmen der Anti-G8-Proteste
44 5172 2002-05-09 Für einen revolutionären Aufbauprozess – Für eine militante Plattform
45 1859 2002-12-19 Presseerklärung – Nr. 1/2002
46 1841 2003-04-17 Presseerklärung zum revolutionären 1. Mai 2003 in Berlin – Nr. 1/2003 von der militanten gruppe (mg)
47 7200 2003-06-15 Ein Beitrag zum Aufruf „27. Juni 1993 – 10 Jahre nach dem Tod von Wolfgang Grams. Glaubt den Lügen der Mörder nicht! Kein Vergeben – Kein Vergessen! Gemeinsam den Kampf um Befreiung organisieren!
48 2623 2004-06-08 Eine Nachbetrachtung zum revolutionären 1. Mai 2004 in Berlin
49 57053 2004-07-01 Bewaffneter Kampf – Aufstand – Revolution bei den KlassikerInnen des Frühsozialismus, Kommunismus und Anarchismus, 1. Teil
50 15696 2004-12-01 (Stadt)guerilla oder Miliz?
51 21701 2006-01-01 Kraushaars Buch „Die Bombe im Jüdischen Gemeindehaus“ und die Diskreditierung des bewaffneten Kampfes


comments: Kommentare deaktiviert für Wortschatz-Komplexitätsmaße im Test tags: , , , ,

Wortschatz-Komplexitätsmaße und Autoridentifizierung

Die Hoffnung, Autoren anhand eines einzigen Indikators unterscheiden oder identifizieren zu können, stand am Anfang der Stilometrie. Der Fokus richtete sich dabei auf Maße, die unterschiedliche Aspekte des Wortschatzgebrauchs modellieren. Sie erlauben Aussagen über eine oder mehrere der folgenden vier linguostatistischen Dimensionen:

  • Verteilung: die Verteilung der Häufigkeit der verwendeten Wörter
  • Konzentration: Anteil (n mal) wiederkehrender Wörter
  • Vielfalt: Anteil nur selten vorkommender Wörter
  • Abdeckung: modelliert das Verhältnis von bestimmten Teilen des Wortschatzes zum Gesamttext (wie viel Prozent eines Textes wird mit den n häufigsten Wörtern / mit Funktionswörtern / … realisiert)

Die Wortschatz-Komplexitätsmaße beruhen meist auf einer teilweisen Verrechnung der folgenden textstatistischen Größen:

  • Anzahl der Token (= Wortzahl eines Textes): N
  • Anzahl der Types (= Anzahl der unterschiedlichen Wörter in einem Text): V
  • Anzahl der hapax legomena (= Types, die genau ein Mal im Text vorkommen): V1
  • Anzahl der dislegomena (= Types, die genau zwei Mal im Text vorkommen): V2
  • Anzahl der Types, die i Mal im Text vorkommen: Vi

Sie erheben den Anspruch, eine Aussage über die Wortschatzdifferenziertheit zu erlauben, das heißt über die Komplexität oder Schlichtheit des in einem Text zum Einsatz kommenden Wortschatzes.

Im Folgenden eine unvollständige Liste prominenter Maße für die Wortschatzkomplexität.

Honoré’s R (1979)

Das von Antony Honoré 1979 vorgeschlagene Maß R basiert auf der Frequenz von nur einmal vorkommenden Wörtern, sogenannten hapax legomena. Es wird wie folgt berechnet:

R = 100 * log N/(1-(V1/V))

Es geht davon aus, dass je häufiger ein Autor Wörter nur einmal benutzt (also beispielsweise Wortwiederholungen vermeidet), desto differenzierter sein Wortschatz ist.

R variiert typischerweise in einer Spanne von 1000 bis 2000, wobei höhere Werte auf einen komplexeren Wortschatz im Text verweisen und zwar in dem Sinn, dass eine große Anzahl Wörter selten im Text auftritt.

Das Maß R ist so konstruiert, dass es unabhängig von der Länge des Textes ist. Es impliziert die Annahme, dass das Verhältnis von hapax legomena zur Menge aller Types bezüglich der logarithmierten Textgrösse konstant ist. Leider ist dies aber nicht der Fall, wie Tweedie und Baayen nachweisen konnten, nimmt es mit zunehmender Textlänge ab.

Sichel’s S (1975)

Dieses Maß beruht auf dem Verhältnis der Frequenz der dislegomena, also von Wörtern, die genau zwei Mal vorkommen, zur Anzahl der Types in einem Text:

S = V2/V

Sichels Untersuchungen ergaben, dass diese Zahl für einen Autor bei Texten zwischen 1000 und 400.000 Wörtern annähernd konstant blieben, sich also robust gegenüber Textlängenschwankungen verhielten.

Brunet’s W (1978)

Ein Maß, das Aussagen weitgehend unabhängig von der Textlänge erlaubt ist Brunet’s W. Es wird wie folgt bestimmt:

W = N^V^-a (lies: N hoch V hoch -a), wobei a eine Konstante ist; Brunet verwendete: a = 0.172

Das Ergebnis variiert gewöhnlich zwischen 10 und 20, wobei ein kleiner Wert eine höhere Komplexität anzeigt.

Yule’s K (1938)

Dieses bereits 1938 vom Statistiker George Udny Yule entwickelte Wortfrequenzmaß gibt an, wie groß die Wahrscheinlichkeit ist, dass beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort gewählt wird. Es wird wie folgt berechnet:

K = 10,000 * (M/N2 – 1/N), wobei M = ∑ i^2*Vi ist.

Ein K-Wert 220 bedeutet, dass die Wahrscheinlichkeit, beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort zu erhalten, 1 zu 220 ist. Durch die Quadrieriung der Frequenz der Typegruppen (i^2) werden hochfrequente Wörter stärker gewichtet als hapax legomena.

Unter der Annahme, dass die Wahl der Wörter unabhängig von einander erfolgte, d.h. eine Poisson-Verteilung vorliegt, ist Yule’s K von der Textlänge unabhängig. Allerdings gibt es viele sprachtheoretische Gründe und empirische Evidenzen anzunehmen, dass die Wahl der Wörter nicht unabhängig von einander erfolgt.

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Will man Texte klassifizieren, z.B. Zeitungstexte automatisch in die Kategorien Nachrichten, Kommentar und Feature sortieren, oder untersuchen, ob Texte unbekannter Herkunft von einem bestimmten Autor stammen, dann muss Merkmale festlegen, anhand derer die Texte mit einander verglichen werden sollen, um sie nach Ähnlichkeit zu ordnen. Im Folgenden eine Liste von Merkmalskategorien, die in der Stilometrie häufig zum Einsatz kommen.

Textkomplexität

  • durchschnittliche Wortlänge bzw. Verteilung der Wortlängen im Hinblick auf Silben- oder Buchstabenzahl
  • durchschnittlich Wortzahl pro Satz
  • Verhältnis von Types zu Token
  • Frequenzen von Wörtern, die bestimmten Häufigkeit angehören, beispielsweise Wörter, die nur einmal vorkommen (hapax legomena)

Funktionswörter

  • Grundannahme 1: Funktionswörter variieren nicht oder kaum mit dem Thema des Textes, sondern bilden eine Art stilistische Konstante
  • Grundannahme 2: Funktionswörter werden nicht bewusst manipuliert
  • Für das Englische werden typischerweise folgende Wortklassen (mit insgesamt einigen hundert Vertretern) verwendet: Pronomen, Präpositionen, Hilfsverben, Modalverben, Konjunktionen und Artikel; daneben auch Zahlen und Interjektionen, auch wenn es sich dabei nicht um Funktionswörter im engeren Sinn handelt

Syntax und Wortarten

  • relative Frequenz bestimmter syntaktischer Konstruktionen, anhand von:
  • Verteilung der Ergebnisse syntaktischer Text-Chunker und Parser
  • Verteilung von Wortartensequenzen oder Verteilung aus Folgen der Kombination von Wortarten und bestimmten Wortklassen

Funktionale lexikalische Taxonomien

  • bestimmte Wortarten und Funktionswörter werden in ein Klassifikationsschema gebracht, das semantische und grammatikalische Unterschiede zwischen unterschiedlichen Klassen auf unterschiedlichen Ebenen der Abstraktion repräsentiert
  • diese Taxonomien können dann benutzt werden, um Merkmale zu konstruieren, die stilistisch relevant sein können: auf der untersten Ebene können dies Funktionswörter oder part-of-speech-Unigramme sein; aber auch abstraktere Ebenen (Verteilung von semantischen Wortklassen) können für die Stilbestimmung eingesetzt werden

Inhaltswörter

  • eine problematische Kategorie, da Inhaltswörter je nach Thema und Kommunikationsbereich variieren
  • üblicherweise können sehr seltene Wörter und solche, die im Korpus eine stabile Verteilung aufweisen, ausgesondert werden
  • als erfolgreich haben sich auch Inhaltswort-n-Gramme und Kollokationen von Inhaltswörtern erwiesen

Buchstaben n-Gramme

  • einige Autoren behaupten, Buchstaben n-Gramme seien nützlich für die Identifizierung lexikalischer Präferenzen, ja sogar für grammatikalische und orthographische Vorlieben
  • der Vorteil: man braucht überhaupt kein linguistisches Wissen
  • offenbar gibt es gewisse Erfolge bei der Anwendung: insbesondere bei der Textsortenidentifikation oder bei der Messung der Ähnlichkeit von Dokumenten

Weitere Merkmale

  • morphologische Analyse: erfolgreich bei morphologisch komplexeren Sprachen
  • Frequenz und Verteilung von Satzzeichen
  • orthographische und/oder grammatikalische Fehler