Stilometrie / stylometry | surveillance and security - Computer- und korpuslinguistische Methoden des politisch motivierten Internet-Monitorings

Schöne neue Algorithmen für die Black Box Mensch – Kritik des digitalen Behaviorismus

Posted on 11th Januar 2017 in Allgemein, Datengeleitete Analysen, Digitale Revolution, ideology mapping, Maschinelles Lernen, Politik, Stilometrie / stylometry

Das Team von TEDxDresden hat mir dankenswerter Weise die Gelegenheit gegeben, einen Vortrag zum Thema „Schöne neue Algorithmen für die Black Box Mensch“ zu halten. Darin habe ich versucht, aus kulturwissenschaftlicher Perspektive darzustellen, wo die Probleme liegen und was man besser machen sollte, wenn man soziale oder kulturelle Phänomene mit maschinellen Methoden modellieren will.

Ich behaupte, dass die zurzeit gängige Herangehensweise bei der Modellierung sozialer Phänomene einer behaviorischen Vorstellung vom Menschen folgt, und plädiere statt dessen für Algorithmen, die menschliches Verhalten als interpretiertes Verhalten (und damit immer auch als potentiell mehrdeutig) modellieren sollten.

Das Beispiel, das ich prominent behandle, wird zurzeit auch in einem NZZ-Artikel von Steve Przybilla lobenswert kritisch reflektiert.

comments: Kommentare deaktiviert tags: Algorithmen, Behaviorismus, Black Box, Digitaler Behaviorismus, Kulturwissenschaften, Modellieren, TED, TEDxDresden

Lügen | Presse:
Wortbildung bei PEGIDA-Anhängern

Posted on 11th April 2016 in Extremismus, ideology mapping, Inhaltswörter, Politik, Semantik, Stilometrie / stylometry, Visualisierung, Wortschatz

comments: Kommentare deaktiviert tags: Ideologieerkennung, Komposita, Komposition, Lüge, Lügenpresse, PEGIDA, Presse

30C3 Nachlese, Teil 2

Posted on 8th Januar 2014 in ideology mapping, Inhaltswörter, Kollokationen, Stilometrie / stylometry, Terrorismus, Überwachung und Sicherheit

Auf vielfachen Wunsch hier die gif-Grafik, die ich zur Illustration der Hoffnung einiger Aktivisten erstellt habe, die NSA suche lediglich nach Keywords.

Wie die NSA nicht unsere E-Mails liest (CC0 1.0 Universell, Font by Bolt)

In der letzten Sendung von Breitband auf DeutschlandradioKultur gab es einen schönen Beitrag von Marcus Richter zur Zukunft der Überwachung, der auf dem Kongress entstanden ist und in dem ich auch was sagen durfte.

Und dann habe ich — wie beinahe alle Vortragenden — ein Interview für dctp.tv gegeben, bei dem zumindest die erste Hälfte von meiner Seite komplett misslungen ist. Der zweite Teil enthält aber ein paar Punkte, die ich im Talk nicht so deutlich formuliert habe:

comments: Kommentare deaktiviert tags: 30C3, CCC, Chaos Communication Congress, Chaos Computer Club, das Geheime, NSA, Überwachung

Parlando – Monitoring des Sprachgebrauchs im Sächsischen Landtag

Posted on 21st Dezember 2012 in Kollokationen, Stilometrie / stylometry, Visualisierung

Liebe Freunde der Sicherheit,

zusammen mit meinem Kollegen Noah Bubenhofer habe ich ein Monitoring des Sprachgebrauchs im Sächsischen Landtag entwickelt.

Es ist unter http://linguistik.zih.tu-dresden.de/parlament/ benutzbar. Viel Spaß beim Herumklicken!

comments: Kommentare deaktiviert tags: Kollokationen, NPD, Sachsen, Sächsischer Landtag, Sprache in der Politik

Gängige Irrtümer bei der maschinellen Autorenidentifikation — Vortrag online

Posted on 14th November 2012 in authorship identification, Linguistische Kategorien, Maschinelles Lernen, Stilometrie / stylometry, Textklassifikation, Überwachung und Sicherheit

Liebe Freunde der Sicherheit,

bei den diesjährigen Datenspuren des C3D2 in Dresden habe ich einen Vortrag zum Thema „Gibt es einen sprachlichen Fingerabdruck? Gängige Irrtümer bei der maschinellen Autorenidentifikation“ gehalten. Das Video zum Vortrag ist nun online.

Vielen Dank an das Orga-Team für die interessante und perfekt organisierte Tagung!

comments: 1 » tags: Anonymschreiben, authorship detection, authorship identification, Autorenidentifikation, Bundeskriminalamt, Fefes Blog, forensische Linguistik, linguistische Gutachten, linguistischer Fingerabdruck, militante gruppe, Sprachgutachten, Stilometrie, Textklassifikation

IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen

Posted on 15th September 2011 in authorship identification, Fachsprachen, Sprachliche Fehler, Stilometrie / stylometry, Wortschatz

Liebe Freund der Sicherheit,

netzpolitik.org kommentiert die Tatsache, dass offenbar ein vom FBI verfasstes Profiling der führenden Köpfe von Anonymous geleakt ist. Sie stammt von der „Behavioral Science Unit“. Aus linguistischer Perspektive sind diese Profile insofern interessant, als sie ausschließlich aus der Analyse von chat logs, twitter logs und sonstigen Publikationen von Anonymous gewonnen wurden. Sprachkompetenz und Sprachgebrauch werden also zum Maßstab der Persönlichkeit.

Wenn man sich die Bewertungskategorien ansieht, dann zeigt sich, dass das die betreffenden Profiler FBI vorwiegend in den Kategorien der traditionellen forensischen Linguistik denken. Sie bewerten die sprachliche Performanz nach folgenden Kriterien:

Den souveränen Umgang mit einer sprachlichen Normen, insbesondere der Standardnorm des American English: über Sabu schreiben die Profiler „His use of netspeak is interspersed with proper American English diction and grammar that implies he is an American citizen and has been educated“ (3). Standardsprachenideologie in Reinform: die Beherrschung der Standardnorm ist eine kulturelle Leistung und zugleich ein Identitätsakt, denn Sprache schafft nationale Identität („Uns knüpft der Sprache heilig Band“). Zudem wird der Gebrauch der Standardnorm auch mit der Variable Alter korreliert.

Sprachliche Fehler bzw. Abweichungen von den Normen des American English: Über JoePie91 schreiben die Profiler „There are times when the syntax and grammar infer that JoePie is not an American and may in fact be in the EU.“ (5) Interessant ist, dass nicht die Frage diskutiert wird, ob er Muttersprachler oder Nichtmuttersprachler des Englischen ist.

Fachsprache: der Gebrauch von „netspeak“ und die Art ihres Gebrauchs: über JoePie91 schreiben die Profiler „He tends not to use as much netspeak as the others and makes relevant arguments in correct grammatical syntax.“ (5)

Die intraindividuelle Variation im Sprachgebrauch: eine zu starke Variation wird als mit einer kohärenten Persönlichkeit nicht vereinbar angesehen; daraus schließen die Profiler entweder mehrfachen Gebrauch eines Pseudonyms oder bewusste Verstellungsabsichten: so unterstellt man Sabu, er benutze netspeak, um sich als „script kiddie“ zu maskieren, weil er sonst durchaus in der Lage sei, grammatikalisch korrekte Sätze zu bilden. Zugleich konstatiert man: „Varying logs from online IRC […] sessions have borne out the possibility however, that the user ID „Sabu“ is sometimes also used by others to confuse auhtorities and others as to who the real person is behind the keyboard.“ Die Hypothese wird jedoch mit dem Hinweis auf die Vielzahl letztlich doch kohärenter Dokumente zurückgewiesen.

Die Profiler lassen im Unklaren, ob sie quantitative Methoden benutzt haben. An einer Stelle schreiben sie über Sabu und die Möglichkeit der Nutzung seines Nicks durch unterschiedliche Personen: „through an amalgam of transcripts the tell tale signs of a consistent individual can be clearly seen and assessed.“ (3) Mit viel Fantasie könnte man hier den Gebrauch quantitativer Analysen hineinlesen. Ich habe aber eher den Eindruck, dass die Profiler die Texte vor allem mit nicht-maschinellen Mitteln analysiert haben.

Eine Datenbank mit IRC-Chats und Twitter-Logs, anhand derer Aussagen über die Spannbreite möglicher intraindividueller Variation möglich wären, stand ihnen offenbar nicht zu Verfügung. Geschweige denn eine Datenbank mit personenspezifischen Textkorpora, die eine Identifizierung der Real-Life-Identitäten ermöglichen würde.

Wenn ich ein Profil der Profiler erstellen sollte (nicht ganz ernst gemeint!): keine Linguisten, sondern Psychologen, die im Studium auch ein bisschen Sprachpsychologie gehört haben, und Soziologen. Der Gebrauch von Ausdrücken wie „slang“ und „diction“ verweist m.E. auf eine Generation, die mit Konzepten der neueren Soziolinguistik und Sprachsoziologie nicht vertraut ist. Ich tippe daher auf ein Alter der Angehörigen der „Behavioral Science Unit“ zwischen 45 und 60 Jahren.

comments: Kommentare deaktiviert tags: Anonymous, authorship detection, FBI, forensische Linguistik, Hacktivism, Profiling

Linguistische Differenzialanalyse und Autorenidentifikation

Posted on 17th August 2011 in authorship identification, Inhaltswörter, Linguistische Kategorien, Statistische Maße, Stilometrie / stylometry, Textklassifikation, Wortschatz

Liebe Freunde der Sicherheit,

eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.

Linguistische Differenzialanalyse

Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:

„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)

Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.

Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.

Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode

Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.

Hierfür habe ich dreierlei benötigt:

Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.
eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.
einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.

Ergebnisse: gerne | mit Freude | gern | mit Vergnügen

Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.

Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:

Standardabweichung	Varianten
0.396034689707957	gerne \| mit Freude \| gern \| mit Vergnügen
0.384572324926231	Glaube \| Bekenntnis \| Konfession \| Denomination
0.383741494895807	kriminell \| verbrecherisch \| auf der schiefen Bahn \| delinquent \| straffällig
0.381850019132707	gütlich \| friedlich \| geruhsam \| gewaltfrei \| sanft \| gütig \| friedfertig \| ohne Gewalt \| verträglich \| amikal \| gewaltlos \| herzensgut \| friedliebend
0.380304172683078	passen \| zurückstellen \| aufschieben \| aussetzen \| verschieben \| vertagen \| intermittieren
0.378560699614743	weg \| Fern \| fern
0.372789498557065	Information \| Schalter \| Auskunftsschalter \| Auskunft
0.371710005433523	Realität \| Praxis
0.371674963099053	rechnen \| rentieren \| auszahlen \| amortisieren \| lohnenswert \| lohnen \| Früchte tragen \| bezahlt machen
0.36944693958052	betreiben \| nachgehen \| ausüben
0.36617435642474	Raum \| Kosmos \| Weltraum \| Weltall \| Universum \| Sphäre \| All
0.363908308274997	billig \| kostengünstig \| kosteneffektiv \| preiswert \| wohlfeil \| kostenwirksam \| preisgünstig \| günstig \| spottbillig
0.363872962376017	heraus \| hervor
0.362606570091546	Vater \| Erzeuger \| Daddy \| Vati \| Senior \| der Alte \| Papi \| Kindsvater \| Paps \| alter Herr \| leiblicher Vater \| Dad \| Papa \| Pa
0.362155688620303	verurteilen \| verdonnern \| bestrafen \| für schuldig erklären \| aburteilen \| schuldig sprechen \| mit Strafe belegen \| Strafe verhängen
0.361149279496628	verantwortlich \| zuständig
0.360881847188603	passen \| geeignet
0.360877848087947	drücken \| knautschen \| pressen \| zwängen \| pferchen \| stopfen \| quetschen \| pfropfen \| proppen
0.36060656555393	Entwicklung \| Änderung \| Tapetenwechsel \| Dynamik \| Veränderung
0.360040253521303	vergessen \| übersehen \| verschwitzen \| verschlafen \| verfehlen \| verpassen \| versäumen \| verpennen
0.359950475146227	anschließen \| beitreten \| Mitglied werden
0.359570245588916	richten \| urteilen
0.358943241670499	aktiv \| umtriebig \| engagiert \| unter Strom stehend \| rege \| betriebsam
0.35883310781789	unbedingt \| mit aller Macht \| ganz und gar \| auf Gedeih und Verderb \| bedingungslos \| auf Biegen und Brechen \| um jeden Preis \| rückhaltlos \| mit aller Gewalt \| auf Teufel komm raus \| ohne Rücksicht auf Verluste
0.357590418501272	Öffentlichkeit \| Allgemeinheit \| Gemeinwesen
0.357565689315277	überlegen \| dominierend \| tonangebend \| am stärksten ausgeprägt \| übermächtig \| führend \| herrschend \| beherrschend \| am ausgeprägtesten \| dominant
0.357282147746873	Stelle \| Ortsangabe \| Position \| Lokalität \| Örtlichkeit \| Lokalisation
0.357222116951858	aufnehmen \| einwerfen \| reinziehen \| konsumieren \| reinzischen \| schlucken \| einnehmen \| ingestieren \| reinpfeifen \| zu sich nehmen
0.356676679221292	Schule \| Lager \| Strömung
0.356337633441186	Reihe \| Anzahl
0.355919880776704	kaufen \| ankaufen \| erwerben \| aufkaufen \| erkaufen \| erstehen
0.355352816416153	sammeln \| regenerieren \| wiederherstellen \| neu erstellen \| erholen \| berappeln
0.355209713591625	Kommentar \| Notiz \| Anmerkung
0.354982488402154	hart \| grausam \| empfindungslos \| hartherzig \| kalt \| kaltherzig \| eisig
0.354591844205998	langsam \| nach und nach \| gemütlich \| allmählich \| geruhsam \| gemach \| ruhig \| gemächlich
0.354328900327031	Wert \| Rang \| Bedeutung \| Wichtigkeit \| Geltung \| Einfluss
0.354060472670956	merken \| realisieren \| registrieren \| perzipieren \| zur Kenntnis nehmen \| wahrnehmen \| mitbekommen
0.353578904341922	Pflicht \| Agenda \| Obliegenheit \| Schuldigkeit \| Verbindlichkeit \| Verpflichtung
0.353533447923133	stimmen \| aussprechen \| plädieren
0.353483316676806	Zahl \| Wert
0.35347391485945	Gewalt \| Heftigkeit \| Schwung \| Wucht \| Vehemenz \| Kraft \| Ungestüm \| Schmackes \| Karacho
0.352956200168923	schützen \| beschützen \| sichern
0.352517940599203	herrschen \| regieren
0.35232461896263	Studie \| Analyse
0.352296794150891	gestalten \| einrichten
0.352192163220551	verantwortlich \| verantworten \| den Hut aufhaben \| verantwortlich zeichnen \| Verantwortung tragen
0.352048952616805	Zustimmung \| Zuspruch \| Beipflichtung \| Bestätigung \| Bejahung \| Affirmation \| Bekräftigung \| Zusagung
0.351173408423386	beantragen \| vorschlagen

Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.

Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…

Literatur:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

comments: Kommentare deaktiviert tags: authorship detection, authorship identification, forensische Linguistik, Idiolekt, Linguistische Differenzialanalyse, NPD, Raimund Drommel, Soziolekt, Soziolinguistik, Wortschatz

Textklassifikation und Autorenidentifikation mit Hilfe komplexer n-Gramm-Analyse

Posted on 4th Mai 2011 in authorship identification, Clusteranalyse, Linguistische Kategorien, n-Gramme, Stilometrie / stylometry, Textklassifikation, Wortarten / part of speech (pos)

Heute möchte ich eine Methode zur Klassifikation von Texten vorstellen, in der sprachliche Einheiten nicht isoliert betrachtet werden, sondern jeweils kleine Fetzen sprachlichen Materials analysiert werden. Je größer die analysierten Fetzen sind, desto eher kann man natürlich davon ausgehen, dass sie irgendwelche relevanten Informationen transportieren: Ein Satz enthält mehr Informationen als zwei Wörter. Je größer allerdings die Einheiten sind, desto unwahrscheinlicher ist es, dass sie in der gleichen Form wieder auftreten. Das ist wiederum problematisch, weil man bei der Analyse ja nach wiederkehrenden Mustern sucht und je größer die Einheiten sind, desto mehr Text braucht man, damit man wiederkehrende Muster in aussagekräftiger Zahl bekommt. Alles eine Frage der Skalierung also. Die im Folgenden beschriebene und erprobte Methode könnte man als komplexe n-Gramm-Analyse bezeichnen.

komplexe n-Gramme

n-Gramme sind Einheiten, die aus n Elementen bestehen. Normalerweise werden n-Gramme als Folge von Wortformen verstanden. Im Rahmen einer n-Gramm-Analyse werden alle im Korpus vorkommenden n-Gramme berechnet, wobei bestimmte Parameter wie Länge der Mehrworteinheit (aus zwei, drei oder mehr Wörtern bestehend) oder Spannweite (sind Lücken zwischen den Wörtern erlaubt?) festgelegt werden. Die hier verwendete n-Gramm-Analyse betrachtet jedoch nicht nur Wortformen als Einheiten, sondern auch weitere interpretative linguistische Kategorien. Dies können zum einen Elemente sein, die sich auf die Tokenebene beziehen und die Wortform funktional oder semantisch deuten (als Repräsentant einer Wortart oder als Teil einer semantischen Klasse). Zum anderen aber auch Elemente, die über die Tokenebene hinausgreifen, etwa das Tempus oder die Modalität einer Äußerung (direkte vs. indirekte Rede).

Kombinationen von n Einheiten

Welche Elemente in die Analyse mit einbezogen werden, hängt einerseits von der jeweiligen Forschungsfrage ab, andererseits forschungspraktisch auch davon, welche Ressourcen für die Annotation des Korpus zur Verfügung stehen. Bei standardsprachlichen Korpora können Lemma- und Wortarteninformationen durch Tagger wie dem TreeTagger leicht und effizient annotiert werden. Eine Wortformenfolge wie „Ich glaube, dass“ hat dann in einem XML-annotierten Korpus etwa folgende Form:

<w pos=“PPER“ lemma=“ich“>Ich</w>
<w pos=“VVFIN“ lemma=“glauben“>glaube</w>
<w pos=“$,“ lemma=“,“>,</w>
<w pos=“KOUS“ lemma=“dass“>dass</w>

Berechnet man nun beispielsweise Tetragramme, die nicht nur die Wortformen, sondern auch Lemmata und Wortarteninformationen als weitere Elemente mit einzubeziehen, dann ergeben sich bei drei Dimensionen 3^4=81 Vier-Einheiten-Kombinationsmöglichkeiten:

Ich glaube , dass
ICH GLAUBEN , DASS
PPER glaube , dass
PPER GLAUBEN, dass
Ich VVFIN , dass
Ich glaube , KOUS
PPER VVFIN , dass
…

Jedes der Tetragramme, das sich in einem der beiden Korpora findet, kann nun als eine Variable aufgefasst werden, aufgrund deren Verteilung sich die Texte im Korpus potenziell stilistisch unterscheiden.

Das GerMov-Korpus

Die folgenden Untersuchungen werden anhand des GerMov-Korpus, einem Korpus zur gesprochenen und geschriebenen Sprache der 68er-Bewegung durchgeführt. Das Korpus habe ich im Rahmen einer umfangreichen Studie zum Einfluss von 68er-Bewegung und Alternativmilieu auf die Kommunikationsgeschichte der Bundesrepublik Deutschland erstellt. Bei der Zusammenstellung des Korpus und seiner Subkorpora waren zunächst außersprachliche Gesichtspunkte, in einem zweiten Schritt textlinguistische Überlegungen leitend. Das Korpus sollte es u. a. erlauben, unterschiedliche Stile der verbalen face-to-face-Interaktion innerhalb der 68er-Bewegung zu rekonstruieren. Dabei wurde ausgehend von der Forschung zum Kleidungsverhalten und zur medialen Vermittlung expressiver Formen des Protests von einer lebensstilistischen Dualität innerhalb der Bewegung ausgegangen, die ihre Wurzeln auch in konkurrierenden Ideologien hatte.

Sozialstilistik der 68er-Bewegung

Auf der einen Seite standen die Träger eines intellektuell-avantgardistischen Stils. Bei ihnen handelte es sich um Angehörige unterschiedlicher sozialer Gruppen, die während der 68er-Bewegung aber intensiv kooperierten: zum einen die Studierenden, vornehmlich solche, die in linken Studentenverbänden organisiert waren, zum anderen Linksintellektuelle, die in Politik, Universität, Verwaltung oder im kulturellen Sektor bereits Karriere gemacht hatten, die sich beispielsweise in Republikanischen Clubs zusammenfanden. Sie pflegten einen auf symbolische Distinktion zunächst weitgehend verzichtenden Lebensstil, trugen Anzug oder Freizeitkleidung (Hemd und Pullovern, Jacket und Cordhose) und praktizierten Lebensformen wie andere Menschen ihrer Berufsgruppen. Nur in einem Bereich legten sie Wert auf Unterscheidung: Sie inszenierten sich als intellektuelle Informations- und Diskussionselite.

Auf der anderen Seite standen die Träger eines hedonistischen Selbstverwirklichungsstils, der in Kommunen und Subkulturen geprägt wurde. Sie entdeckten den eigenen Körper als zentrales Medium des expressiven Protestes, griffen – ähnlich den amerikanischen Hippies – tief in den Fundus von Kostümverleihen und Second-Hand-Läden, spielten mit Nacktheit und Schmuck, ließen sich Bärte und Haare wachsen und praktizierten eine ostentativ informelle Körpersprache. Sie verschmolzen antibürgerliche symbolische Formen mit denen jugendlicher Populärkultur zu einem sich als individualistisch verstehenden, lustbetonten Lebensstil: Die Revolution sollte bei jedem Einzelnen beginnen und vor allem Spaß machen. Während die intellektuellen Avantgarden das Ziel der 68er-Bewegung in einer Umwälzung der Besitz- und Produktionsverhältnisse sahen, begriffen die hedonistischen Kommunarden also die Bewegung als Chance für die Entwicklung und Praktizierung neuer Lebensformen, die eine gesellschaftliche Veränderung zwangsläufig mit sich bringen würde.

Zusammensetzung des Korpus

Die Kriterien der Milieuzugehörigkeit der Textproduzenten, der Medialität / Textsorte und der Kommunikationssituation setzte der Textauswahl sehr enge Grenzen. Die einzige Textsorte, für die hinsichtlich aller Kriterien eine hinreichende Menge an Texten gefunden werden konnte, waren Tonbandprotokolle. Insgesamt konnten 29 Tonbandprotokolle aus den Jahren 1967 bis 1969 in Archiven und zeitgenössischen Buch- und Zeitschriftenpublikationen gefunden werden, davon stammen 21 aus dem hedonistischen Selbstverwirklichungsmilieu, 8 aus dem linksintellektuellen Milieu. Die Zuordnung erfolgte beim linksintellektuellen Milieu anhand der identifizierbaren Gesprächsteilnehmer und deren Zugehörigkeit zu politischen Gruppen, die jeweils den Milieus eindeutig zuzuordnen waren. Die Protokolle aus dem Kommunemilieu waren ausnahmslos als solche betitelt und wurden in szenetypischen Kontexten publiziert, was auch hier eine zweifelsfreie Zuordnung ermöglichte.

Das GerMov-Korpus wurde mit Hilfe des TreeTaggers tokenisiert, mit Wortarten-Informationen annotiert und lemmatisiert. Beim verwendeten Tagset handelt es sich um das Stuttgart-Tübingen-Tagset (STTS). Darüber hinaus wurden einige Kategorien auf der Token-Ebene wie Kommunikationsverben, Intensivierer und Schlagwörter der Neuen Linken annotiert.

Textclustering mittels komplexer n-Gramme

Berechnungsparameter: Berechnet wurden komplexe Pentagramme ohne Leerstellen, die aus den Dimensionen Wortarteninformation (einschließlich semantischer Klassen) und Wortformen zusammengesetzt wurden, wobei auf der Dimension Wortform nur Funktionswörter und Satzzeichen in die Analyse einbezogen wurden. Auf die Dimension Lemma wurde gänzlich verzichtet. Die Pentagramme wurden über Satzgrenzen hinaus berechnet. Es wurden nur solche n-Gramme in die Analyse aufgenommen, die im Gesamtkorpus mindestens vier Mal auftraten. Um den Einfluss der Textlängendifferenz zu reduzieren, wurden für die hierarchische Clusteranalyse nach dem Ward-Verfahren die Frequenzen der n-Gramme nach der Textlänge gewichtet.

Nun aber zu den Ergebnissen der Clusteranalyse: Im folgenden Dendrogramm sind die Namen der Texte so gewählt, dass die anhand außersprachlicher Kriterien erfolgte Milieuzuteilung ersichtlich ist. „Linksintellektuell“ steht für das linksintellektuell-avantgardistische Milieu, „Hedonistisch“ für das hedonistische Selbstverwirklichungsmilieu. Die Ziffer im Anschluss an die Milieubezeichnung ist lediglich eine Identifizierungsnummer. Fünf der 21 Protokolle aus dem hedonistischen Selbstverwirklichungsmilieu stammen aus einer einzigen Kommue, der sog. Linkseckkommune. Sie wurden zusätzlich mit einem „l“ nach der ID gekennzeichnet.

Dendrogramm des Textclusterings anhand komplexer n-Gramme von Tonbandprotokollen der 68er-Bewegung

Die Clusteranalyse zeigt, dass die Protokolle aus dem linksintellektuellen Milieu ein Cluster bilden, das sich deutlich von den Protokollen des hedonistischen Selbstverwirklichungsmilieus unterscheidet. Innerhalb der Protokolle des hedonistischen Selbstverwirklichungsmilieus bilden die fünf Protokolle aus der Linkeckkommune wiederum ein eigenes Cluster. Die größte Differenz jedoch besteht zwischen Protokoll 14 aus dem hedonistischen Selbstverwirklichungsmilieu und allen anderen Protokollen. Wie ist dieser Unterschied zu erklären? Offensichtlich werden hier Effekte der Textlänge sichtbar. Das Protokoll Nummer 14 ist mit einer Länge von gerade einmal 71 Wörtern das kürzeste und enthält damit offenbar nicht hinreichend viel Text, um aus ihm eine für stilistische Analysen hinreichend große Menge an n-Grammen zu bilden. Die Gewichtung der Frequenz der auftretenden n-Gramme nach der Textlänge dürfte den Effekt noch verstärkt haben.

Geht man von der Annahme aus, dass den sozialstilistischen Unterschieden, auf deren Basis die Zuweisung der Texte zu Milieus erfolgte, auch kommunikationsstilistische Unterschiede korrespondieren, so deuten die Ergebnisse darauf hin, dass das gewählte Verfahren dazu ziemlich gut geeignet ist, stilistische Unterschiede aufzudecken.

Man muss aber der Ehrlichkeit halber hinzufügen, dass die stilistischen Unterschiede in den Texten wirklich sehr ausgeprägt sind und auch bei einer einigermaßen aufmerksamen Lektüre hätten auffallen müssen. Wirklich überrascht war ich allerdings davon, dass sich alle Protokolle der Linkeckkommune tatsächlich in einem Cluster wiederfanden.

Ausführlich nachlesen kann man das Ganze übrigens hier:

Scharloth, Joachim / Noah Bubenhofer (2011): Datengeleitete Korpuspragmatik: Korpusvergleich als Methode der Stilanalyse. In: Ekkehard Felder / Marcus Müller / Friedemann Vogel (Hrsg.): Korpuspragmatik. Thematische Korpora als Basis diskurslinguistischer Analysen von Texten und Gesprächen. Berlin, New York: de Gruyter.

Scharloth, Joachim / Noah Bubenhofer / Klaus Rothenhäusler (2011): „Anders schreiben“ aus korpuslinguistischer Perspektive: Datengeleitete Zugänge zum Stil. In: Britt Marie Schuster / Doris Tophinke: Anders schreiben. Berlin: Erich Schmidt Verlag.

comments: Kommentare deaktiviert tags: 68er-Bewegung, authorship detection, authorship identification, n-Gramm, Stilometrie, Textkomplexität, Tonbandprotokolle

Wortschatz-Komplexitätsmaße im Test

Posted on 14th April 2011 in authorship identification, Clusteranalyse, Stilometrie / stylometry, Textklassifikation, Textkomplexität, Wortschatz

Hier mal eine kleine Illustration, welche Ergebnisse die Wortschatz-Komplexitätsmaße für die Klassifikation von Texten liefern. Als Beispielkorpus habe ich die Texte der militanten gruppe gewählt, weil deren Texte vom BKA schon einmal einer forensischen Analyse unterzogen wurden: einer Analyse im Hinblick auf die Ähnlichkeit mit den Texten eines Soziologen, den man verdächtigte Mitglied der Gruppe zu sein. Dabei sollen Inhaltswörter das Hauptkriterium gewesen sein, wollen uns der Spiegel und andere Medien glauben machen. Die Analyse wurde zu einem jener Indizen, mit denen Überwachung, Festnahme und U-Haft des Soziologen gerechtfertigt wurden. Die folgenden Proberechnungen sind keine ernst zu nehmenden forensischen Analysen, die irgend etwas über die Autoren der Texte der mg aussagen. Sie sollen vielmehr zeigen, wie problematisch der Umgang mit Wortschatz-Komplexitätsmaßen ist. Ich halte es daher auch für unproblematisch, sie zu veröffentlichen.

Eine Übersicht über die Texte der mg findet sich in der Tabelle am Ende dieses Blog-Eintrags.
Die Texte der militanten gruppe gibt es übrigens unter http://www.semtracks.com/cosmov/ als Korpus für sprachlich-sozialwissenschaftliche Analysen.

Die Analyse erfolgte in zwei Schritten: Zuerst wurden für jeden der 52 Texte die Werte Yule’s K, Sichel’s S, Brunet’s W und Honoré’s R berechnet; im Anschluss wurden die Texte auf der Basis der Werte mittels einer hierarchischen Clusteranalyse gruppiert. Die Ergebnisse in Kürze:

Die Dendrogramme unterscheiden sich kaum im Hinblick auf die Anzahl der Cluster. Je nach Lesart könnte man drei bis fünf unterschiedlichen Autoren in den Reihen der militanten gruppe annehmen.
Allerdings unterscheiden sich die Dendrogramme stark im Hinblick auf die Zusammensetzung der Cluster; d.h. die Texte, die man den potenziellen Autoren zuweist, variieren stark. Dies hat natürlich Konsequenzen für die Validität der Ergebnisse von (1.)
Besonders bei Honoré’s R und Brunet’s W werden Frequenzeffekte sichtbar, wenn auch in unterschiedlicher Ausprägung.
Variablen wie Textsorte oder Entstehungszeit scheinen keinen Einfluss auf die Gruppierung der Texte zu haben. Dies überrascht insbesondere im Hinblick auf die Textsorte, denn es wäre zu erwarten, dass argumentative Texte sprachlich anders gestaltet sind als Bekennerschreiben oder Pressemitteilungen.

Honoré’s R

Die Clusteranalyse zeigen, wie stark das Maß von der Wortzahl abhängig ist. So finden sich alle längeren Texte im Cluster links, das sich am stärksten von den anderen unterscheidet.

: Honoré’s R: Dendrogramm der Texte der militanten gruppe

Brunet’s W

Brunet’s W neigt interessanterweise dazu, die sehr kurzen und die sehr langen Texte als einer Gruppe zugehörig zu klassifizieren.

: Brunet’s W: Dendrogramm der Texte der mg

Sichel’s S

Im Fall von Sichel’s, das auf der Auswertung von hapax dislegomena beruht, lässt sich keine Hintergrundvariable wie Textlänge, Textsorte oder Entstehungszeit finden, die die Gruppierung der Texte plausibel machen würde.

: Sichel’s S: Dendrogramm der Texte militanten Gruppe

Yule’s K

Gleiches gilt für Yule’s K.

: Yule’s K: Dendrogramm der Texte der militanten Gruppe

Je nach gewähltem Maß kommen man also zu einer sehr unterschiedlichen Gruppierung der Texte. Auch die Maße, in denen sich keine starken Frequenzeffekte zeigen, differieren in ihren Clustern. Die Interpretation dieser Ergebnisse im Hinblick auf die Autorschaft ist daher mehr als fragwürdig.

Nr.	Token	Datum	Titel
0	213	2001-06-12	Auch Kugeln markieren einen Schlußstrich …
1	1632	2001-06-14	Die „Stiftungsinitiative der deutschen Wirtschaft“ zur Rechenschaft ziehen – Wolfgang Gibowski, Manfred Gentz und Otto Graf Lambsdorff ins Visier nehmen!
2	1615	2001-06-21	Anschlagserklärung gegen den Niederlassungszweig der Mercedes-Benz AG auf dem DaimlerChrysler-Werk in Berlin-Marienfelde
3	3239	2002-02-05	Anschlagserklärung
4	788	2002-04-29	Anschlagserklärung
5	569	2002-12-31	Anschlagserklärung
6	2032	2003-02-25	Anschlagserklärung
7	845	2003-10-29	Anschlagserklärung – Alba in den Müll! Entsorgt Alba!
8	1121	2003-12-31	Anschlagserklärung
9	1533	2004-03-29	Anschlagserklärung
10	1596	2004-05-06	Anschlagserklärung
11	1681	2004-09-23	Anschlagserklärung
12	816	2005-01-10	Anschlagserklärung
13	857	2005-04-29	Anschlagserklärung
14	1777	2005-11-08	Anschlagserklärung!!!
15	1584	2006-02-16	Anschlagserklärung
16	1209	2006-03-20	Anschlagserklärung
17	2520	2006-04-10	Anschlagserklärung
18	510	2006-05-05	Glückwunschtelegramm & Nachschlag
19	844	2006-05-23	Anschlagserklärung
20	1139	2006-09-03	Anschlagserklärung
21	517	2006-09-10	Anschlagserklärung
22	1824	2006-10-13	Dementi & ein bisschen Mehr
23	1253	2006-12-19	Anschlagserklärung: Das war Mord!
24	419	2007-01-14	Anschlagserklärung
25	505	2007-05-18	Anschlagserklärung
26	2023	Winter 2005	mg-express No.1
27	2114	Sommer 2006	mg-express No.3
28	2547	Herbst 2006	mg-express No.4
29	2384	Frühjahr 2007	mg-express no.5
30	3421	2001-11-23	Ein Debattenversuch der militanten gruppe (mg)
31	9093	2002-08-01	Eine Auseinandersetzung mit den Autonomen Gruppen und Clandestino über die Organisierung militanter Gruppenstrukturen
32	12021	Sommer 2005	Wir haben uns mit einer Menge Puste auf den Weg gemacht
33	1494	2005-01-29	Versuch eines Streitgespräches – Reaktion auf das Interview mit Norbert „Knofo“ Kröcher in der Jungle World Nr. 4/26.1.2005
34	1407	2005-02-15	Zum Interim-Vorwort der Nr. 611 vom 10.2.2005
35	1175	2005-04-01	Anmerkungen zum barricada-Interview mit den Magdeburger Genossen
36	1859	2005-04-01	Zur jw-Artikelserie „Was tun? In der Stadt, auf dem Land oder Papier: Guerillakampf damals und jetzt“
37	3752	2005-06-01	Zur „postautonomen und konsumistischen“ Sicht auf die Militanzdebatte
38	1355	2005-07-01	Was machen wir als militante gruppe (mg) auf einem Sozialforum – haben wir denn nichts Besseres zu tun?
39	2912	2005-08-01	Mut zur Lücke? Zu Wolf Wetzels „postfordistischer Protestwelt“
40	8358	Mitte Mai 2006	Clandestino – was wollt ihr eigentlich?
41	2475	2006-06-03	Zur „Roggan“-Anschlagserklärung der autonomen gruppen
42	2993	2007-04-11	Das „Gnadengesuch“ von Christian Klar und der Instrumentalisierungsversuch einer militanten Aktion
43	8086	Ende Mai 2007	Erklärung zur BWA-Razzia und „Gewaltdebatte“ im Rahmen der Anti-G8-Proteste
44	5172	2002-05-09	Für einen revolutionären Aufbauprozess – Für eine militante Plattform
45	1859	2002-12-19	Presseerklärung – Nr. 1/2002
46	1841	2003-04-17	Presseerklärung zum revolutionären 1. Mai 2003 in Berlin – Nr. 1/2003 von der militanten gruppe (mg)
47	7200	2003-06-15	Ein Beitrag zum Aufruf „27. Juni 1993 – 10 Jahre nach dem Tod von Wolfgang Grams. Glaubt den Lügen der Mörder nicht! Kein Vergeben – Kein Vergessen! Gemeinsam den Kampf um Befreiung organisieren!
48	2623	2004-06-08	Eine Nachbetrachtung zum revolutionären 1. Mai 2004 in Berlin
49	57053	2004-07-01	Bewaffneter Kampf – Aufstand – Revolution bei den KlassikerInnen des Frühsozialismus, Kommunismus und Anarchismus, 1. Teil
50	15696	2004-12-01	(Stadt)guerilla oder Miliz?
51	21701	2006-01-01	Kraushaars Buch „Die Bombe im Jüdischen Gemeindehaus“ und die Diskreditierung des bewaffneten Kampfes

comments: Kommentare deaktiviert tags: BKA, militante gruppe, Stilometrie, Textklassifikation, Textkomplexität

Wortschatz-Komplexitätsmaße und Autoridentifizierung

Posted on 14th April 2011 in Allgemein, authorship identification, Linguistische Kategorien, Statistische Maße, Stilometrie / stylometry, Textklassifikation, Textkomplexität, Wortschatz

Die Hoffnung, Autoren anhand eines einzigen Indikators unterscheiden oder identifizieren zu können, stand am Anfang der Stilometrie. Der Fokus richtete sich dabei auf Maße, die unterschiedliche Aspekte des Wortschatzgebrauchs modellieren. Sie erlauben Aussagen über eine oder mehrere der folgenden vier linguostatistischen Dimensionen:

Verteilung: die Verteilung der Häufigkeit der verwendeten Wörter
Konzentration: Anteil (n mal) wiederkehrender Wörter
Vielfalt: Anteil nur selten vorkommender Wörter
Abdeckung: modelliert das Verhältnis von bestimmten Teilen des Wortschatzes zum Gesamttext (wie viel Prozent eines Textes wird mit den n häufigsten Wörtern / mit Funktionswörtern / … realisiert)

Die Wortschatz-Komplexitätsmaße beruhen meist auf einer teilweisen Verrechnung der folgenden textstatistischen Größen:

Anzahl der Token (= Wortzahl eines Textes): N
Anzahl der Types (= Anzahl der unterschiedlichen Wörter in einem Text): V
Anzahl der hapax legomena (= Types, die genau ein Mal im Text vorkommen): V1
Anzahl der dislegomena (= Types, die genau zwei Mal im Text vorkommen): V2
Anzahl der Types, die i Mal im Text vorkommen: Vi

Sie erheben den Anspruch, eine Aussage über die Wortschatzdifferenziertheit zu erlauben, das heißt über die Komplexität oder Schlichtheit des in einem Text zum Einsatz kommenden Wortschatzes.

Im Folgenden eine unvollständige Liste prominenter Maße für die Wortschatzkomplexität.

Honoré’s R (1979)

Das von Antony Honoré 1979 vorgeschlagene Maß R basiert auf der Frequenz von nur einmal vorkommenden Wörtern, sogenannten hapax legomena. Es wird wie folgt berechnet:

R = 100 * log N/(1-(V1/V))

Es geht davon aus, dass je häufiger ein Autor Wörter nur einmal benutzt (also beispielsweise Wortwiederholungen vermeidet), desto differenzierter sein Wortschatz ist.

R variiert typischerweise in einer Spanne von 1000 bis 2000, wobei höhere Werte auf einen komplexeren Wortschatz im Text verweisen und zwar in dem Sinn, dass eine große Anzahl Wörter selten im Text auftritt.

Das Maß R ist so konstruiert, dass es unabhängig von der Länge des Textes ist. Es impliziert die Annahme, dass das Verhältnis von hapax legomena zur Menge aller Types bezüglich der logarithmierten Textgrösse konstant ist. Leider ist dies aber nicht der Fall, wie Tweedie und Baayen nachweisen konnten, nimmt es mit zunehmender Textlänge ab.

Sichel’s S (1975)

Dieses Maß beruht auf dem Verhältnis der Frequenz der dislegomena, also von Wörtern, die genau zwei Mal vorkommen, zur Anzahl der Types in einem Text:

S = V2/V

Sichels Untersuchungen ergaben, dass diese Zahl für einen Autor bei Texten zwischen 1000 und 400.000 Wörtern annähernd konstant blieben, sich also robust gegenüber Textlängenschwankungen verhielten.

Brunet’s W (1978)

Ein Maß, das Aussagen weitgehend unabhängig von der Textlänge erlaubt ist Brunet’s W. Es wird wie folgt bestimmt:

W = N^V^-a (lies: N hoch V hoch -a), wobei a eine Konstante ist; Brunet verwendete: a = 0.172

Das Ergebnis variiert gewöhnlich zwischen 10 und 20, wobei ein kleiner Wert eine höhere Komplexität anzeigt.

Yule’s K (1938)

Dieses bereits 1938 vom Statistiker George Udny Yule entwickelte Wortfrequenzmaß gibt an, wie groß die Wahrscheinlichkeit ist, dass beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort gewählt wird. Es wird wie folgt berechnet:

K = 10,000 * (M/N2 – 1/N), wobei M = ∑ i^2*Vi ist.

Ein K-Wert 220 bedeutet, dass die Wahrscheinlichkeit, beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort zu erhalten, 1 zu 220 ist. Durch die Quadrieriung der Frequenz der Typegruppen (i^2) werden hochfrequente Wörter stärker gewichtet als hapax legomena.

Unter der Annahme, dass die Wahl der Wörter unabhängig von einander erfolgte, d.h. eine Poisson-Verteilung vorliegt, ist Yule’s K von der Textlänge unabhängig. Allerdings gibt es viele sprachtheoretische Gründe und empirische Evidenzen anzunehmen, dass die Wahl der Wörter nicht unabhängig von einander erfolgt.

comments: 2 » tags: authorship detection, authorship identification, Brunet's W, Honoré's R, Komplexität, Sichel's S, Textkomplexität, Wortschatz, Yule's K

Schöne neue Algorithmen für die Black Box Mensch – Kritik des digitalen Behaviorismus

Lügen | Presse:
Wortbildung bei PEGIDA-Anhängern

30C3 Nachlese, Teil 2

Parlando – Monitoring des Sprachgebrauchs im Sächsischen Landtag

Gängige Irrtümer bei der maschinellen Autorenidentifikation — Vortrag online

IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen

Linguistische Differenzialanalyse und Autorenidentifikation

Textklassifikation und Autorenidentifikation mit Hilfe komplexer n-Gramm-Analyse