Statistische Maße | surveillance and security - Computer- und korpuslinguistische Methoden des politisch motivierten Internet-Monitorings

Linguistische Differenzialanalyse und Autorenidentifikation

Posted on 17th August 2011 in authorship identification, Inhaltswörter, Linguistische Kategorien, Statistische Maße, Stilometrie / stylometry, Textklassifikation, Wortschatz

Liebe Freunde der Sicherheit,

eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.

Linguistische Differenzialanalyse

Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:

„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)

Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.

Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.

Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode

Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.

Hierfür habe ich dreierlei benötigt:

Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.
eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.
einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.

Ergebnisse: gerne | mit Freude | gern | mit Vergnügen

Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.

Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:

Standardabweichung	Varianten
0.396034689707957	gerne \| mit Freude \| gern \| mit Vergnügen
0.384572324926231	Glaube \| Bekenntnis \| Konfession \| Denomination
0.383741494895807	kriminell \| verbrecherisch \| auf der schiefen Bahn \| delinquent \| straffällig
0.381850019132707	gütlich \| friedlich \| geruhsam \| gewaltfrei \| sanft \| gütig \| friedfertig \| ohne Gewalt \| verträglich \| amikal \| gewaltlos \| herzensgut \| friedliebend
0.380304172683078	passen \| zurückstellen \| aufschieben \| aussetzen \| verschieben \| vertagen \| intermittieren
0.378560699614743	weg \| Fern \| fern
0.372789498557065	Information \| Schalter \| Auskunftsschalter \| Auskunft
0.371710005433523	Realität \| Praxis
0.371674963099053	rechnen \| rentieren \| auszahlen \| amortisieren \| lohnenswert \| lohnen \| Früchte tragen \| bezahlt machen
0.36944693958052	betreiben \| nachgehen \| ausüben
0.36617435642474	Raum \| Kosmos \| Weltraum \| Weltall \| Universum \| Sphäre \| All
0.363908308274997	billig \| kostengünstig \| kosteneffektiv \| preiswert \| wohlfeil \| kostenwirksam \| preisgünstig \| günstig \| spottbillig
0.363872962376017	heraus \| hervor
0.362606570091546	Vater \| Erzeuger \| Daddy \| Vati \| Senior \| der Alte \| Papi \| Kindsvater \| Paps \| alter Herr \| leiblicher Vater \| Dad \| Papa \| Pa
0.362155688620303	verurteilen \| verdonnern \| bestrafen \| für schuldig erklären \| aburteilen \| schuldig sprechen \| mit Strafe belegen \| Strafe verhängen
0.361149279496628	verantwortlich \| zuständig
0.360881847188603	passen \| geeignet
0.360877848087947	drücken \| knautschen \| pressen \| zwängen \| pferchen \| stopfen \| quetschen \| pfropfen \| proppen
0.36060656555393	Entwicklung \| Änderung \| Tapetenwechsel \| Dynamik \| Veränderung
0.360040253521303	vergessen \| übersehen \| verschwitzen \| verschlafen \| verfehlen \| verpassen \| versäumen \| verpennen
0.359950475146227	anschließen \| beitreten \| Mitglied werden
0.359570245588916	richten \| urteilen
0.358943241670499	aktiv \| umtriebig \| engagiert \| unter Strom stehend \| rege \| betriebsam
0.35883310781789	unbedingt \| mit aller Macht \| ganz und gar \| auf Gedeih und Verderb \| bedingungslos \| auf Biegen und Brechen \| um jeden Preis \| rückhaltlos \| mit aller Gewalt \| auf Teufel komm raus \| ohne Rücksicht auf Verluste
0.357590418501272	Öffentlichkeit \| Allgemeinheit \| Gemeinwesen
0.357565689315277	überlegen \| dominierend \| tonangebend \| am stärksten ausgeprägt \| übermächtig \| führend \| herrschend \| beherrschend \| am ausgeprägtesten \| dominant
0.357282147746873	Stelle \| Ortsangabe \| Position \| Lokalität \| Örtlichkeit \| Lokalisation
0.357222116951858	aufnehmen \| einwerfen \| reinziehen \| konsumieren \| reinzischen \| schlucken \| einnehmen \| ingestieren \| reinpfeifen \| zu sich nehmen
0.356676679221292	Schule \| Lager \| Strömung
0.356337633441186	Reihe \| Anzahl
0.355919880776704	kaufen \| ankaufen \| erwerben \| aufkaufen \| erkaufen \| erstehen
0.355352816416153	sammeln \| regenerieren \| wiederherstellen \| neu erstellen \| erholen \| berappeln
0.355209713591625	Kommentar \| Notiz \| Anmerkung
0.354982488402154	hart \| grausam \| empfindungslos \| hartherzig \| kalt \| kaltherzig \| eisig
0.354591844205998	langsam \| nach und nach \| gemütlich \| allmählich \| geruhsam \| gemach \| ruhig \| gemächlich
0.354328900327031	Wert \| Rang \| Bedeutung \| Wichtigkeit \| Geltung \| Einfluss
0.354060472670956	merken \| realisieren \| registrieren \| perzipieren \| zur Kenntnis nehmen \| wahrnehmen \| mitbekommen
0.353578904341922	Pflicht \| Agenda \| Obliegenheit \| Schuldigkeit \| Verbindlichkeit \| Verpflichtung
0.353533447923133	stimmen \| aussprechen \| plädieren
0.353483316676806	Zahl \| Wert
0.35347391485945	Gewalt \| Heftigkeit \| Schwung \| Wucht \| Vehemenz \| Kraft \| Ungestüm \| Schmackes \| Karacho
0.352956200168923	schützen \| beschützen \| sichern
0.352517940599203	herrschen \| regieren
0.35232461896263	Studie \| Analyse
0.352296794150891	gestalten \| einrichten
0.352192163220551	verantwortlich \| verantworten \| den Hut aufhaben \| verantwortlich zeichnen \| Verantwortung tragen
0.352048952616805	Zustimmung \| Zuspruch \| Beipflichtung \| Bestätigung \| Bejahung \| Affirmation \| Bekräftigung \| Zusagung
0.351173408423386	beantragen \| vorschlagen

Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.

Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…

Literatur:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

comments: Kommentare deaktiviert tags: authorship detection, authorship identification, forensische Linguistik, Idiolekt, Linguistische Differenzialanalyse, NPD, Raimund Drommel, Soziolekt, Soziolinguistik, Wortschatz

Wortschatz-Komplexitätsmaße und Autoridentifizierung

Posted on 14th April 2011 in Allgemein, authorship identification, Linguistische Kategorien, Statistische Maße, Stilometrie / stylometry, Textklassifikation, Textkomplexität, Wortschatz

Die Hoffnung, Autoren anhand eines einzigen Indikators unterscheiden oder identifizieren zu können, stand am Anfang der Stilometrie. Der Fokus richtete sich dabei auf Maße, die unterschiedliche Aspekte des Wortschatzgebrauchs modellieren. Sie erlauben Aussagen über eine oder mehrere der folgenden vier linguostatistischen Dimensionen:

Verteilung: die Verteilung der Häufigkeit der verwendeten Wörter
Konzentration: Anteil (n mal) wiederkehrender Wörter
Vielfalt: Anteil nur selten vorkommender Wörter
Abdeckung: modelliert das Verhältnis von bestimmten Teilen des Wortschatzes zum Gesamttext (wie viel Prozent eines Textes wird mit den n häufigsten Wörtern / mit Funktionswörtern / … realisiert)

Die Wortschatz-Komplexitätsmaße beruhen meist auf einer teilweisen Verrechnung der folgenden textstatistischen Größen:

Anzahl der Token (= Wortzahl eines Textes): N
Anzahl der Types (= Anzahl der unterschiedlichen Wörter in einem Text): V
Anzahl der hapax legomena (= Types, die genau ein Mal im Text vorkommen): V1
Anzahl der dislegomena (= Types, die genau zwei Mal im Text vorkommen): V2
Anzahl der Types, die i Mal im Text vorkommen: Vi

Sie erheben den Anspruch, eine Aussage über die Wortschatzdifferenziertheit zu erlauben, das heißt über die Komplexität oder Schlichtheit des in einem Text zum Einsatz kommenden Wortschatzes.

Im Folgenden eine unvollständige Liste prominenter Maße für die Wortschatzkomplexität.

Honoré’s R (1979)

Das von Antony Honoré 1979 vorgeschlagene Maß R basiert auf der Frequenz von nur einmal vorkommenden Wörtern, sogenannten hapax legomena. Es wird wie folgt berechnet:

R = 100 * log N/(1-(V1/V))

Es geht davon aus, dass je häufiger ein Autor Wörter nur einmal benutzt (also beispielsweise Wortwiederholungen vermeidet), desto differenzierter sein Wortschatz ist.

R variiert typischerweise in einer Spanne von 1000 bis 2000, wobei höhere Werte auf einen komplexeren Wortschatz im Text verweisen und zwar in dem Sinn, dass eine große Anzahl Wörter selten im Text auftritt.

Das Maß R ist so konstruiert, dass es unabhängig von der Länge des Textes ist. Es impliziert die Annahme, dass das Verhältnis von hapax legomena zur Menge aller Types bezüglich der logarithmierten Textgrösse konstant ist. Leider ist dies aber nicht der Fall, wie Tweedie und Baayen nachweisen konnten, nimmt es mit zunehmender Textlänge ab.

Sichel’s S (1975)

Dieses Maß beruht auf dem Verhältnis der Frequenz der dislegomena, also von Wörtern, die genau zwei Mal vorkommen, zur Anzahl der Types in einem Text:

S = V2/V

Sichels Untersuchungen ergaben, dass diese Zahl für einen Autor bei Texten zwischen 1000 und 400.000 Wörtern annähernd konstant blieben, sich also robust gegenüber Textlängenschwankungen verhielten.

Brunet’s W (1978)

Ein Maß, das Aussagen weitgehend unabhängig von der Textlänge erlaubt ist Brunet’s W. Es wird wie folgt bestimmt:

W = N^V^-a (lies: N hoch V hoch -a), wobei a eine Konstante ist; Brunet verwendete: a = 0.172

Das Ergebnis variiert gewöhnlich zwischen 10 und 20, wobei ein kleiner Wert eine höhere Komplexität anzeigt.

Yule’s K (1938)

Dieses bereits 1938 vom Statistiker George Udny Yule entwickelte Wortfrequenzmaß gibt an, wie groß die Wahrscheinlichkeit ist, dass beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort gewählt wird. Es wird wie folgt berechnet:

K = 10,000 * (M/N2 – 1/N), wobei M = ∑ i^2*Vi ist.

Ein K-Wert 220 bedeutet, dass die Wahrscheinlichkeit, beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort zu erhalten, 1 zu 220 ist. Durch die Quadrieriung der Frequenz der Typegruppen (i^2) werden hochfrequente Wörter stärker gewichtet als hapax legomena.

Unter der Annahme, dass die Wahl der Wörter unabhängig von einander erfolgte, d.h. eine Poisson-Verteilung vorliegt, ist Yule’s K von der Textlänge unabhängig. Allerdings gibt es viele sprachtheoretische Gründe und empirische Evidenzen anzunehmen, dass die Wahl der Wörter nicht unabhängig von einander erfolgt.

comments: 2 » tags: authorship detection, authorship identification, Brunet's W, Honoré's R, Komplexität, Sichel's S, Textkomplexität, Wortschatz, Yule's K

Linguistische Differenzialanalyse und Autorenidentifikation

Wortschatz-Komplexitätsmaße und Autoridentifizierung

Honoré’s R (1979)

Sichel’s S (1975)

Brunet’s W (1978)

Yule’s K (1938)

Kategorien

Neueste Beiträge

Archive

About

Linguistische Differenzialanalyse und Autorenidentifikation

Wortschatz-Komplexitätsmaße und Autoridentifizierung

Honoré’s R (1979)

Sichel’s S (1975)

Brunet’s W (1978)

Yule’s K (1938)

Kategorien

Neueste Beiträge

Archive

Wordcloud

About