Gängige Irrtümer bei der maschinellen Autorenidentifikation — Vortrag online

Liebe Freunde der Sicherheit,

bei den diesjährigen Datenspuren des C3D2 in Dresden habe ich einen Vortrag zum Thema „Gibt es einen sprachlichen Fingerabdruck? Gängige Irrtümer bei der maschinellen Autorenidentifikation“ gehalten. Das Video zum Vortrag ist nun online.





Vielen Dank an das Orga-Team für die interessante und perfekt organisierte Tagung!


Autorenidentifizierung: Grundkonstellation und Variationen

Posted on 22nd Januar 2012 in authorship identification, Textklassifikation

Liebe Freunde der Sicherheit,

solange es noch keine Klarnamenpflicht im Internet gibt und noch keine wirksamen Mittel, sie durchzusetzen, ist die Autorenidentifizierung eines der Kerngeschäfte von Sicherheitsinformatikern.

Die Grundkonstellation bei der Autorenidentifizierung sieht wie folgt aus: Zu einem anonymen Text wird ein Autor gesucht. Es gibt eine begrenzte Anzahl möglicher Autoren, von denen jeweils ein Korpus von Texten existiert. Dieses Problem ist im Kern ein Kategorisierungsproblem: Wir müssen die Texte, bei denen die Autoren bekannt sind, anhand ihrer Merkmale in Klassen einteilen und dann untersuchen, in welche Klasse der anonyme Text aufgrund seiner spezifischen Merkmale einteilen würden. Dokumente werden hierfür als numerische Vektoren dargestellt, die die Ausprägung möglicher relevanter Merkmale dieser Texte abbilden. Dann wendet man Methoden des maschinellen Lernens an, um Klassifikatoren zu finden, die die Texte, die zu unterschiedlichen Klassen gehören, voneinander unterscheiden.

Es gibt aber auch eine Reihe von Problemen, die sich nicht mit den Standardverfahren maschinellen Lernens lösen lassen und bei denen die Autorenidentifikation noch nicht so erfolgreich ist:

  1. Das Verifikationsproblem: Es gibt kein geschlossenes Set an Kandidaten, aber einen Verdächtigen. Ziel ist es, Kriterien dafür zu finden, ob der Verdächtige der Autor ist oder nicht. Im Prinzip handelt es sich hier um ein Klassifikationsproblem mit nur einer Klasse – unschön!
  2. Das Nadel-im-Heuhaufen-Problem: Es gibt eine große Anzhal von Kandiadten von denen nur kleine Trainingskorpora zur Verfügung stehen. Wegen der großen Anzahl Kandidaten (und damit Klassen) können hier (noch) keine Lern-Modelle eingesetzt werden.
  3. Das Profiling-Problem: Es gibt keine Trainingskorpora, anhand derer wir Kandidatenprofile errechnen können; Ziel ist dann, möglichst viel über die Eigenschaften des Autors herauszufinden. Insbesondere Geschlecht, Muttersprache und Alter, aber auch charakterliche Grundeigenschaften sind Gegenstand der Analysen.

Dennoch ist die Klassifikation mittels Methoden maschinellen Lernens eine zentrale Technik bei der Autorenidentifizierung, aber auch in anderen Bereichen. Diese Methoden sollen im Blog nach und nach vorgestellt werden.


Gibt es einen sprachlichen Fingerabdruck?

Liebe Freunde der Sicherheit,

oftmals sind sprachliche Spuren das einzige, was wir von vermeintlichen Täterinnen und Tätern haben. Besonders im Internet, wo Kriminelle ihre digitalen Identitäten trotz aller Bemühungen noch immer verschleiern können, sind die anonymen sprachlichen Äußerungen von Gefährdern oder geistigen Brandstiftern die einzige Möglichkeit, ihre wahre Identität aufzudecken.

So wie ein Einbrecher bei seinen Untaten Fingerabdrücke hinterlässt, so wie ein Vergewaltiger anhand seiner DNA-Spuren identifiziert werden kann, so können forensische Linguisten Täter anhand ihrer Sprache dingfest machen. So wie man durch den Abgleich von Fingerabdrücken und Zellresten mit einer Fingerabdruck- oder DNA-Datenbank einen Täter identifizieren kann, brauchen Sprachforensiker nur die sprachlichen Spuren des Täters am Tatort mit Texten abzugleichen, die einem Verdächtigen sicher zugeordnet werden können. Und wenn das sprachmaterial mit den Spuren übereinstimmen, dann klicken die Handschellen. Der sprachliche Fingerabdruck hat den Täter überführt.

So jedenfalls wollen uns so manche Informatiker glauben machen, die ihre Aufsätze mit so viel versprechenden Titeln wie „From Fingerprint to Writeprint“ betiteln. Ich bin mir nicht sicher, ob sie wirklich daran glauben oder ob es Teil einer Strategie ist, sich mehr Drittmittel einzuverleiben. Denn: einen sprachlichen Fingerabdruck gibt es nicht. Höchstens als irreführende Metapher.

Was ist ein Fingerabdruck?

Dazu muss man zunächst verstehen, was ein Fingerabdruck ist. Bei einem Fingerabdruck handelt es sich um eine Visualisierung der Papillarleisten am Endglied eines Fingers. Diese bilden offenbar abhängig von den Erbanlagen und von der Ernährung des ungeborenen Kindes eine individuelle Form aus, die sich im Laufe des Lebens nicht mehr oder kaum mehr verändert. Damit ein Fingerabdruck für eine computergestützte Forensik brauchbar ist, d.h. zum Beispiel in einer Datenbank erfasst und maschinell abgleichbar ist, wird ein Merkmalsset standardisiert erfasst. Die jeweilige Merkmalskombination gilt als einmalig.

Ähnlich verhält es sich mit dem sogenannten genetischen Fingerabdruck. Hier wird für forensische Zwecke keineswegs die gesamten Erbgutinformationen gespeichert und für einen Datenbankabgleich verfügbar gemacht. Vielmehr werden bestimmte Stellen in der DNA daraufhin untersucht, wie häufig an ihnen sogenannte short tandem repeats (STRs), also Wiederholungen von bestimmten Sequenzen vorkommen. Die variable Anzahl der Wiederholungen an diesen Punkten ergibt eine individuelles Profil, das einer Person zugeordnet werden und zu deren Identifizierung benutzt werden kann. Die DNA eines Menschen ist im Prinzip invariant und eignet sich daher gut, um Personen zu identifizieren.

Beide Verfahren beruhen also auf der Analyse messbarer Entitäten, die ihren Ursprung in biochemischen Prozessen haben, die sich einem unmittelbaren individuellen oder sozialen Einfluss entziehen.

Man könnte es sich nun leicht machen und sagen: Sprache ist im Gegensatz dazu etwas Soziales. Um verständlich kommunizieren zu können, müssen wir uns auf soziale Konventionen beziehen, auf übliche Verwendungsweisen von Wörtern (vulgo: Bedeutung) und auf Regeln, wie diese Wörter zu Sinneinheiten (vulgo: Grammatik) zusammengesetzt werden. Zudem kommunzieren wir auch nicht nur nach unseren Vorstellungen, sondern richten unsere Äußerungen auf unser intendiertes Publikum hin aus und konstruieren damit auch einen sozialen Kontext. Unseren Papillarleisten ist es aber egal, wem wir die Hand geben oder für wen wir Kaffee kochen. Sie sehen immer gleich aus. Wir treffen auch kontextabhängig keine Auswahl aus unserer DNA wie wir aus den in der Sprache möglichen Ausrucksweisen wählen, je nach dem, was wir gerade stilistisch für angemessen halten.

Abdruck wovon?

Aber so leicht würden es uns die Informatiker nicht machen. Sie würden vielleicht sagen, dass wir das Ontologisieren bleiben lassen sollten, denn abstrakt hätten wir es eben doch mit dem gleichen Problem zu tun: immer geht es darum, Merkmalsmuster zu finden, die als typisch für eine Person gelten sollen. Bei Papillarleisten oder der DNA kommen wir mit weniger Merkmalen aus als bei der Sprache, aber auch bei der Sprache ermöglicht die sprachliche Kompetenz und die Auswahl, die jeder Mensch aus den ihm zur Verfügung stehenden sprachlichen Mitteln trifft, die Erstellung eines individuellen Merkmalprofils. Und mal ehrlich: die short tandem repeats haben schon eine große Ähnlichkeit mit den n-Grammen aus der Linguistik.

Hier kommen wir aber nun an den Punkt, wo es sich lohnt über die Bedeutung des Wortes „Abdruck“ zu reflektieren. Während wir wissen, dass ein Fingerabdruck immer ein Abbild des einen betreffenden Fingers ist, dass die DNA in einer Zelle eine exakte Kopie der DNA aller anderer Zellen im Körper der betreffenden Person ist, so wissen wir überhaupt nicht, auf was eigentlich der sprachliche „Abdruck“ verweisen soll. Was drückt sich denn da ab, wenn wir schreiben?

Um von einem sprachlichen Fingerabdruck zu sprechen, müsste es etwas sein, das garantiert, dass beim nächsten Mal exakt das gleiche Muster wieder sichtbar wird. Das einzige, was mir als Linguist hier einfiele, ist die sprachliche Kompetenz. Aber gerade die ist nicht fest, sie wandelt sich ständig. Mit jedem Wort, das ich spreche, mit jedem Satz, den ich schreibe oder lese, aktualisiert sie sich. Und jede Aktualisierung ist eine (wenn auch kleine) Veränderung. Deshalb gibt es auch keinen sprachlichen Fingerabdruck: Es gibt kein festes Muster, an dem wir die Typizität einer Äußerung messen könnten.

Wir können lediglich Ähnlichkeiten zwischen Texten berechnen und mit Wahrscheinlichkeiten operieren. Mit der Evidenz eines Fingerabdrucks oder einer DNA-Spur hat das wenig zu tun. Und gegen gut gemachte sprachliche Maskeraden sind wir ohnehin machtlos.

 

Rezension zu: Drommel, Der Code des Bösen

Liebe Freunde der Sicherheit,

das Ende der Anonymität wird überall ausgerufen: getarnt als Zeitgeistphänomen „Post-privacy“ von den Spacken der datenschutzkritischen Spackeria, von Google+ und Facebook, die sich weniger Cybermobbing und Trolling verprechen, wenn alle im Internet mit Klarnamen auftreten, und nicht zuletzt im Namen der Demokratie von unserem geschätzten Internet-Experten und Innenminister Hans-Peter Friedrich. Solche Überlegungen könnten sich schon bald als überflüssig erweisen, dann nämlich, wenn es gelänge, alle Internetbewohner anhand ihres individuellen Schreibstils zu identifizieren. Dass dies bald der Fall sein könnte, das verspricht uns ein Buch, das kürzlich beim Wilhelm Heyne Verlag erschienen ist und den Titel „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ trägt.

Sein Autor ist Raimund H. Drommel, der verdienstvolle Begründer der akademisch fundierten forensischen Linguistik in Deutschland. Mit seinem Buch liefert er einen Rückblick auf die spektakulärsten seiner „mehr als 1000“ Fälle und „über 300 Gerichtsgutachten“. Und was uns Freunde der Sicherheit freut und hoffnungsfroh in die Zukunft schauen lässt: Drommel „lag immer richtig“ (8).

Die sprachtheoretische Annahmen, die Drommels Arbeit zugrunde liegt, lässt sich anhand eines Vergleichs erläutern. Er schreibt:

„Was kaum jemand weiß: Jeder Mensch bedient sich einer ganz eigenen Sprache; sie ist beinah so unverwechselbar wie unsere DNS. Liegen adäquate Sprachproben vor, kann sie fast ebenso wie diese zweifelsfrei zugeordnet werden. Wir hinterlassen linguistische Spuren, wenn wir etwas sagen oder schreiben.“ (17)

Vom Vergleichsgegenstand DNS überträgt Drommel damit die folgenden Eigenschaften auf den Sprachgebrauch:

  1. Einmaligkeit: der Sprachgebrauch eines Menschen ist so einmalig, dass er seine Identifizierung ermöglicht; Sprachgebrauch ist verräterisch
  2. Unbewusstheit: wir gebrauchen die Sprache (oder zumindest die verräterischen Teile von ihr) unbewusst
  3. Unveränderbarkeit: man kann seinen Sprachgebrauch nicht willkürlich ändern
  4. Wissenschaftliche Erschließbarkeit: um die „sprachliche DNS“ zu entschlüsseln, braucht man wissenschaftliche Methoden; sie ist nicht jedem Intellekt zugänglich

Drommel, früher Professor an der Universität zu Köln, ist ein gestandener Sprachwissenschaftler und weiß natürlich, dass der Vergleich in vielerlei Hinsicht hinkt und sprachtheoretisch nicht haltbar ist. Die Rede von der sprachlichen DNS und – an anderer Stelle – von einem sprachlichen Fingerabdruck (21f) oder einem individuellen Sprachprogramm (40) in jedem Menschen sind Versuche, sprachwissenschaftliche Zusammenhänge durch Anschluss an das Alltagswissen verständlicher zu machen. So setzt sich Drommel selbst kritisch mit Ausdrücken wie „sprachlicher Fingerabdruck“ auseinander, die gerne von sprachwissenschaftlich unbefleckten Sicherheitsinformatikern benutzt werden, um mehr Forschungsgeld einzustreichen.

Cover des Buchs "Der Code des Bösen"

Cover des Buchs "Der Code des Bösen"

Trotz dieser kritischen Selbstreflexionen sind die Gutachten, die Drommel mit seinen Methoden erstellt, vor Gericht als Beweismittel anerkannt. Drommel war Gutachter für den Generalbundesanwalt und hat entscheidend dazu beigetragen, den geheimen Code der RAF zu entschlüsseln. Darüber durfte er jedoch im vorliegenden Buch nichts schreiben. Dennoch lesen sich die einzelnen Kapitel wie eine kleine Geschichte jener Ereignisse, die die Bundesrepublik (und die Schweiz und Österreich) seit den 1980er Jahren bewegten: Entführungen reicher Unternehmer, fingierte Selbstmorde von am Waffenhandel beteiligten Rechtsanwälten, Vorwürfe sexueller Nötigung gegen Medienschaffende, aber auch handfeste politische Skandale wie die niedersächsischen Spielbankaffäre, die Lotto-Affäre in Hessen oder der Tod Uwe Barschels und die Verwicklungen der Kieler CDU-Spitze in die Machenschaften gegen Engholm. In allen Fällen spielten Texte aus der Feder von Opfer oder Täter eine gewichtige Rolle. Und Drommel weiß spannend und detailreich über die Fälle zu erzählen. Allerdings, und es schmerzt mich als Linguisten, das zugeben zu müssen: Die Spannung ergibt sich meist aus dem breiteren kriminalistischen oder zeithistorischen Kontext, weniger aus der Schilderung der sprachlichen Analysen, von denen man den Eindruck gewinnt, dass sie sehr mühsam sein müssen.

Drommel unterscheidet grundsätzlich zwei Fallkonstellationen:

  1. Der Täter ist unbekannt, mit Hilfe einer sprachlichen Analyse soll aber etwas über seine soziale Herkunft in Erfahrung gebracht werden, um so den Kreis möglicher Täter einzugrenzen. Diese Tätigkeit nennt Drommel Sprachprofiling.
  2. Es gibt einen engen Kreis Tatverdächtiger und anhand der vorliegenden sprachlichen Daten soll entschieden werden, wer der Verdächtigen mit größter Wahrscheinlichkeit der Urheber eines Textes ist, der im Kontext eines Verbrechens entstanden ist. Bei dieser Tätigkeit würde ich von Autorenidentifikation sprechen.

Häufig folgen die beiden Fallkonstellationen freileich auf einander, d.h. dass mit Hilfe des Profiling und anderer kriminalistischer Mittel der Täterkreis so weit eingeschränkt wird, dass im Anschluss eine Autorenidentifikation möglich ist.

Wenn Drommel Texte analysiert, dann tut er dies auf allen Ebenen: auf der Ebene des Textkörpers (optische Gestaltung wie Absätze, Überschriften etc.), der grammatischen Formen und Partikeln, des Satzbaus, des Wortgebrauchs und auch auf der Ebene allgemeinerer stilistischer Merkmale, die die Satzebene überschreiten. Wichtige Indizien sind natürlich sprachliche Fehler.

Insbesondere auf der Ebene der Partikeln und der Lemmata benutzt er computergestützte Verfahren, von denen er die „computerbasierte Konkordanzanalyse“ als wichtigstes bezeichnet. Dabei „werden die zu analysierenden Texte in ein spezielles Programm eingelesen und Wort für Wort, Satz für Satz miteinander verglichen.“ (55) Auf diese Weise zeigen sich dem geübten Auge die Unterschiede und Ähnlichkeiten zwischen Texten. Konkordanzen zeigen das jeweilige sprachliche Phänomen in allen sprachlichen Kontexten, in denen sie auftreten. Den Vergleich der Gebrauchsweisen und die Bewertung scheint Drommel selbst ‚von Hand‘ vorzunehmen. Es handelt sich also um eine Mischung aus maschinellem und qualitativem Verfahren. Dies mag solange funktionieren, wie der Umfang der Texte noch einigermaßen überschaubar ist. Für größere Textmengen wäre eine Automatisierung des Abgleichs und eine Quantifizierung der Ergebnisse mittels Signifikanztests sicher die effizientere und womöglich auch die gerichtsfestere Art des Vorgehens. Es verwundert auch, dass Drommel trotz seiner großen Verdienste um die Standardisierung der forensischen Linguistik und seine Bemühungen um die Objektivierung seiner Ergebnisse nicht auf Verfahren maschinellen Lernens setzt, die in der informatischen Autorenidentifikation inzwischen Standard geworden sind.

Insgesamt liegt mit „Dem Code des Bösen“ ein Buch vor, das das Potenzial von Sprachprofiling und Autorenidentifikation einem breiteren Publikum vorstellt. Es gewährt uns Einblick in die Arbeitsweise eines erfahrenen Gutachters, der mit viel kriminalistischer Akribie, aber auch wissenschaftlicher Begeisterung und großem persönlichem Engagement bei der Sache ist.


Bibliographische Angabe:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

Traditionelle Forensische Linguistik

Ziel der forensischen Linguistik ist es, aus sprachlichen Äußerungen Informationen über deren Urheber zu gewinnen. Das Attribut „forensisch“ bezieht sich darauf, dass die Äußerung im Kontext von mutmaßlichen Straftaten getätigt wurden oder für deren Aufklärung oder Vorbeugung relevant sind. Dieser Eintrag beschäftigt sich mit der traditionellen forensischen Linguistik, die beispielsweise bei der Analyse von Erpresser- oder Drohbriefen zum Einsatz kommt. Sie hat es mit eher wenig sprachlichem Material zu tun, das einer genauen Analyse unterzogen wird. Mit der computergestützten Stilometrie als Methode der forensischen Linguistik werde ich mich in späteren Beiträgen beschäftigen. Für die Stilmoetrie sind größere Datenmengen erforderlich.

Der linguistische Fingerabdruck: „From Fingerprint to Writeprint“?

Wenn Sicherheitsinformatiker ihre Software verkaufen wollen, dann sprechen sie gerne vom linguistischen Fingerabdruck. Um es gleich vorweg zu sagen: das ist vollkommen unseriös. Außer im Bereich der Stimmidentifizierung (forensische Phonetik) lassen sich sprachliche Äußerungen nicht eindeutig einer Person zuordnen. Der Vergleich  sprachlicher Merkmale von Äußerungen mit einem Fingerabdruck, der für die Identifizierung einer Person verwendet werden kann, ist daher irreführend. Sprachliche „Spuren“ sind keineswegs eindeutig. Der im digitalen Zeitalter von Kriminologen herbeigesehnte „Schreibabdruck“ kann den anaolgen Fingerabdruck nicht ersetzen.

Fehler und Normverstoß

Die traditionelle forensische Linguistik identifiziert also keine Täter, hilft aber dabei, Täterprofile zu erstellen. Sie tut dies, indem sie sprachliche Eigenschaften von Texten mit sozialen Merkmalen in Beziehung setzt. Wichtige Anhaltspunkte sind dabei Verstöße gegen die Regularitäten einer Sprache und gegen sprachliche oder stilistische Normen. Verstöße gegen die Regularitäten einer Sprache können Anzeichen dafür sein, dass der Produzent einer Äußerung kein Muttersprachler ist, insbesondere dann, wenn sie systematisch auftreten. Wenn also in einem Text mehrere Äußerungen wie

… Ich warte für die Übergabe … Ich möchte zu jemandem reden … Suchen Sie nicht für mich …

dann kann man davon ausgehen, dass der Verfasser kein Muttersprachler ist oder sich als Nichtmuttersprachlier  inszenieren möchte. Wenn solche Verstöße als Interferenzen interpretiert werden können, d.h. als Übertragung einer grammatikalischen Struktur aus der Muttersprache, können sie auch als Hinweise auf die Herkunft des Verfassers eines Textes gedeutet werden. Die Beispiele legen den Schluss nah, dass es sich um einen Muttersprachler des Englischen handelt, der hier schrieb und aufgrund mangelnder Kenntnisse des Deutschen feste Verb-Präposition-Verbindungen aus dem Englischen übernommen hat (… I’m waiting for … I want to talk to … Don’t look for …).

Autorprofil — Täterprofil

Neben der Frage, ob es sich um einen Muttersprachler handelt, bieten Texte häufig auch Anhaltspunkte dafür, aus welcher Region ein Autor kommt bzw. ob es Interferenzen mit einem regionalen Dialekt gibt. Wer „größer wie“ statt „größer als“ schreibt, kommt wahrscheinlich nicht aus Norddeutschland. Wer die regionale Variante „benützen“ gebraucht, kommt eher aus dem Süden des deutschen Sprachraums, wahrscheinlich aus dem Südwesten. Die Beherrschung der Rechtschreibung und Interpunktionsregeln, aber auch der richtige bzw. falsche Gebrauch von Fremdwörtern und die syntaktische Komplexität können Hinweise auf den Bildungsstand des Autors liefern. Die Einhaltung bestimmter stilistischer Normen kann zudem auch als Hinweis auf das Alter gedeutet werden. Rückschlüsse auf das Geschlecht des Verfassers sind allerdings nicht möglich.

Forensische Linguistik beim BKA

Das Bundeskriminalamt arbeitet mit dem Kriminaltechnischen Informationssystem Texte (KISTE), das die systematische Erfassung, Annotation, Interpretation und den Vergleich von Texten unterstützt. Aus der verlinkten Powerpoint-Präsentation einer Mitarbeiterin des BKA geht hervor, dass mehr als die Hälfte der untersuchten Texte Schreiben von Erpressern sind; Bedrohung und Volksverhetzung folgen in weitem Abstand. Terrorismus und Extremismus machen gerade einmal 5% der Fälle aus.

Fehleranalyse vs. Stilometrie

Die Fehleranalyse ist besonders dann ein erfolgversprechendes Vorgehen, wenn nur eine geringe Menge sprachlicher Daten vorliegt, die sich für statistische Analysen nicht oder kaum eignet. Bei größeren Datenmengen, in denen signifikante sprachliche Muster identifiziert werden können, kann ein breiteres Spektrum linguistischer Phänomene für die Zuordnung von Texten zu außersprachlichen Merkmalsbündeln herangezogen werden. Dazu demnächst mehr in einer kleinen Serie über Methoden der Stilometrie.

comments: Kommentare deaktiviert für Traditionelle Forensische Linguistik tags: , , , ,