Gibt es einen sprachlichen Fingerabdruck?

Liebe Freunde der Sicherheit,

oftmals sind sprachliche Spuren das einzige, was wir von vermeintlichen Täterinnen und Tätern haben. Besonders im Internet, wo Kriminelle ihre digitalen Identitäten trotz aller Bemühungen noch immer verschleiern können, sind die anonymen sprachlichen Äußerungen von Gefährdern oder geistigen Brandstiftern die einzige Möglichkeit, ihre wahre Identität aufzudecken.

So wie ein Einbrecher bei seinen Untaten Fingerabdrücke hinterlässt, so wie ein Vergewaltiger anhand seiner DNA-Spuren identifiziert werden kann, so können forensische Linguisten Täter anhand ihrer Sprache dingfest machen. So wie man durch den Abgleich von Fingerabdrücken und Zellresten mit einer Fingerabdruck- oder DNA-Datenbank einen Täter identifizieren kann, brauchen Sprachforensiker nur die sprachlichen Spuren des Täters am Tatort mit Texten abzugleichen, die einem Verdächtigen sicher zugeordnet werden können. Und wenn das sprachmaterial mit den Spuren übereinstimmen, dann klicken die Handschellen. Der sprachliche Fingerabdruck hat den Täter überführt.

So jedenfalls wollen uns so manche Informatiker glauben machen, die ihre Aufsätze mit so viel versprechenden Titeln wie „From Fingerprint to Writeprint“ betiteln. Ich bin mir nicht sicher, ob sie wirklich daran glauben oder ob es Teil einer Strategie ist, sich mehr Drittmittel einzuverleiben. Denn: einen sprachlichen Fingerabdruck gibt es nicht. Höchstens als irreführende Metapher.

Was ist ein Fingerabdruck?

Dazu muss man zunächst verstehen, was ein Fingerabdruck ist. Bei einem Fingerabdruck handelt es sich um eine Visualisierung der Papillarleisten am Endglied eines Fingers. Diese bilden offenbar abhängig von den Erbanlagen und von der Ernährung des ungeborenen Kindes eine individuelle Form aus, die sich im Laufe des Lebens nicht mehr oder kaum mehr verändert. Damit ein Fingerabdruck für eine computergestützte Forensik brauchbar ist, d.h. zum Beispiel in einer Datenbank erfasst und maschinell abgleichbar ist, wird ein Merkmalsset standardisiert erfasst. Die jeweilige Merkmalskombination gilt als einmalig.

Ähnlich verhält es sich mit dem sogenannten genetischen Fingerabdruck. Hier wird für forensische Zwecke keineswegs die gesamten Erbgutinformationen gespeichert und für einen Datenbankabgleich verfügbar gemacht. Vielmehr werden bestimmte Stellen in der DNA daraufhin untersucht, wie häufig an ihnen sogenannte short tandem repeats (STRs), also Wiederholungen von bestimmten Sequenzen vorkommen. Die variable Anzahl der Wiederholungen an diesen Punkten ergibt eine individuelles Profil, das einer Person zugeordnet werden und zu deren Identifizierung benutzt werden kann. Die DNA eines Menschen ist im Prinzip invariant und eignet sich daher gut, um Personen zu identifizieren.

Beide Verfahren beruhen also auf der Analyse messbarer Entitäten, die ihren Ursprung in biochemischen Prozessen haben, die sich einem unmittelbaren individuellen oder sozialen Einfluss entziehen.

Man könnte es sich nun leicht machen und sagen: Sprache ist im Gegensatz dazu etwas Soziales. Um verständlich kommunizieren zu können, müssen wir uns auf soziale Konventionen beziehen, auf übliche Verwendungsweisen von Wörtern (vulgo: Bedeutung) und auf Regeln, wie diese Wörter zu Sinneinheiten (vulgo: Grammatik) zusammengesetzt werden. Zudem kommunzieren wir auch nicht nur nach unseren Vorstellungen, sondern richten unsere Äußerungen auf unser intendiertes Publikum hin aus und konstruieren damit auch einen sozialen Kontext. Unseren Papillarleisten ist es aber egal, wem wir die Hand geben oder für wen wir Kaffee kochen. Sie sehen immer gleich aus. Wir treffen auch kontextabhängig keine Auswahl aus unserer DNA wie wir aus den in der Sprache möglichen Ausrucksweisen wählen, je nach dem, was wir gerade stilistisch für angemessen halten.

Abdruck wovon?

Aber so leicht würden es uns die Informatiker nicht machen. Sie würden vielleicht sagen, dass wir das Ontologisieren bleiben lassen sollten, denn abstrakt hätten wir es eben doch mit dem gleichen Problem zu tun: immer geht es darum, Merkmalsmuster zu finden, die als typisch für eine Person gelten sollen. Bei Papillarleisten oder der DNA kommen wir mit weniger Merkmalen aus als bei der Sprache, aber auch bei der Sprache ermöglicht die sprachliche Kompetenz und die Auswahl, die jeder Mensch aus den ihm zur Verfügung stehenden sprachlichen Mitteln trifft, die Erstellung eines individuellen Merkmalprofils. Und mal ehrlich: die short tandem repeats haben schon eine große Ähnlichkeit mit den n-Grammen aus der Linguistik.

Hier kommen wir aber nun an den Punkt, wo es sich lohnt über die Bedeutung des Wortes „Abdruck“ zu reflektieren. Während wir wissen, dass ein Fingerabdruck immer ein Abbild des einen betreffenden Fingers ist, dass die DNA in einer Zelle eine exakte Kopie der DNA aller anderer Zellen im Körper der betreffenden Person ist, so wissen wir überhaupt nicht, auf was eigentlich der sprachliche „Abdruck“ verweisen soll. Was drückt sich denn da ab, wenn wir schreiben?

Um von einem sprachlichen Fingerabdruck zu sprechen, müsste es etwas sein, das garantiert, dass beim nächsten Mal exakt das gleiche Muster wieder sichtbar wird. Das einzige, was mir als Linguist hier einfiele, ist die sprachliche Kompetenz. Aber gerade die ist nicht fest, sie wandelt sich ständig. Mit jedem Wort, das ich spreche, mit jedem Satz, den ich schreibe oder lese, aktualisiert sie sich. Und jede Aktualisierung ist eine (wenn auch kleine) Veränderung. Deshalb gibt es auch keinen sprachlichen Fingerabdruck: Es gibt kein festes Muster, an dem wir die Typizität einer Äußerung messen könnten.

Wir können lediglich Ähnlichkeiten zwischen Texten berechnen und mit Wahrscheinlichkeiten operieren. Mit der Evidenz eines Fingerabdrucks oder einer DNA-Spur hat das wenig zu tun. Und gegen gut gemachte sprachliche Maskeraden sind wir ohnehin machtlos.

 

IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen

Liebe Freund der Sicherheit,

netzpolitik.org kommentiert die Tatsache, dass offenbar ein vom FBI verfasstes Profiling der führenden Köpfe von Anonymous geleakt ist. Sie stammt von der „Behavioral Science Unit“. Aus linguistischer Perspektive sind diese Profile insofern interessant, als sie ausschließlich aus der Analyse von chat logs, twitter logs und sonstigen Publikationen von Anonymous gewonnen wurden. Sprachkompetenz und Sprachgebrauch werden also zum Maßstab der Persönlichkeit.

Wenn man sich die Bewertungskategorien ansieht, dann zeigt sich, dass das die betreffenden Profiler FBI vorwiegend in den Kategorien der traditionellen forensischen Linguistik denken. Sie bewerten die sprachliche Performanz nach folgenden Kriterien:

  • Den souveränen Umgang mit einer sprachlichen Normen, insbesondere der Standardnorm des American English: über Sabu schreiben die Profiler „His use of netspeak is interspersed with proper American English diction and grammar that implies he is an American citizen and has been educated“ (3). Standardsprachenideologie in Reinform: die Beherrschung der Standardnorm ist eine kulturelle Leistung und zugleich ein Identitätsakt, denn Sprache schafft nationale Identität („Uns knüpft der Sprache heilig Band“). Zudem wird der Gebrauch der Standardnorm auch mit der Variable Alter korreliert.

  • Sprachliche Fehler bzw. Abweichungen von den Normen des American English: Über JoePie91 schreiben die Profiler „There are times when the syntax and grammar infer that JoePie is not an American and may in fact be in the EU.“ (5) Interessant ist, dass nicht die Frage diskutiert wird, ob er Muttersprachler oder Nichtmuttersprachler des Englischen ist.

  • Fachsprache: der Gebrauch von „netspeak“ und die Art ihres Gebrauchs: über JoePie91 schreiben die Profiler „He tends not to use as much netspeak as the others and makes relevant arguments in correct grammatical syntax.“ (5)

  • Die intraindividuelle Variation im Sprachgebrauch: eine zu starke Variation wird als mit einer kohärenten Persönlichkeit nicht vereinbar angesehen; daraus schließen die Profiler entweder mehrfachen Gebrauch eines Pseudonyms oder bewusste Verstellungsabsichten: so unterstellt man Sabu, er benutze netspeak, um sich als „script kiddie“ zu maskieren, weil er sonst durchaus in der Lage sei, grammatikalisch korrekte Sätze zu bilden. Zugleich konstatiert man: „Varying logs from online IRC […] sessions have borne out the possibility however, that the user ID „Sabu“ is sometimes also used by others to confuse auhtorities and others as to who the real person is behind the keyboard.“ Die Hypothese wird jedoch mit dem Hinweis auf die Vielzahl letztlich doch kohärenter Dokumente zurückgewiesen.

Die Profiler lassen im Unklaren, ob sie quantitative Methoden benutzt haben. An einer Stelle schreiben sie über Sabu und die Möglichkeit der Nutzung seines Nicks durch unterschiedliche Personen: „through an amalgam of transcripts the tell tale signs of a consistent individual can be clearly seen and assessed.“ (3) Mit viel Fantasie könnte man hier den Gebrauch quantitativer Analysen hineinlesen. Ich habe aber eher den Eindruck, dass die Profiler die Texte vor allem mit nicht-maschinellen Mitteln analysiert haben.

Eine Datenbank mit IRC-Chats und Twitter-Logs, anhand derer Aussagen über die Spannbreite möglicher intraindividueller Variation möglich wären, stand ihnen offenbar nicht zu Verfügung. Geschweige denn eine Datenbank mit personenspezifischen Textkorpora, die eine Identifizierung der Real-Life-Identitäten ermöglichen würde.

Wenn ich ein Profil der Profiler erstellen sollte (nicht ganz ernst gemeint!): keine Linguisten, sondern Psychologen, die im Studium auch ein bisschen Sprachpsychologie gehört haben, und Soziologen. Der Gebrauch von Ausdrücken wie „slang“ und „diction“ verweist m.E. auf eine Generation, die mit Konzepten der neueren Soziolinguistik und Sprachsoziologie nicht vertraut ist. Ich tippe daher auf ein Alter der Angehörigen der „Behavioral Science Unit“ zwischen 45 und 60 Jahren.

comments: Kommentare deaktiviert für IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen tags: , , , , ,

In eigener Sache: Soziolinguistik der Stimme

Posted on 14th September 2011 in Off Topic

Liebe Freunde der Sicherheit,

Stimmerkennung wird immer häufiger auch in Sicherheitssystemen eingesetzt. Mich interessieren im Moment aber weniger die forensischen, sondern die sozialen Aspekte von Stimmen. Wer Zeit und Lust hat, ein kleines Forschungsprojekt zu unterstützen, den möchte ich bitten, folgenden Online-Fragebogen auszufüllen:



http://www.scharloth.com/voice/

Das dauert ca. 20 Minuten und ist ein bisschen anstrengend. Allen, die mitmachen, daher ein herzliches Dankeschön

Zu forensischen Aspekten der Stimmanalyse schreibe ich auf diesem Blog ausführlicher zu einem späteren Zeitpunkt. Versprochen!


comments: Kommentare deaktiviert für In eigener Sache: Soziolinguistik der Stimme tags:

Off Topic 2: Noch mehr Fakten zu SPIEGEL Online

Liebe Freunde der Sicherheit,

semantisch bestimmte Wort- und Phrasenklassen lassen sich natürlich nicht nur zur Aufdeckung subversiver Tätigkeiten benutzen, sondern auch für ganz unnütze Dinge, etwa zur Analyse von Online-Medien. Im vorletzten Posting habe ich mir die Ressortentwicklung bei SPIEGEL-Online angeschaut und herausgefunden, was wir ohnehin schon alle wussten: das von uns so geliebte Ressort „Panorama“ wurde in den letzten 10 Jahren langsam aber stetig ausgebaut, so dass es inzwischen sogar mehr Artikel umfasst als Politik-Inland oder Politik-Ausland.

Heute möchte ich euch ein paar Zeitreihen zeigen, die man getrost als Indikator für journalistische Qualität ansehen kann. Die Zeitreihen wurden mit vergleichsweise einfachen Mitteln berechnet: Der Angstindex (man könnte ihn auch Fnordbarometer) zeigt die Anzahl von Wörtern und Wendungen an, die auf einschüchternde Sachverhalte hinweisen (Terror, Seuchen, Umweltkatastophen, Islamisten, Wirtschaftskrisen etc.). Wortschatzkomplexität habe ich mit dem Maß Yule’s K operationalisiert. Der Manipulativitätsindex setzt sich zusammen aus der Anzahl aus Wörtern und Phrasen, die auf Vermutungen bzw. unsicheres Wissen hinweisen (auch Mutmaßungsindex), der Anzahl metasprachlich markierter Wendungen (z.B. sogenannte freie Wahlen) und einer Reihe von Emotionalitätsindikatoren. Der Skandalisierungsindex beruht auf einer Taxonomie, die Lemmata (vor allem Verben und Adjektive) mit starken deontischen Dimensionen erkennbar macht. Die Wort- und Phrasenlisten wurden mit Hilfe maschineller Lernverfahren ermittelt.

Betrachtet man die Entwicklung von SPON von 2000-2010 so fällt zunächst auf, dass die durchschnittliche Wortschatzkomplexität pro Artikel im Trend allmählich abgenommen hat:



Durchschnittliche Wortschatzkomplexität in SPIEGEL-Online

Durchschnittliche Wortschatzkomplexität je Artikel in SPIEGEL-Online



Dafür nehmen die Indikatoren für einen stärker mutmaßenden, d.h. weniger faktengesättigten, und skandalisierenderen journalistischen Stil nach und nach zu:


Skandalisierung- und Mutmaßungsindex für SPIEGEL-Online

Skandalisierung- und Mutmaßungsindex für SPIEGEL-Online



Der Manipulativitätsindex im Ressort Politik verharrt seit Mitte 2009 auf einem Niveau, den er zwischenzeitlich nur kurz nach den Terroranschlägen auf das World Trade Center hatte:


Manipulativitätsindex für SPIEGEL-Online, Ressort Politik



Interessant ist, dass der Angstindex im Ressort Wirtschaft den politischen Angstindex, der seit 9/11 auf erhöhtem Niveau verharrt, zweitweise im Zuge der Subprime-Krise überholt hat.



Fnord-Index für SPIEGEL-Online, Ressorts Politik und Wirtschaft

Fnord-Index für SPIEGEL-Online, Ressorts Politik und Wirtschaft



Diese Einsicht scheint zwar zunächst trivial, ist aber doch bemerkenswert, wenn man bedenkt, dass für den SPIEGEL die größte Gefahr nicht mehr von Terroristen, sondern von der Hochfinanz ausgeht.


comments: 13 » tags: ,

Breivik’s ideological map

Posted on 1st September 2011 in authorship identification, ideology mapping, Visualisierung

Liebe Freunde der Sicherheit,

so wie viele seiner Vorgänger hat der Terrorist Anders Behring Breivik viel Text hinterlassen. Terrorismus ist Kommunikation. Terroristen handeln im Wissen, dass ihre Tat das System nicht umstürzen wird. Terroristische Akte wollen vielmehr Aufmerksamkeit auf eine Botschaft lenken und ihr zugleich Nachdruck verleihen. Selten spricht der Terrorakt jedoch für sich selbst. Der Terrorakt eröffnet vielmehr einen Interpretationsraum, durch den ganz unterschiedliche Wege führen können. Terroristen schreiben Texte, um diesen Raum zu verengen. Mit diesen Texten wollen sie die Interpretationsmacht über ihre Tat behaupten. Zugleich wollen sie uns zeigen, dass sie keine Terroristen sind, die nur Schrecken (lat. terror = „Schrecken“) verbreiten wollen. Sie wollen uns zeigen, dass ihr Ziel nicht die Einschüchterung durch sinnlose Gewalt ist, sondern dass sie eine politische Agenda haben, die auf der Basis rationaler Analysen und stringenter Argumente ihr Vorgehen rechtfertigt. Damit Terrorismus erfolgreich ist, braucht er Medien, die die Aufmerksamkeit auf seine Taten lenken und seine Rechtfertigungen reproduzieren. Deshalb haben alle Terroristen eine Medienstrategie. Deshalb schrieb Breivik sein Manifest „2083: A European Declaration of Independence“ und wählte das Internet für dessen Verbreitung. Das ist eine Möglichkeit, die Dinge zu sehen.


Ideologische Landkarte von Anders Behring Breivik

Breivik's ideological map



Eine andere Möglichkeit ist mir bei der Lektüre verschiedener Blogeinträge, vor allem zweier sehr anregender Texte von Michael Seemann, in den Sinn gekommen. In „Breivik, Queryology und der Weltkontrollverlust“ erklärt er queryologisch, wie sich der Einzeltäter sein geschlossenes Weltbild zurechtfiltern konnte. Mindestens ebenso interessant in diesem Kontext ist jedoch der Blogeintrag „Warum wir Dinge ins Internet schreiben“. Darin deutet mspr0 das Hinterlassen von Datenspuren im Netz als Möglichkeit sich unsterblich zu machen. Denn durch die Analyse dieser Datenspuren werde es in naher oder ferner Zukunft möglich, eine Persönlichkeit zu simulieren. Ins Internet schreiben, sich im Internet bewegen sei daher eine Art „Mindupload“.

Anders Behring Breivik muss damit gerechnet haben, während seiner Tat zu sterben, zumindest wird er es einkalkuliert haben. Ganz sicher aber ist er davon ausgegangen, für sehr lange Zeit sein Dasein im Gefängnis zu fristen. Wer sein Leben für eine Idee einsetzt, der will seine Identität mit der Idee verschmelzen und ihr Unsterblichkeit verleihen. Das Manifest „2083: A European Declaration of Independence“ ist Breiviks Mindupload. Simulieren können (und wollen) wir es nicht, aber visualisieren können wir es.


Die Grafik als zoombares PDF: breivik_ideological_map

comments: Kommentare deaktiviert für Breivik’s ideological map tags: , ,