Lügen | Presse:
Wortbildung bei PEGIDA-Anhängern






comments: Kommentare deaktiviert für Lügen | Presse:
Wortbildung bei PEGIDA-Anhängern
tags: , , , , , ,

Content Mapping mit Topic Models

Posted on 18th Februar 2015 in ideology mapping, Inhaltswörter, Linguistische Kategorien

Liebe Freunde der Sicherheit,

in einem früheren Beitrag habe ich argumentiert, dass die „inhaltlichen Suchbegriffe“, die der BND beim „Filtern“ des Internet benutzt, über Topic Models oder ähnliche Verfahren dazu genutzt werden können, Kommunikation thematisch zu analysieren. Das „Filtern“ bei der strategischen Fernmeldeüberwachung wäre dann faktisch eine Analyse, für die das Bundesverfassungsgericht hohe Hürden gesetzt hat. Heute möchte ich zeigen, wie die Kombination von Topic Models und Metadaten dazu eingesetzt werden kann, thematische Profile von politischen Szenen zu berechnen.


Was sind Topic Models?

Topic Models sind Algorithmen zur Aufdeckung thematischer Strukturen in Texten. Sie gewichten und messen die Affinität von Inhaltswörtern in Textexemplaren eines Korpus. Häufig miteinander auftretende Wörter, die eine hohe Themenspezifizität aufweisen, werden als „Topics“ interpretiert. Diese Lexemcluster haben keine Namen; ihre Benennung ist ein Akt der Interpretation. Ebenso erfolgt die Ermittlung der Anzahl der Topics in den Standardverfahren nicht datengeleitet, sondern in Abhängigkeit von Festlegungen des Forschers.



Meinungsbilder aus dem Internet

Das Innenministerium ließ verlauten: „Wir brauchen eine belastbare Erfassung von Meinungs- und Stimmungslagen der Bevölkerung. Es liegt kein Eingriff in das allgemeine Persönlichkeitsrecht vor, wenn eine staatliche Stelle im Internet verfügbare Kommunikationsinhalte erhebt, die sich an jedermann oder zumindest an einen nicht weiter eingrenzbaren Personenkreis richten.“ Die Folge: alle Nachrichtendienste investieren in die open source intelligence.


Über welche Themen diskutieren linke Szenen?

Will man beispielsweise wissen, womit sich linke Szenen im deutschsprachigen Raum beschäftigen, kann man eine linke News-Site wie http://linkunten.indymedia.org auf ihre Topics hin analysieren. Auf der Subdomain von indymedia.org werden nach Meinungsverschiedenheiten in der Redaktion von Indymedia Deutschland und dem Bedürfnis nach einer engeren Verntezung süddeutscher Szenen Nachrichten veröffentlicht. Das Portal ist inzwischen aktiver als das deutschsprachige indymedia.org. Auch wenn grundsätzlich Nachrichten aus allen Regionen veröffentlicht werden, liegt ein spezieller Fokus auf dem südwestdeutschen Raum. Wendet man auf sämtliche dort publizierten Texten Topic Modelling an, ordnet sich der Wortschatz aufgrund seiner Distribution in folgende Gruppen, für die relativ leicht Namen gefunden werden können:



Themenschwerpunkte linker Szenen

Weil die Artikel auf http://linkunten.indymedia.org unter anderem nach Regionen verschlagwortet sind, ist es möglich, für einzelne linke Szenen Topic-Profile zu erstellen und die Intensität der Aktivitäten zu berechnen. Die unten stehende Grafik zeigt das Topic-Profil der Dresdner Szenen im Vergleich zu anderen Szenen in Deutschland. Sie zeigt die Differenz zum Durchschnitt der normalisierten relativen Auftretenshäufigkeiten der jeweiligen Topics im Gesamtkorpus.

topics_dresden

In Dresden wird demnach überdurchschnittlich häufig über Neonazis, rechte Parteien und Flüchtlinge berichtet, zu Demonstrationen aufgerufen und über Diskussionen in und außerhalb der Szene berichtet. Antimilitarismus und Hausbesetzungen spielen hingegen eine vergleichsweise geringe Rolle.

Interessiert man sich für einen Vergleich von Szenenprofilen, kann man die Themendistributionen in Spinnengrafiken übereinanderlegen, wie im folgenden Beispiel für Wien und Salzburg:

topic_wien_salzburg

Ebenso ist es möglich, die Affinität einzelner Szenen zu relevanten Topics zu analysieren. Von besonderem Interesse für Sicherheitsbehörden könnte ja beispielsweise das Topic „Revolutionärer Kampf“ sein. Eine Analyse der ortsspezifischen Frequenz dieses Topics im Korpus ergibt folgendes Städteranking:

topics_revolution_kampf

Topic Models sind ein eleganter Weg, um sich mit relativ einfachen Mitteln einen Überblick über die inhaltlichen Prägungen von Korpora zu verschaffen. Maßnahmen gegen Topic Models laufen ins Leere, außer man ist bereit, auf inhaltlich kohärente Diskussionen zu verzichten.


comments: Kommentare deaktiviert für Content Mapping mit Topic Models tags: , , , , , ,

Die Buchlesemaschine des Bundesamtes für Verfassungsschutz

Liebe Freunde der Sicherheit,

Lesen bildet zwar, aber in Zeiten der Digitalisierung kann Lesen viel effizienter durch Automaten erledigt werden. Dass unsere Dienste auch hier an der Spitze der technologischen Entwicklung stehen, belegt ein Dokument, auf das mich ein Kollege aufmerksam gemacht hat. In der 29. Sitzung des 2. Parlamentarischen Untersuchungsausschusses am 13. September 2012 spielte ein offenbar im Selbstverlag publiziertes Buch eine Rolle.

Scanroboter im Digitalisierungszentrum der SLUB

Scanroboter im Digitalisierungszentrum der SLUB



In diesem 2004 erschienenen Buch, das von einer Person verfasst wurde, die sich dem Landesamt für Verfassungsschutz in Baden-Württemberg vorher bereits als Informant andiente, tauchte neben Referenzen auf eine rechtsterroristische Zelle namens NSU auch der Name eines Beamten des Landesamtes für Verfassungsschutz in Baden-Württemberg auf. Die Aussage dieses LfV-Beamten, Günter Stengel, bringt es ans Tageslicht: Das Bundesamt für Verfassungsschutz digitalisiert Schriften und durchsucht sie nach „Begriffen“. Darunter sind einerseits die Arbeitsnamen von Mitarbeitern, aber offenbar auch Schlagwörter. Hier Ausschnitte des Wortlautprotokolls:


Clemens Binninger (CDU/CSU): Woher haben Sie denn erfahren, dass der ein Buch publiziert oder ein Buch schreibt und das an Gott und die Welt schickt? Woher haben Sie das dann erfahren?

Zeuge Günter Stengel: Ich glaube, das habe ich vom BfV erfahren. Die haben so eine Buchlesemaschine auf bestimmte Wörter. Da war Arbeitsname – so ist es rausgekommen — war mein Arbeitsname dabei.

Clemens Binninger (CDU/CSU): Ach, die sichten die Bücher, ob in Büchern irgendwas über LfV-Leute oder BfV-Leute steht?

Zeuge Günter Stengel: Wahrscheinlich hat er sich dorthin auch gewandt, an diese Stelle, und irgendeine Dienststelle hat das Buch dann von ihm zugeschickt bekommen. Ich weiß noch, dass dann ein Schreiben kam: Hier ist schon wieder ein Vermerk von diesem Stauffenberg, ein Buch geschrieben, und Sie vom LfV Baden-Württemberg sind persönlich genannt.

Clemens Binninger (CDU/CSU): Aber so was müsste doch auch irgendwo in den Akten des LfV zu finden sein. Also, jetzt sind wir ja in einem anderen offiziellen Vorgang. Quasi zum Eigenschutz der Behörde werden Bücher im Prinzip durchgeguckt: Wird irgendwo einer unserer Mitarbeiter enttarnt? Sie haben ja alle Arbeitsnamen, sind zwar keine V-Leute, aber haben Arbeitsnamen. Wenn das der Fall ist, gibt es eine kurze Meldung an das jeweilige Landesamt: Achtung, in diesem oder jenen Buch wird Herr oder Frau XY genannt. – Ist so das Verfahren?

Zeuge Günter Stengel: Ja, so muss das gewesen sein. Ich weiß, dass in dem Buch – – Es sind auch viele Politikernamen genannt worden und LfV Baden-Württemberg. Er schreibt dann, was ich damals zu einer be- stimmten Sache angeblich geredet habe, und dann hat er sich an den MAD gewandt, und der hätte gar das Gegenteil von mir gesagt. […]

Clemens Binninger (CDU/CSU): Gut. Wir haben ja nachher noch jemanden da, der sich mit den normalen Arbeitsabläufen eigentlich am besten auskennen müsste. Den können wir ja dann auch noch mal fragen, ob es da ein eingespieltes Verfahren gibt, wie mit solchen Verdachtshinweisen oder – – „Verdacht“ ist falsch – aber so Enttarnungshinweisen oder -gefahren umgegangen wird, ob es so ein standardisiertes Verfahren gibt und Sie dann benachrichtigt werden. Titel hat man Ihnen nie gesagt. Können Sie sich auch nicht erinnern?

Zeuge Günter Stengel: Nein. Im Gegensatz zu anderen Begriffen ist mir das nicht im Gedächtnis geblieben.

Clemens Binninger (CDU/CSU): Werden dann solche Bücher asserviert? Ich meine, die Behörden heben ja im Zweifel alles auf, was nur irgendwie ein bisschen relevant ist. Oder meinen Sie, gescannt und gelesen, dann weggeschmissen?

Zeuge Günter Stengel: Das weiß ich nicht.

Clemens Binninger (CDU/CSU): Wissen Sie nicht.

Zeuge Günter Stengel: Kann ich nichts dazu sagen.


Quelle: Stenografisches Protokoll der 29. Sitzung des 2. Untersuchungsausschusses am Donnerstag, dem 13. September 2012, 10 Uhr Paul-Löbe-Haus, Berlin, S. 92f.


Ich freue mich natürlich, dass auch das BfV seinen Beitrag dazu leistet, dass die Digitalisierung unserer Bucharchive nicht allein in der Hand amerikanischer Großkonzernen wie Google liegt.


comments: Kommentare deaktiviert für Die Buchlesemaschine des Bundesamtes für Verfassungsschutz tags: , , , , ,

30C3 Nachlese, Teil 2

Auf vielfachen Wunsch hier die gif-Grafik, die ich zur Illustration der Hoffnung einiger Aktivisten erstellt habe, die NSA suche lediglich nach Keywords.


Wie die NSA nicht unsere E-Mails liest

Wie die NSA nicht unsere E-Mails liest (CC0 1.0 Universell, Font by Bolt)

In der letzten Sendung von Breitband auf DeutschlandradioKultur gab es einen schönen Beitrag von Marcus Richter zur Zukunft der Überwachung, der auf dem Kongress entstanden ist und in dem ich auch was sagen durfte.

Und dann habe ich — wie beinahe alle Vortragenden — ein Interview für dctp.tv gegeben, bei dem zumindest die erste Hälfte von meiner Seite komplett misslungen ist. Der zweite Teil enthält aber ein paar Punkte, die ich im Talk nicht so deutlich formuliert habe:




comments: Kommentare deaktiviert für 30C3 Nachlese, Teil 2 tags: , , , , , ,

Das Medienimage der Polizei im SPIEGEL

Posted on 8th Februar 2013 in Inhaltswörter, Kollokationen, Politik, Semantik

Liebe Freunde der Sicherheit,

Anfang der Woche war ich bei einer Polizei-Tagung der Evanglischen Akademie Hofgeismar zum Thema „Demokratie auf der Straße -‚Gutbürger trifft Gutpolizisten'“ eingeladen, um über das Medienimage der Polizei zu sprechen. Eine interessante Veranstaltung, bei der sich Aktivisten, Polizisten und Wissenschaftlerinnen in ungezwungener Atmosphäre begegnen und austauschen konnten. Bei meinem Vortrag zeigte sich, dass das Image der Polizei in den Medien nicht übereinstimmt mit dem Vertrauen, das ein großer Teil der Deutschen in die Insitution der Polizei hat. Denn in den Medien ist die Polizei der Prügelknabe — und dies in doppelter Hinsicht. Das habe ich versucht, am Beispiel des Spiegel (Print und SPON) zu illustrieren.

Allgemeine Frequenzentwicklung

Auch wenn jüngere Zeitgenossen glauben, die Polizei habe in den letzten Jahren wegen Stuttgart 21 und NSU-Desaster im Fokus der Berichterstattung gestanden, relativiert ein Blick auf die Verteilung der Lemmata „Polizei“, „Polizist“, „Polizeibeamter“ und „Ordnungshäter“ im Printarchiv des SPIEGEL diese Einschätzung.

Verteilung von Bezeichnungen für Polizisten im Print-Archiv des SPIEGEL

Verteilung von Bezeichnungen für Polizisten im Print-Archiv des SPIEGEL
Frequenz je 100.000 Wörter; auch bei allen folgenden Grafiken

Im langfristigen Trend geht die Berichterstattung über die Polizei zurück, auf Polizisten wird in etwa gleich häufig Bezug genommen. Auch wenn man sich die Berichterstattung über die Polizei auf Spiegel Online, Politik Inland, anschaut, zeigt sich, dass die Berichterstattung über die Polizei an einzelne Ereignisse gebunden ist und langfristig nicht zugenommen hat.

Entwicklung der Frequenz der Bezeichnungen von Polizei auf SPON (Politik, Inland)

Entwicklung der Frequenz der Bezeichnungen von Polizei auf SPON (Politik, Inland)

Interessant ist hier, dass die Berichterstattung über die Polizei nach der Eskalation in Stuttgart (im Graphen gelb markiert) von der Berichterstattung über die Castor-Transporte deutlich in den Schatten gestellt wird.

Wie wichtig die Protestbewegungen um 1968 für die Polizeiberichterstattung waren zeigt die folgende Grafik, die visualisiert, wie viele unterschiedliche Wörter mit dem Lexem „polizist“ pro Jahr im Spiegel gebildet wurden und wie häufig diese Komposita relativ zur Anzahl der Wörter benutzt wurden.

Komposita mit dem lexikalischen Morphem "polizist": Entwicklung von Token (linke Achse) und Types (rechte Achse)

Komposita mit dem lexikalischen Morphem „polizist“:
Entwicklung von Token (linke Achse) und Types (rechte Achse)

Es zeigt sich, dass die Ereignisse um 1968 die Ursache dafür waren, dass der polizeispezifische Wortschatz in den Medien sich ausdifferenziert hat.

Polizeiliche Mittel

Was wird zum Thema, wenn der SPIEGEL über die Polizei schreibt? Da sind zuallererst einmal polizeiliche Instrumente zur Manifestation des staatlichen Gewaltmonopols zu nennen, beispielsweise der Wasserwerfer:

Auch die Berichterstattung über Wasserwerfer hat Konjunktur

Konjunkturen der Berichterstattung über Wasserwerfer

Die Verlaufskurve reflektiert einige Höhepunkte der Protestgeschichte der BRD: die 68er-Bewegung, die Anti-AKW-Bewegung, die Friedensbewegung und die Proteste gegen die Startbahn West in Frankfurt. Parallel zum Wasserwerfer entdeckte die Presse auch den Polizeiknüppel und den Schlagstock. Erich Duensings geflügeltes Wort vom „Leberwurst-Prinzip — in der Mitte hineinstechen und nach beiden Seiten ausdrücken“ als polizeiliche Taktik für die Auflösung der Demonstration anlässlich des Schah-Besuchs am 2. Juni 1967 und das Kommando „Knüppel frei“ sind ins kollektive Gedächtnis eingegangen.

Ein beliebter Gegenstand der Berichterstattung um 1968: der Schlagstock

Ein beliebter Gegenstand der Berichterstattung um 1968: der Schlagstock

Die absoluten Maxima um 1968 sind auch ein Indikator dafür, dass Schlagstock- und Wasserwerfereinsatz damals in dieser Dimension noch neu waren und die Polizei angesichts der Konfrontation mit Gewalt und Gegengewalt erst mit ihrer Aufrüstung begann. Eine Aufrüstung, die Ende der 1990er auch zur Aufnahme von Pfefferspray in das Repertoire der Einsatzmittel führte.

Der Einsatz von Pfefferspray wird zum Thema

Der Einsatz von Pfefferspray wird seit Ende der 1990er zum Thema im SPIEGEL


Polizeiliche Mittel

Insgesamt muss man aber festhalten, dass in den letzten Jahre deutlich seltener über Polizeieinsätze mit Schlagstock oder Wasserwerfereinsatz berichtet wurde. Auch Komposita, die Polizei in negativer Weise mit dem Einsatz von Gewalt in Verbindung bringen, nehmen im SPIEGEL tendenziell ab:

Frequenz des Lemmas "Polizeigewalt" im Printarchiv des SPIEGEL

Frequenz des Lemmas „Polizeigewalt“ im Printarchiv des SPIEGEL


Frequenz des Lemmas "Polizeiterror" im Printarchiv des SPIEGEL

Frequenz des Lemmas „Polizeiterror“ im Printarchiv des SPIEGEL

Daraus zu schließen, dass die Polizei nun in positivem Licht dargestellt wird, ist aber falsch. Wenn Spiegel Online über die Polizei berichtet, dann signifikant häufig im Kontakt des Einsatzes von Gewalt, wobei die Polizei sowohl Ziel als auch Quelle der Gewaltausübung ist. Und diese Verbindung bleibt in fast allen Jahrgängen von SPON und Spiegel print seit den 1960er Jahren stabil.

Kollokationen zum Lemma "Polizist" in Spiegel Online (Politik Inland) im Jahr 2011

Kollokationen zum Lemma „Polizist“ in Spiegel Online (Politik Inland) im Jahr 2011

Trotz ihres guten Images in der Bevölkerung wird die Polizei in Medien wie dem SPIEGEL also stereotyp mit dem Einsatz von Gewalt assoziiert. Umgekehrt gilt dies auch für Demonstranten, über die vorwiegend nur dann berichtet wird, wenn physische Gewalt im Spiel ist. Dass die Repräsentationslogik der Medien eine Legitimationsmöglichkeit für die Eskalation von Gewalt auf Demonstrationen bietet, liegt auf der Hand. Für die Polizei gilt: keine Presse ist gute Presse.


comments: Kommentare deaktiviert für Das Medienimage der Polizei im SPIEGEL tags: , , , , , , , , , ,

Off Topic 2: Noch mehr Fakten zu SPIEGEL Online

Liebe Freunde der Sicherheit,

semantisch bestimmte Wort- und Phrasenklassen lassen sich natürlich nicht nur zur Aufdeckung subversiver Tätigkeiten benutzen, sondern auch für ganz unnütze Dinge, etwa zur Analyse von Online-Medien. Im vorletzten Posting habe ich mir die Ressortentwicklung bei SPIEGEL-Online angeschaut und herausgefunden, was wir ohnehin schon alle wussten: das von uns so geliebte Ressort „Panorama“ wurde in den letzten 10 Jahren langsam aber stetig ausgebaut, so dass es inzwischen sogar mehr Artikel umfasst als Politik-Inland oder Politik-Ausland.

Heute möchte ich euch ein paar Zeitreihen zeigen, die man getrost als Indikator für journalistische Qualität ansehen kann. Die Zeitreihen wurden mit vergleichsweise einfachen Mitteln berechnet: Der Angstindex (man könnte ihn auch Fnordbarometer) zeigt die Anzahl von Wörtern und Wendungen an, die auf einschüchternde Sachverhalte hinweisen (Terror, Seuchen, Umweltkatastophen, Islamisten, Wirtschaftskrisen etc.). Wortschatzkomplexität habe ich mit dem Maß Yule’s K operationalisiert. Der Manipulativitätsindex setzt sich zusammen aus der Anzahl aus Wörtern und Phrasen, die auf Vermutungen bzw. unsicheres Wissen hinweisen (auch Mutmaßungsindex), der Anzahl metasprachlich markierter Wendungen (z.B. sogenannte freie Wahlen) und einer Reihe von Emotionalitätsindikatoren. Der Skandalisierungsindex beruht auf einer Taxonomie, die Lemmata (vor allem Verben und Adjektive) mit starken deontischen Dimensionen erkennbar macht. Die Wort- und Phrasenlisten wurden mit Hilfe maschineller Lernverfahren ermittelt.

Betrachtet man die Entwicklung von SPON von 2000-2010 so fällt zunächst auf, dass die durchschnittliche Wortschatzkomplexität pro Artikel im Trend allmählich abgenommen hat:



Durchschnittliche Wortschatzkomplexität in SPIEGEL-Online

Durchschnittliche Wortschatzkomplexität je Artikel in SPIEGEL-Online



Dafür nehmen die Indikatoren für einen stärker mutmaßenden, d.h. weniger faktengesättigten, und skandalisierenderen journalistischen Stil nach und nach zu:


Skandalisierung- und Mutmaßungsindex für SPIEGEL-Online

Skandalisierung- und Mutmaßungsindex für SPIEGEL-Online



Der Manipulativitätsindex im Ressort Politik verharrt seit Mitte 2009 auf einem Niveau, den er zwischenzeitlich nur kurz nach den Terroranschlägen auf das World Trade Center hatte:


Manipulativitätsindex für SPIEGEL-Online, Ressort Politik



Interessant ist, dass der Angstindex im Ressort Wirtschaft den politischen Angstindex, der seit 9/11 auf erhöhtem Niveau verharrt, zweitweise im Zuge der Subprime-Krise überholt hat.



Fnord-Index für SPIEGEL-Online, Ressorts Politik und Wirtschaft

Fnord-Index für SPIEGEL-Online, Ressorts Politik und Wirtschaft



Diese Einsicht scheint zwar zunächst trivial, ist aber doch bemerkenswert, wenn man bedenkt, dass für den SPIEGEL die größte Gefahr nicht mehr von Terroristen, sondern von der Hochfinanz ausgeht.


comments: 13 » tags: ,

Linguistische Differenzialanalyse und Autorenidentifikation

Liebe Freunde der Sicherheit,

eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.

Linguistische Differenzialanalyse

Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:

„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)

Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.

Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.

Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode

Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.

Hierfür habe ich dreierlei benötigt:

  1. Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.

  2. eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.

  3. einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.

Ergebnisse: gerne | mit Freude | gern | mit Vergnügen

Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.

Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:


Standardabweichung Varianten
0.396034689707957 gerne | mit Freude | gern | mit Vergnügen
0.384572324926231 Glaube | Bekenntnis | Konfession | Denomination
0.383741494895807 kriminell | verbrecherisch | auf der schiefen Bahn | delinquent | straffällig
0.381850019132707 gütlich | friedlich | geruhsam | gewaltfrei | sanft | gütig | friedfertig | ohne Gewalt | verträglich | amikal | gewaltlos | herzensgut | friedliebend
0.380304172683078 passen | zurückstellen | aufschieben | aussetzen | verschieben | vertagen | intermittieren
0.378560699614743 weg | Fern | fern
0.372789498557065 Information | Schalter | Auskunftsschalter | Auskunft
0.371710005433523 Realität | Praxis
0.371674963099053 rechnen | rentieren | auszahlen | amortisieren | lohnenswert | lohnen | Früchte tragen | bezahlt machen
0.36944693958052 betreiben | nachgehen | ausüben
0.36617435642474 Raum | Kosmos | Weltraum | Weltall | Universum | Sphäre | All
0.363908308274997 billig | kostengünstig | kosteneffektiv | preiswert | wohlfeil | kostenwirksam | preisgünstig | günstig | spottbillig
0.363872962376017 heraus | hervor
0.362606570091546 Vater | Erzeuger | Daddy | Vati | Senior | der Alte | Papi | Kindsvater | Paps | alter Herr | leiblicher Vater | Dad | Papa | Pa
0.362155688620303 verurteilen | verdonnern | bestrafen | für schuldig erklären | aburteilen | schuldig sprechen | mit Strafe belegen | Strafe verhängen
0.361149279496628 verantwortlich | zuständig
0.360881847188603 passen | geeignet
0.360877848087947 drücken | knautschen | pressen | zwängen | pferchen | stopfen | quetschen | pfropfen | proppen
0.36060656555393 Entwicklung | Änderung | Tapetenwechsel | Dynamik | Veränderung
0.360040253521303 vergessen | übersehen | verschwitzen | verschlafen | verfehlen | verpassen | versäumen | verpennen
0.359950475146227 anschließen | beitreten | Mitglied werden
0.359570245588916 richten | urteilen
0.358943241670499 aktiv | umtriebig | engagiert | unter Strom stehend | rege | betriebsam
0.35883310781789 unbedingt | mit aller Macht | ganz und gar | auf Gedeih und Verderb | bedingungslos | auf Biegen und Brechen | um jeden Preis | rückhaltlos | mit aller Gewalt | auf Teufel komm raus | ohne Rücksicht auf Verluste
0.357590418501272 Öffentlichkeit | Allgemeinheit | Gemeinwesen
0.357565689315277 überlegen | dominierend | tonangebend | am stärksten ausgeprägt | übermächtig | führend | herrschend | beherrschend | am ausgeprägtesten | dominant
0.357282147746873 Stelle | Ortsangabe | Position | Lokalität | Örtlichkeit | Lokalisation
0.357222116951858 aufnehmen | einwerfen | reinziehen | konsumieren | reinzischen | schlucken | einnehmen | ingestieren | reinpfeifen | zu sich nehmen
0.356676679221292 Schule | Lager | Strömung
0.356337633441186 Reihe | Anzahl
0.355919880776704 kaufen | ankaufen | erwerben | aufkaufen | erkaufen | erstehen
0.355352816416153 sammeln | regenerieren | wiederherstellen | neu erstellen | erholen | berappeln
0.355209713591625 Kommentar | Notiz | Anmerkung
0.354982488402154 hart | grausam | empfindungslos | hartherzig | kalt | kaltherzig | eisig
0.354591844205998 langsam | nach und nach | gemütlich | allmählich | geruhsam | gemach | ruhig | gemächlich
0.354328900327031 Wert | Rang | Bedeutung | Wichtigkeit | Geltung | Einfluss
0.354060472670956 merken | realisieren | registrieren | perzipieren | zur Kenntnis nehmen | wahrnehmen | mitbekommen
0.353578904341922 Pflicht | Agenda | Obliegenheit | Schuldigkeit | Verbindlichkeit | Verpflichtung
0.353533447923133 stimmen | aussprechen | plädieren
0.353483316676806 Zahl | Wert
0.35347391485945 Gewalt | Heftigkeit | Schwung | Wucht | Vehemenz | Kraft | Ungestüm | Schmackes | Karacho
0.352956200168923 schützen | beschützen | sichern
0.352517940599203 herrschen | regieren
0.35232461896263 Studie | Analyse
0.352296794150891 gestalten | einrichten
0.352192163220551 verantwortlich | verantworten | den Hut aufhaben | verantwortlich zeichnen | Verantwortung tragen
0.352048952616805 Zustimmung | Zuspruch | Beipflichtung | Bestätigung | Bejahung | Affirmation | Bekräftigung | Zusagung
0.351173408423386 beantragen | vorschlagen


Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.

Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…


Literatur:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

 

 

comments: Kommentare deaktiviert für Linguistische Differenzialanalyse und Autorenidentifikation tags: , , , , , , , , ,

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Will man Texte klassifizieren, z.B. Zeitungstexte automatisch in die Kategorien Nachrichten, Kommentar und Feature sortieren, oder untersuchen, ob Texte unbekannter Herkunft von einem bestimmten Autor stammen, dann muss Merkmale festlegen, anhand derer die Texte mit einander verglichen werden sollen, um sie nach Ähnlichkeit zu ordnen. Im Folgenden eine Liste von Merkmalskategorien, die in der Stilometrie häufig zum Einsatz kommen.

Textkomplexität

  • durchschnittliche Wortlänge bzw. Verteilung der Wortlängen im Hinblick auf Silben- oder Buchstabenzahl
  • durchschnittlich Wortzahl pro Satz
  • Verhältnis von Types zu Token
  • Frequenzen von Wörtern, die bestimmten Häufigkeit angehören, beispielsweise Wörter, die nur einmal vorkommen (hapax legomena)

Funktionswörter

  • Grundannahme 1: Funktionswörter variieren nicht oder kaum mit dem Thema des Textes, sondern bilden eine Art stilistische Konstante
  • Grundannahme 2: Funktionswörter werden nicht bewusst manipuliert
  • Für das Englische werden typischerweise folgende Wortklassen (mit insgesamt einigen hundert Vertretern) verwendet: Pronomen, Präpositionen, Hilfsverben, Modalverben, Konjunktionen und Artikel; daneben auch Zahlen und Interjektionen, auch wenn es sich dabei nicht um Funktionswörter im engeren Sinn handelt

Syntax und Wortarten

  • relative Frequenz bestimmter syntaktischer Konstruktionen, anhand von:
  • Verteilung der Ergebnisse syntaktischer Text-Chunker und Parser
  • Verteilung von Wortartensequenzen oder Verteilung aus Folgen der Kombination von Wortarten und bestimmten Wortklassen

Funktionale lexikalische Taxonomien

  • bestimmte Wortarten und Funktionswörter werden in ein Klassifikationsschema gebracht, das semantische und grammatikalische Unterschiede zwischen unterschiedlichen Klassen auf unterschiedlichen Ebenen der Abstraktion repräsentiert
  • diese Taxonomien können dann benutzt werden, um Merkmale zu konstruieren, die stilistisch relevant sein können: auf der untersten Ebene können dies Funktionswörter oder part-of-speech-Unigramme sein; aber auch abstraktere Ebenen (Verteilung von semantischen Wortklassen) können für die Stilbestimmung eingesetzt werden

Inhaltswörter

  • eine problematische Kategorie, da Inhaltswörter je nach Thema und Kommunikationsbereich variieren
  • üblicherweise können sehr seltene Wörter und solche, die im Korpus eine stabile Verteilung aufweisen, ausgesondert werden
  • als erfolgreich haben sich auch Inhaltswort-n-Gramme und Kollokationen von Inhaltswörtern erwiesen

Buchstaben n-Gramme

  • einige Autoren behaupten, Buchstaben n-Gramme seien nützlich für die Identifizierung lexikalischer Präferenzen, ja sogar für grammatikalische und orthographische Vorlieben
  • der Vorteil: man braucht überhaupt kein linguistisches Wissen
  • offenbar gibt es gewisse Erfolge bei der Anwendung: insbesondere bei der Textsortenidentifikation oder bei der Messung der Ähnlichkeit von Dokumenten

Weitere Merkmale

  • morphologische Analyse: erfolgreich bei morphologisch komplexeren Sprachen
  • Frequenz und Verteilung von Satzzeichen
  • orthographische und/oder grammatikalische Fehler