Wortschatz | surveillance and security - Computer- und korpuslinguistische Methoden des politisch motivierten Internet-Monitorings

Beat the Prof: Wortwahl

Posted on 17th März 2017 in Politik, Semantik, Wortschatz

Friederike Werner von ZEIT Online hat mich eingeladen, ein Wissensquiz zur Wortwahl, insbesondere zur Sprache der Herabsetzung und Ausgrenzung auszudenken.

Die korrekten Antworten und Erläuterungen habe ich auf hassrede.de zusammengestellt.

comments: Kommentare deaktiviert tags: Die ZEIT, Politolinguistik, Sprache der AfD, Sprache in der Politik, Sprachkritisches, Wissensquiz

Der Hate Speech-Hype: „Hetze“ und „Hass“ in den Medien

Posted on 8th Oktober 2016 in Politik, Wortschatz

Hate Speech ist in aller Munde, und das in doppelter Hinsicht: Einerseits flutet ein Tsunami an Hasskommentaren das Internet und untergräbt in den Augen vieler die Fundamente der demokratischen Meinungsbildung. Andererseits erleben wir, wie Hate Speech auch im öffentlichen Diskurs zu einer eigenständigen Kategorie der verbalen Herabsetzung wird. Ein Indiz dafür ist der Anstieg des Gebrauchs einschlägiger Lexeme in SPIEGEL Online in den letzten zwei Jahren (bis 8/2016). Neben dem Ausdruck der „Volksverhetzung“, der einen Straftatbestand bezeichnet, ist die Anzahl der Nutzung der Ausdrücke „Hetze“, „Hetzer“ und „hetzerisch“ sowie von „Hassbotschaft“ und „Hasskommentar“ im Ressort Innenpolitik deutlich gestiegen:

Auffällig ist freilich, dass das Wort „Hetze“ häufiger verwendet wird als das Englische „Hate Speech“ und seine Lehnübersetzung „Hassrede“. Im Ressort Netzwelt freilich haben Komposita mit dem lexikalischen Morphem /hass/ wie „Hassbotschaft“, „Hasskommentar“ oder „Hassposting“ den Ausdruck „Hetze“ im Jahr 2016 noch überholt. Und auch die Bezeichnungen „Hate Speech“ und „Hassrede“ kommen deutlich häufiger vor, als in den Jahren vor 2015.

Die Analyse zeigt, dass der Ausdruck „Hate Speech“ und seine Lehnübersetzung „Hassrede“ sowie davon semantisch inspirierte Komposita wie „Hassbotschaft“ – und mit ihnen Hassrede als spezifische Form verbaler Herabsetzung – im Kontext von Netzdiskursen geprägt wird. Im Englischen, in dem sich die Bedeutung von „Hate Speech“ auch aus der semantischen Nähe zu „Hate Crime“ (einem Delikt gegen ein nach dem Kriterium der vermeintlichen Zugehörigkeit zu einer gesellschaftlichen Gruppe ausgewählten Opfer) speist, ist der Ausdruck schon länger eingeführt, wie ein Blick auf die Daten im Google n-Gram-Viewer belegen.

hate_speech_google_ngram

Trotz aller Kritik am Begriff der Hassrede und trotz der heftigen Diskussionen darüber, wie mit Hate Speech in sozialen Medien zu verfahren sei, hat es den Anschein, dass es den Kritiken (noch) nicht gelungen ist, den Begriff negativ im Sinn einer undemokratischen Redeverbotsideologie zu besetzen, wie dies beim Ausdruck „politische Korrektheit“ der Fall ist.

So spielt zwar auch in den Online-Publikationen des berüchtigten Kopp Verlag (hier ausgewertet: info.kopp-verlag.de) die Beschäftigung mit dem Thema eine immer größere Rolle. Dennoch wird hier dominant von „Hetze“ gesprochen, als „Hate Speech“ oder „Hassrede“ wird das Thema erst seit 2016 geframet.

Auch wenn der Satz „Truth – The New Hate Speech“ also in Deutschland (noch) nicht sinnvoll sagbar ist, zeigen die von den Wortfamilien der Morpheme /hetze/ und /hass/ bezeichneten Sachverhalte bei SPIEGEL Online und im Kopp Verlag nur geringe Schnittmengen, was auf eine lagerspezifische strategische Instrumentalisierung der Begriffe hindeutet.

Der folgende Graph zeigt Komposita mit dem lexikalischen Morphem /hass/ in den Korpora von info.kopp-verlag.de und SPIEGEL Online 2015 und 2016. Rot markiert sind Komposita, die sich ausschließlich beim Kopp Verlag fanden. Grau sind Komposita, die nur im Korpus von SPIEGEL Online vorkommen. Schwarz dargestellte Komposita finden sich in beiden Korpora.

Während der Kopp-Verlag vom „Leser-Hass“ und „Deutschland-Hass“ schreibt und damit auf patriotische „Mainstream-Presse“-Verächter zielt, thematisiert SPIEGEL Online den Medienhass, also den Hass auf die Medien. Entsprechend werden viele Determintativkomposita mit /hass/ als Erstglied in Kontexten verwendet, in denen über die Bestrebung zur Ächtung von Hate Speech als staatliche Propaganda- und Zensurmaßnahme berichtet wird; oder sie bezeichnen Sachverhalte, die mit dem muslimischen Glauben im Zusammenhang stehen („Hass-Moschee“).

Die gleiche Tendenz ist bei Komposita mit dem lexikalischen Morphem /hetze/ beobachtbar. Hier wird beim Kopp-Verlag die Selbstviktimisierung der Neuen Rechten („AfD-Hetz“, „Medienhetze“) und die Freundschaft zu Russland („Kriegshetze“ westlicher Politiker) sichtbar, aber auch die vermeintliche „Hetzjagd“ auf Kritiker der Flüchtlingspolitik und der „Hetz-Pranger“ der BILD, die Emittenten von Hate Speech in sozialen Netzwerken mit Klarnamen und Foto abgebildet hatte, verweisen darauf, dass man sich selbst und die eigenen Sympathisanten als Opfer eine „Hetzkampagne“ sieht. Bei SPIEGEL Online dominiert dagegen eine Mischung aus Internet- und Flüchtlingsthematik, wenn von „Hetze“ die Rede ist.

In der gegenwärtigen Konjunktur von Wort und Sachverhalt ist der Begriff der Hate Speech umkämpft. Während die begriffliche Unschärfe im Deutschen jede Art der gruppenbezogenen Beleidigung als Hate Speech deutbar macht und so die Extension des Begriffs auf viele Phänomene ausweitet, die im wissenschaftlichen Diskurs nicht als Hate Speech gelten würden, wird von anderer Seite versucht, den Begriff umzudeuten in ein Instrument der Unterdrückung freier Meinungsäußerung und Zensur. Ob dies gelingt dürfte wesentlich auch davon abhängen, ob es gelingt, im öffentlichen Diskurs eine verständliche und handhabbare Bedeutung von „Hate Speech“ zu konturieren, die nicht leicht als Ressource zum Ausschluss missliebiger Positionen missbraucht werden kann, sondern Formen sprachlicher Herabwürdigung benennt und ächtet, die gruppenbezogen sind und deren herabwürdigende Kraft sich aus als unveränderlich gedachten Zuschreibungen an die Vertreterinnen und Vertreter dieser Gruppe speist.

(Erstmals publiziert auf hassrede.de)

comments: Kommentare deaktiviert tags: Hass, Hassbotschaft, Hassrede, Hate Crime, Hate Speech, Hetze, Online-Hetze, political correctness, politische Korrektheit

Lügen | Presse:
Wortbildung bei PEGIDA-Anhängern

Posted on 11th April 2016 in Extremismus, ideology mapping, Inhaltswörter, Politik, Semantik, Stilometrie / stylometry, Visualisierung, Wortschatz

comments: Kommentare deaktiviert tags: Ideologieerkennung, Komposita, Komposition, Lüge, Lügenpresse, PEGIDA, Presse

Steinbrück vs. Merkel: Video bei SPIEGEL Online

Posted on 19th September 2013 in Politik, Visualisierung, Wortschatz

SPIEGEL Online hat zusammen mit mir und der Forschergruppe semtracks ein Video über die Sprache von Angela Merkel und Peer Steinbrück gemacht. Die ausführliche Analyse, auf der das Video beruht, habe ich auf polittrend.de veröffentlicht.

comments: Kommentare deaktiviert tags: Angela Merkel, Peer Steinbrück, Rhetorik, Spiegel Online

Der Wahlkampf wird kuschelig: Das Corporate Wording der Parteien in ihren Wahlprogrammen

Posted on 30th Juni 2013 in Politik, Wortschatz

In Zeiten, in denen Parteien Marken sind, ist das Corporate Wording einer Partei ebenso programmatisch wie ihre inhaltlichen Aussagen. Bei Wahlprogrammen handelt es sich um eine Textsorte, bei der jedes Wort sorgfältig erwogen und auf die Zielgruppen hin abgestimmt ist. Eine sprachliche Analyse der Wahlprogramme ist daher ein guter Indikator für die Strategie, die die Parteien im Wahlkampf verfolgen.
Ich habe die Verteilung verschiedener semantischer Klassen in den Wahlprogrammen von CDU, SPD, GRÜNEN, LINKE und der Piratenpartei untersucht. Sie zeigt, wie sich die Parteien im laufenden Wahlkampf positionieren, welches Bild sie von der Lage in Deutschland sich zu zeichnen bemühen und wie kämpferisch sie sich geben. Untersucht habe ich die Verteilung von positiven (bspw. innovativ, stabil, sicher) und negativen (bsp. falsch, überflüssig, prekär) Adjektiven, von Kampfvokabular (bspw. Sieg, Kampf, Widerstand, Aktion) und von Angst einflößenden Vokabeln (bspw. Wirtschaftskrise, Arbeitslosigkeit, Klimakatastrophe).

Ergebnisse für Wahlprogramm: CDU

Die folgende Graphik zeigt, wie sich die Distribution der genannten semantischen Klassen im Wahlprogramm der CDU vom Durchschnitt aller anderen Wahlprogramme unterscheidet.

Die CDU ist als Regierungspartei offensichtlich darum bemüht, positive Botschaften zu verbreiten, den Zustand des Landes in angenehmen Farben zu zeichnen und Probleme gar nicht erst zu thematisieren, denn diese Probleme hätte sie in der zu Ende gehenden Legislaturperiode ja lösen können. Gleichzeitig wird auch ersichtlich, dass die CDU keine Angst vor der Zukunft verbreitet und sich nicht sehr kämpferisch gibt. Die positiven Adjektive mit der höchsten Typizität sind verlässlich, erfolgreich, stabil, klug, solide, stark und glaubwürdig — allesamt Eigenschaften, die auch der Kanzlerin von ihrer Partei stereotyp zugeschrieben werden. Hinzu kommen Adjektive, die Deutschland und seine Position in der Welt charakterisieren: hervorragend, führend, herausragend, funktionierend. Man fühlt sich versucht (in unrühmlicher rhetorischer Tradition) zu paraphrasieren: Die Partei ist Merkel, Merkel aber ist Deutschland wie Deutschland Merkel ist.

Ergebnisse für Wahlprogramm: FDP

Während die CDU sich klar positioniert als Stabilitäts- und Wohlfühlpartei Deutschlands positioniert, wirkt das Parteiprogramm der FDP sprachlich eher blass:

Auch sie versucht als Regierungspartei, eine negative Darstellung der Situation zu vermeiden. Ansonsten liegt sie im Hinblick auf die untersuchten semantischen Klassen aber im Durchschnitt und bleibt daher eher blass.

Ergebnisse für Wahlprogramm: DIE GRÜNEN

Wenig überraschend ist, dass die GRÜNEN als Oppositionspartei überdurchschnittlich häufig negativ besetzte Adjektive benutzen. Viele von diesen verweisen wie ungerecht, unfair, prekär oder diskriminierend auf soziale Ungleichheit.

Eher global kritischen Charakter haben Ausdrücke wie mies, verheerend, unzureichend, falsch, schädlich, schlecht oder mangelhaft, die bei den GRÜNEN signifikant häufiger auftreten, als bei den anderen Parteien. Nur eines der für die GRÜNEN typischen negativ besetzten Adjektive verweist noch auf die Wurzeln in den Neuen Sozialen Bewegungen: repressiv. Auffällig ist, dass auch die GRÜNEN leicht überdurchschnittlich viele positiv besetzte Adjektive benutzen. Die typischsten zeichnen das Bild einer Partei, die ehrlich, fair, glaubwürdig, zuverlässig und vernünftig ist, sich für ein würdiges, humanes und menschenwürdiges Leben und eine intakte, saubere und gesunde Umwelt einsetzt und kreativ, lebendig und intelligent handelt.

Ergebnisse für Wahlprogramm: SPD

Ihr potenzieller Koalitionspartner SPD überrascht durch Sparsamkeit im Bereich negativer Adjektive und Zurückhaltung beim Gebrauch von Kampfvokabular bei gleichzeitiger Verwendung zahlreicher positiv besetzter Adjektive. Eine politische Kampfansage sieht anders aus.

Besonders häufig fallen die Adjektive gerecht und nachhaltig, die zumindest teilweise auf traditionell sozialdemokratische Kernthemen verweisen. Zugleich sind aber auch Adjektive, die eher dem Vokabular des Kanzlerkandidaten zu entstammen scheinen typisch für das Wahlprogramm der SPD: erfolgreich, professionell, fortschrittlich, effizient und flexibel. Der überdurchschnittlich häufige Gebrauch von Angst einflößenden Vokabeln ist dem häufigen Verweise auf Wirtschaftskrise, Arbeitslosigkeit und Armut geschuldet.

Ergebnisse für Wahlprogramm: DIE LINKE

Als einzige echte Oppositionspartei profiliert sich DIE LINKE — und dies nicht nur aufgrund ihrer von den anderen Parteien nicht als koalitionsfähig empfundenen politischen Positionen, sondern auch aufgrund ihres Sprachgebrauchs.

DIE LINKE benutzt überdurchschnittlich wenig positive Adjektive und kompensiert dies durch einen überdurchschnittlichen Gebrauch von Adjektiven, die auf negativ bewertete Sachverhalte hinweisen. DIE LINKE referiert zudem besondes häufig auf Gefahren, die Angst und die Unsicherheit der Menschen. Die Angst einflößenden Vokabeln stammen erwartungsgemäß aus dem durch die Lemmata Krise, Wirtschaftskrise und Finanzkrise konstituierten Wortfeld der volkswirtschaftlichen Missstände, die Armut zur Folge haben. Aber auch das Feld der staatlichen Überwachung ist im Parteiprogramm der LINKEN angekommen.

Ergebnisse für Wahlprogramm: Piratenpartei

Noch schwärzer als DIE LINKE zeichnet lediglich die Piratenparten die gegenwärtige politische Lage. Bei ihnen dominiert das Vokabular aus dem Wortfeld Überwachung die Liste der typischen Vokabeln, die Angst und Unsicherheit verbreiten. Bemerkenswert ist, dass sich in der Liste der negativ besetzten Adjektive Wörter wie diskriminierend und repressiv finden. Das negativ besetzte Adjektiv mit der höchsten Typizität ist allerdings mangelnd.

Fazit

Aus Sicht der Wahlprogramm-Analyse dürfte der Wahlkampf wenig kontrovers werden. Die CDU verspricht die Kontinuität einer aus ihrer Sicht erfolgreichen Politik, während die SPD auf den direkten Angriff verzichtet und sich als Partei einer modernisierten Sozialdemokratie inszeniert. Von den potenziellen Regierungsparteien bemühen sich lediglich die GRÜNEN um eine deutliche Kritik am status quo. Dazu kommen eine blasse FDP, die schon als Oppositionspartei feststehende LINKE, die sich als einzige echte Opposition inszeniert, und eine kaum hörbare Piratenpartei. Dass der Wahlkampf kuschelig werden könnte, davon zeugen auch die Kommunikationsverben, die für das Wahlprogramm der CDU typisch sind. Unter ihnen finden sich Verben wie ermuntern und ermutigen, die die Partei in der Rolle des wohlmeinenden Ratgebers, ja engen Freundes der Menschen im Land zeigen, aber auch vertrauen und nicht zuletzt fühlen, die eine geradezu persönliche Verbindung zwischen Wählern und einer vertrauenswürdigen, einfühlsamen Partei evozieren sollen. Und diese im Medium der Sprache erzeugte Verbindung ist wichtiger als alle politischen Inhalte.

comments: 1 » tags: Bundestagswahl 2013, CDU, Corporate Wording, FDP, Grüne, LINKE, Piratenpartei, Politolinguistik, Schlagwortanalyse, SPD, Wahlkampf, Wahlprogramme

„Experten“ in den Medien: schätzen, prognostizieren, warnen

Posted on 19th April 2013 in Kollokationen, Wortschatz

Liebe Freunde der Sicherheit,

Experten begegnen uns in vielerlei Gestalt in allen Gazetten und auf allen Kanälen. Vom Finanzexperten, der uns treffsicher Auswege aus Finanzkrise weist, über den Sicherheitsexperten, der zuverlässig bei jeder Gelegenheit die Vorratsdatenspeicherung fordert, bis hin zum Spezialexperten in Fefes Blog, der als Kompetenzbombe in jedem Wissensbereich einen Volltreffer landet.

Der Experte ist ein sprachliches Konstrukt, der schon durch den bloßen Akt der Zuschreibung von Expertentum zu dem wird, als der er in den Medien erscheint: zum Experten. Dabei ist das Wort „Experte“ äußerst produktiv. Mit ihm lassen sich Unmengen an Komposita, Wörter wie „US-Hinrichtungsexperte“, „Bundesbahn-Technikexperte“, „SPD-Spielbanken-Experte“, „Humorexperte“, „American-Express-Tarifexperte“ oder Klassiker wie „Allround-Experten“, bilden. Die Journalisten von Spiegel-Print beispielsweise haben seit 1947 rund 6000 unterschiedliche Experten-Typen gekürt.

Der Siegeszug des Experten

Aber seit wann gibt es den Typus des „Experten“ eigentlich in den Medien? Vergleicht man die Frequenzentwicklung des Wortes „Experte“ im gedruckten Spiegel mit der von Bezeichnungen für in akademischen Kontexten tätigen Personen wie „Wissenschaftler / Wissenschaftlerin“, „Forscher / Forscherin“ und „Professor / Professorin“, dann wird offensichtlich, dass die 68er auch am Siegeszug des Expertentums Schuld sind:

Entwicklung der relativen Frequenz der Wörter "Forscher", "Experte", Wissenschaftler" und "Professor" je 100.000 Wörter im SPIEGEL (print)

Entwicklung der relativen Frequenz der Wörter „Forscher“, „Experte“,
Wissenschaftler“ und „Professor“ und Komposita je 100.000 Wörter im SPIEGEL (print)

Nach 1968 steigt der Gebrauch des Wortes „Experte / Expertin“ und seiner Komposita sprunghaft an und verharrt dann relativ konstant auf hohem Niveau. Gleichzeitig geht der Gebrauch der Bezeichnung „Professorin / Professor“ im SPIEGEL nach 1968 dramatisch zurück, auch im Verhältnis zur Zeit vor der sogenannten Studentenrevolte, die natürlich ausführlich im SPIEGEL verhandelt wurde. Ein Trend übrigens, der sich bis in die Gegenwart fortsetzt. Die Grafik zeigt auch, dass seit den 1980er Jahren die Bezeichnung „Forscher / Forscherin“ im journalistischen Trend liegt. So produktiv im Hinblick auf die Wortbildung wie das Wort „Experte“ ist aber keines der anderen Lemmata:

Entwicklung der Frequenz der Komposita (Types), die mit den Wörter "Experte", "Forscher", "Wissenschaftler" und "Professor" gebildet wurden im SPIEGEL (print) von 1947-2010.

Entwicklung der Frequenz der Komposita (Types), die mit den Wörtern
„Experte“, „Forscher“, „Wissenschaftler“ und „Professor“ gebildet wurden
im SPIEGEL (print) von 1947-2010.

Die Grafik zeigt, dass die größten Veränderungen in den Jahren nach 1968 zu beobachten sind. Hier zeigt sich bei allen Bezeichnungen eine Vermehrung der Anzahl der Komposita, die mit ihnen gebildet wurden, was man als Ausdifferenzierung des Wortschatzes deuten kann. Doch nirgendwo war die Ausdifferenzierung so ausgeprägt wie bei Bezeichnungen für Experten. Die 20 am häufigsten im SPIEGEL auftretenden Experten sind:

Finanzexperte
Wirtschaftsexperte
Sicherheitsexperte
Militärexperte
Rechtsexperte
Verkehrsexperte
Haushaltsexperte
Ostexperte
Steuerexperte
US-Experte
Wehrexperte
Sozialexperte
Umweltexperte
Deutschland-Experte
Agrarexperte
Bildungsexperte
Computerexperte
Rüstungsexperte
Kunstexperte
Währungsexperte

Warum 1968?

Die Jahre um 1968 waren eine Zeit, in der Autoritäten überall in der Gesellschaft in Frage gestellt wurden. Natürlich und besonders auch das akademische „Establishment“. Hinzu kam, dass der epistemologische Konsens wegen der Politisierung der Universitäten aufgekündigt wurde: Teile der Wissenschaften wurden pauschal als „bürgerlich“ verunglimpft. Die Konsequenz war, dass der Konflikt zwischen einer „bürgerlichen“ und einer „marxistischen“ bzw. „kritisch-dialektischen“ Wissenschaftsauffassung für die Öffentlichkeit die weltanschaulich-ideologischen Implikationen wissenschaftlicher Erkenntnisse sichtbar machte und damit die Gültigkeit wissenschaftlicher Erkenntnisse relativierte. Der Experte könnte demnach als diskursives Gegengewicht zu vermeintlich „bürgerlichen“ Wissenschaftlern, aber auch als Ergebnis eines allgemeinen Autoritätsverlustes wissenschaftlicher Evidenzkonstruktionen gedeutet werden.

Experten vs. Wissenschaftler

Natürlich werden auch Wissenschaftlerinnen und Wissenschaftler in den Medien als „Experten“ bezeichnet. Dennoch zeigen sich klare Unterschiede in dem, welche Tätigkeiten Wissenschaftlern / Professorinnen / Forschern zugeschrieben werden. Im gedruckten SPIEGEL der letzten zehn Jahre zeigen sich beispielsweise folgende Muster:

Kollokationen zu den Lemmata „Forscher“, „Experte“, „Wissenschaftler“, „Professor“
im gedruckten SPIEGEL (2000-2010)

Die Tätigkeiten, mit denen Experten üblicherweise assoziiert werden sind andere als bei Personen aus dem akademischen Umfeld. Während letztere „messen“, „untersuchen“, „herausfinden“, „entschlüsseln“, „ergründen“, „entdecken“, „nachweisen“, „entwickeln“ und eben „erforschen“, treten Experten mit den Verben „schätzen“, „prognostizieren“, „warnen“, „fürchten“, „bezweifeln“ oder „empfehlen“. Der Experte kommt also immer dann ins Spiel, wenn Wissen als unsicher dargestellt, bewertet und Orientierung aus ihm abgeleitet werden soll. Die Expertise des Experten liegt also nicht im Bereich der Wissensproduktion oder Wissenssicherung, sondern im Bereich der Interpretation von Wissen und der Formulierung von Meinungen, wie mit diesem Wissen umgegangen werden soll. In Wörterbüchern freilich wird „Experte“ als Sachverständiger, Fachmann oder Kenner definiert. Es ist die Spannung zwischen vermeintlich objektiver Sachkenntnis und interessegeleiteter Meinungsproduktion, die die Bezeichnung „Experte“ in den Augen vieler fragwürdig gemacht hat.

Herzlich grüßt euer Sprachexperte Joachim Scharloth

comments: 12 » tags: 1968, 68er-Bewegung, Experte, Expertin, Forscher, Forscherin, Medien, Medienanalyse, Professor, Professorin, Spiegel, Wissenschaft, Wissenschaftsjournalismus

Rederepublik Deutschland: Sind die Online-Medien schuld?

Posted on 14th September 2012 in Linguistische Kategorien, Off Topic, Wortschatz

Sprache konstruiert Wirklichkeit. Dies gilt auch für die Sprache, wie sie in der Politik verwendet wird, vielleicht sogar in besonderem Maße. Denn Politikerinnen und Politiker benutzen die wirklichkeitskonstruierende Kraft der Sprache bewusst für ihre politische Agenda. Ob man vom „Betreuungsgeld“ (Regierung) oder der „Herdprämie“ (Opposition), von der „Kopfpauschale“ (SPD, Grüne, Linke) oder dem „solidarischen Bürgergeld“ (CDU/CSU) spricht, jeweils wird der Gegenstand, über den man spricht, in anderer Weise konstruiert und bewertet. Ich würde sogar soweit gehen, zu sagen, dass es nicht einmal mehr derselbe Gegenstand ist, den man von unterschiedlichen Perspektiven durch das Medium der Sprache erfasst, sondern dass durch die unterschiedlichen Bezeichnungen unterschiedliche Gegenstände konstruiert werden. Was Politiker sagen und wie sie es tun, ist also durchaus von Bedeutung für das Verständnis politischer Prozesse.

Auch bei unseren Leitmedien scheint sich diese Erkenntnis durchgesetzt zu haben. In allen Gazetten schreiben Journalistinnen und Journalisten darüber, was Menschen darüber sagen, was andere, mutmaßlich noch wichtigere, Menschen geäußert haben. War das schon immer so? Oder ist das eine Folge des Online-Journalismus mit seiner auf Aktualität getrimmten Kultur, in der jede Äußerung schon eine Meldung wert ist, ohne in größere Nachrichtenzusammenhänge eingebettet zu werden?

Um diese Frage zu beantworten, habe ich mir die Entwicklung der Frequenz von rund 240 Sprachhandlungs- und Kommunikationsverben in drei Textarchiven angeschaut: dem Printarchiv von Spiegel und ZEIT (1947 bis 2010) und dem Archiv von Spiegel Online (2000 bis 2010). Für jeden Artikel habe ich die Frequenz von Kommunikationsverben relativ zur Anzahl der Wörter berechnet, anschließend habe ich den Durchschnitt über alle Artikel eines Jahres gebildet.

Die folgende Abbildung zeigt, dass die Zunahme des Gebrauchs von Kommunikationsverben kein neues Phänomen ist. Schon seit den 1970er Jahren steigt ihr Gebrauch allmählich an. Parallel zu den Anfängen des Online-Journalismus in den 1990er Jahren verstärkt sich jedoch dieser Anstieg. Anders als vermutet, ist die Frequenz bei Spiegel Online auf den ersten Blick nicht dramatisch höher als bei den Print-Medien. (Lesehilfe: Eine relative Frequenz von 0.02 bedeutet, dass jedes 50. Wort ein Kommunikationsverb ist.)

Die Aggregierung der Daten aus allen Ressorts gibt jedoch nur einen recht groben Eindruck. Die ressortspezifische Verteilung von Kommunikationsverben, insbesondere in den Ressorts, die zum Kerngeschäft des Qualitätsjournalismus gehören, erlaubt eine differenziertere Antwort auf die eingangs gestellte Frage. Die folgende Grafik zeigt die Entwicklung der relativen Frequenzen in den Ressorts Deutschland (Spiegel Print), Politik Deutschland (Spiegel Online) und Politik (ZEIT Print; die ZEIT differenziert in ihrer Ressortzuschreibung leider nicht zwischen Innen- und Außenpolitik, weshalb ihre Zahlen nur bedingt mit denen des Spiegel vergleichbar sind).

Es zeigt sich auch hier, dass die Zunahme des Schreibens über das, was andere in der politischen Arena gesagt oder geschrieben haben, kein neues Phänomen ist. Doch ist der Unterschied im Gebrauch von Kommunikationsverben zwischen Print- und Online-Medien hier sehr groß. Interessanterweise ist bei Spiegel Online kein Anstieg der Frequenz zu beobachten. Dies bestätigt sich auch beim Blick auf das Ressort Außenpolitik (für die ZEIT hier wieder die Werte aus dem Ressort Politik).

Auch hier verharren die Zahlen bei SPON auf hohem Niveau, die Printmedien nähern sich dem Online-Medium an. Am stärksten hat die relative Frequenz von Kommunikationsverben jedoch in einem anderen Ressort zugenommen: im Ressort Wirtschaft. Auch hier überlagern offenbar zunehmend Berichte über Gesagtes die Berichterstattung zu messbaren Zusammenhängen, bzw. wird die Präsentation von Fakten an deren Verkündigung gekoppelt.

Man müsste das genauer untersuchen, aber als vorläufiges Fazit lässt sich ziehen: Die Personalisierung von Informationen und die Wiedergabe von Aussagen und Meinungen ist eine immer stärkere werdende Tendenz, die durch die Logik der Online-Medien nicht verursacht, aber verstärkt wurde.

Natürlich sind auch Kommunikationsverben dem Wandel der Moden unterworfen. Im gedruckten Spiegel habe ich mal durchgerechnet, welche Kommunikationsverben für die jeweiligen Jahrzehnte typisch sind (alle signifikant, geordnet nach Frequenzfaktor):

2000er: telefonieren, nerven, mitbekommen, prognostizieren, nachfragen, sagen, mitverfolgen, wetten, lachen, bereuen, mitlesen, reden, nachdenken, kapieren, weinen, bewerten, beten, verklagen, streiten, kritisieren, meckern

1990er: petzen, telefonieren, nerven, kapieren, prognostizieren, mitverfolgen, heucheln, maulen, verfluchen, klagen, meckern, ahnen, drohen, beteuern, warnen, jammern, spekulieren, streiten, beschreiben, bereuen, hetzen, suggerieren

1980er: kritteln, mitverfolgen, denunzieren, anprangern, meinen, petzen, differenzieren, beklagen, bejahen, verhehlen, ermutigen, akzeptieren, beschreiben, nachdenken, bemitleiden, postulieren, bedauern, wiederholen, unterstellen, beteuern

1970er: kritteln, postulieren, bejahen, differenzieren, negieren, geloben, erhoffen, konstatieren, prophezeien, beurteilen, empfehlen, verwahren, verneinen, ermuntern, mitlesen, scheuen, voraussehen, monieren, widerlegen, schildern, vermuten, bezweifeln, denunzieren, diskutieren

1960er: gedenken, befehlen, bejahen, gestatten, bemitleiden, konstatieren, verwahren, verneinen, ermahnen, verhehlen, verbitten, bitten, verabscheuen, widerlegen, antworten, bedauern, empfehlen, geloben, bedenken, ermuntern, unterstellen, feststellen, verraten

1950er: gestatten, gedenken, feststellen, vorschlagen, verneinen, ablehnen, kommentieren, antworten, tippen, befehlen, schreiben, bitten, bedauern, bekennen, verabscheuen, verhehlen, beweisen, versichern, beleidigen, bejahen, nachweisen, verbitten

1940er: tippen, singen, betonen, schreiben, sprechen, verbieten, befehlen, bedauern, gratulieren, antworten, feststellen, nennen, gedenken, schreien, staunen, verklagen, lachen, verurteilen, verabscheuen, ablehnen, wetten, verzeihen, verwahren, kommentieren, bereuen, bekennen

Zuletzt noch ein Schmankerl: Weil alle immer auf das Panorama-Ressort von SPON eindreschen, zum Schluss noch ein Vergleich zwischen den Panorama-Ressorts von Spiegel Online und Spiegel Print („Panorama“ bis 1986, ab 1987 Ressort „Gesellschaft“).

So schlimm ist es also gar nicht mit dem Online-Journalismus. Dazu demnächst mehr auf diesem Blog.

comments: 6 » tags: Die ZEIT, Kommunikationsverben, Medien, Medienanalyse, Spiegel, Spiegel Online, Sprachhandlungsverben

IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen

Posted on 15th September 2011 in authorship identification, Fachsprachen, Sprachliche Fehler, Stilometrie / stylometry, Wortschatz

Liebe Freund der Sicherheit,

netzpolitik.org kommentiert die Tatsache, dass offenbar ein vom FBI verfasstes Profiling der führenden Köpfe von Anonymous geleakt ist. Sie stammt von der „Behavioral Science Unit“. Aus linguistischer Perspektive sind diese Profile insofern interessant, als sie ausschließlich aus der Analyse von chat logs, twitter logs und sonstigen Publikationen von Anonymous gewonnen wurden. Sprachkompetenz und Sprachgebrauch werden also zum Maßstab der Persönlichkeit.

Wenn man sich die Bewertungskategorien ansieht, dann zeigt sich, dass das die betreffenden Profiler FBI vorwiegend in den Kategorien der traditionellen forensischen Linguistik denken. Sie bewerten die sprachliche Performanz nach folgenden Kriterien:

Den souveränen Umgang mit einer sprachlichen Normen, insbesondere der Standardnorm des American English: über Sabu schreiben die Profiler „His use of netspeak is interspersed with proper American English diction and grammar that implies he is an American citizen and has been educated“ (3). Standardsprachenideologie in Reinform: die Beherrschung der Standardnorm ist eine kulturelle Leistung und zugleich ein Identitätsakt, denn Sprache schafft nationale Identität („Uns knüpft der Sprache heilig Band“). Zudem wird der Gebrauch der Standardnorm auch mit der Variable Alter korreliert.

Sprachliche Fehler bzw. Abweichungen von den Normen des American English: Über JoePie91 schreiben die Profiler „There are times when the syntax and grammar infer that JoePie is not an American and may in fact be in the EU.“ (5) Interessant ist, dass nicht die Frage diskutiert wird, ob er Muttersprachler oder Nichtmuttersprachler des Englischen ist.

Fachsprache: der Gebrauch von „netspeak“ und die Art ihres Gebrauchs: über JoePie91 schreiben die Profiler „He tends not to use as much netspeak as the others and makes relevant arguments in correct grammatical syntax.“ (5)

Die intraindividuelle Variation im Sprachgebrauch: eine zu starke Variation wird als mit einer kohärenten Persönlichkeit nicht vereinbar angesehen; daraus schließen die Profiler entweder mehrfachen Gebrauch eines Pseudonyms oder bewusste Verstellungsabsichten: so unterstellt man Sabu, er benutze netspeak, um sich als „script kiddie“ zu maskieren, weil er sonst durchaus in der Lage sei, grammatikalisch korrekte Sätze zu bilden. Zugleich konstatiert man: „Varying logs from online IRC […] sessions have borne out the possibility however, that the user ID „Sabu“ is sometimes also used by others to confuse auhtorities and others as to who the real person is behind the keyboard.“ Die Hypothese wird jedoch mit dem Hinweis auf die Vielzahl letztlich doch kohärenter Dokumente zurückgewiesen.

Die Profiler lassen im Unklaren, ob sie quantitative Methoden benutzt haben. An einer Stelle schreiben sie über Sabu und die Möglichkeit der Nutzung seines Nicks durch unterschiedliche Personen: „through an amalgam of transcripts the tell tale signs of a consistent individual can be clearly seen and assessed.“ (3) Mit viel Fantasie könnte man hier den Gebrauch quantitativer Analysen hineinlesen. Ich habe aber eher den Eindruck, dass die Profiler die Texte vor allem mit nicht-maschinellen Mitteln analysiert haben.

Eine Datenbank mit IRC-Chats und Twitter-Logs, anhand derer Aussagen über die Spannbreite möglicher intraindividueller Variation möglich wären, stand ihnen offenbar nicht zu Verfügung. Geschweige denn eine Datenbank mit personenspezifischen Textkorpora, die eine Identifizierung der Real-Life-Identitäten ermöglichen würde.

Wenn ich ein Profil der Profiler erstellen sollte (nicht ganz ernst gemeint!): keine Linguisten, sondern Psychologen, die im Studium auch ein bisschen Sprachpsychologie gehört haben, und Soziologen. Der Gebrauch von Ausdrücken wie „slang“ und „diction“ verweist m.E. auf eine Generation, die mit Konzepten der neueren Soziolinguistik und Sprachsoziologie nicht vertraut ist. Ich tippe daher auf ein Alter der Angehörigen der „Behavioral Science Unit“ zwischen 45 und 60 Jahren.

comments: Kommentare deaktiviert tags: Anonymous, authorship detection, FBI, forensische Linguistik, Hacktivism, Profiling

Linguistische Differenzialanalyse und Autorenidentifikation

Posted on 17th August 2011 in authorship identification, Inhaltswörter, Linguistische Kategorien, Statistische Maße, Stilometrie / stylometry, Textklassifikation, Wortschatz

Liebe Freunde der Sicherheit,

eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.

Linguistische Differenzialanalyse

Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:

„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)

Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.

Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.

Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode

Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.

Hierfür habe ich dreierlei benötigt:

Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.
eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.
einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.

Ergebnisse: gerne | mit Freude | gern | mit Vergnügen

Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.

Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:

Standardabweichung	Varianten
0.396034689707957	gerne \| mit Freude \| gern \| mit Vergnügen
0.384572324926231	Glaube \| Bekenntnis \| Konfession \| Denomination
0.383741494895807	kriminell \| verbrecherisch \| auf der schiefen Bahn \| delinquent \| straffällig
0.381850019132707	gütlich \| friedlich \| geruhsam \| gewaltfrei \| sanft \| gütig \| friedfertig \| ohne Gewalt \| verträglich \| amikal \| gewaltlos \| herzensgut \| friedliebend
0.380304172683078	passen \| zurückstellen \| aufschieben \| aussetzen \| verschieben \| vertagen \| intermittieren
0.378560699614743	weg \| Fern \| fern
0.372789498557065	Information \| Schalter \| Auskunftsschalter \| Auskunft
0.371710005433523	Realität \| Praxis
0.371674963099053	rechnen \| rentieren \| auszahlen \| amortisieren \| lohnenswert \| lohnen \| Früchte tragen \| bezahlt machen
0.36944693958052	betreiben \| nachgehen \| ausüben
0.36617435642474	Raum \| Kosmos \| Weltraum \| Weltall \| Universum \| Sphäre \| All
0.363908308274997	billig \| kostengünstig \| kosteneffektiv \| preiswert \| wohlfeil \| kostenwirksam \| preisgünstig \| günstig \| spottbillig
0.363872962376017	heraus \| hervor
0.362606570091546	Vater \| Erzeuger \| Daddy \| Vati \| Senior \| der Alte \| Papi \| Kindsvater \| Paps \| alter Herr \| leiblicher Vater \| Dad \| Papa \| Pa
0.362155688620303	verurteilen \| verdonnern \| bestrafen \| für schuldig erklären \| aburteilen \| schuldig sprechen \| mit Strafe belegen \| Strafe verhängen
0.361149279496628	verantwortlich \| zuständig
0.360881847188603	passen \| geeignet
0.360877848087947	drücken \| knautschen \| pressen \| zwängen \| pferchen \| stopfen \| quetschen \| pfropfen \| proppen
0.36060656555393	Entwicklung \| Änderung \| Tapetenwechsel \| Dynamik \| Veränderung
0.360040253521303	vergessen \| übersehen \| verschwitzen \| verschlafen \| verfehlen \| verpassen \| versäumen \| verpennen
0.359950475146227	anschließen \| beitreten \| Mitglied werden
0.359570245588916	richten \| urteilen
0.358943241670499	aktiv \| umtriebig \| engagiert \| unter Strom stehend \| rege \| betriebsam
0.35883310781789	unbedingt \| mit aller Macht \| ganz und gar \| auf Gedeih und Verderb \| bedingungslos \| auf Biegen und Brechen \| um jeden Preis \| rückhaltlos \| mit aller Gewalt \| auf Teufel komm raus \| ohne Rücksicht auf Verluste
0.357590418501272	Öffentlichkeit \| Allgemeinheit \| Gemeinwesen
0.357565689315277	überlegen \| dominierend \| tonangebend \| am stärksten ausgeprägt \| übermächtig \| führend \| herrschend \| beherrschend \| am ausgeprägtesten \| dominant
0.357282147746873	Stelle \| Ortsangabe \| Position \| Lokalität \| Örtlichkeit \| Lokalisation
0.357222116951858	aufnehmen \| einwerfen \| reinziehen \| konsumieren \| reinzischen \| schlucken \| einnehmen \| ingestieren \| reinpfeifen \| zu sich nehmen
0.356676679221292	Schule \| Lager \| Strömung
0.356337633441186	Reihe \| Anzahl
0.355919880776704	kaufen \| ankaufen \| erwerben \| aufkaufen \| erkaufen \| erstehen
0.355352816416153	sammeln \| regenerieren \| wiederherstellen \| neu erstellen \| erholen \| berappeln
0.355209713591625	Kommentar \| Notiz \| Anmerkung
0.354982488402154	hart \| grausam \| empfindungslos \| hartherzig \| kalt \| kaltherzig \| eisig
0.354591844205998	langsam \| nach und nach \| gemütlich \| allmählich \| geruhsam \| gemach \| ruhig \| gemächlich
0.354328900327031	Wert \| Rang \| Bedeutung \| Wichtigkeit \| Geltung \| Einfluss
0.354060472670956	merken \| realisieren \| registrieren \| perzipieren \| zur Kenntnis nehmen \| wahrnehmen \| mitbekommen
0.353578904341922	Pflicht \| Agenda \| Obliegenheit \| Schuldigkeit \| Verbindlichkeit \| Verpflichtung
0.353533447923133	stimmen \| aussprechen \| plädieren
0.353483316676806	Zahl \| Wert
0.35347391485945	Gewalt \| Heftigkeit \| Schwung \| Wucht \| Vehemenz \| Kraft \| Ungestüm \| Schmackes \| Karacho
0.352956200168923	schützen \| beschützen \| sichern
0.352517940599203	herrschen \| regieren
0.35232461896263	Studie \| Analyse
0.352296794150891	gestalten \| einrichten
0.352192163220551	verantwortlich \| verantworten \| den Hut aufhaben \| verantwortlich zeichnen \| Verantwortung tragen
0.352048952616805	Zustimmung \| Zuspruch \| Beipflichtung \| Bestätigung \| Bejahung \| Affirmation \| Bekräftigung \| Zusagung
0.351173408423386	beantragen \| vorschlagen

Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.

Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…

Literatur:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

comments: Kommentare deaktiviert tags: authorship detection, authorship identification, forensische Linguistik, Idiolekt, Linguistische Differenzialanalyse, NPD, Raimund Drommel, Soziolekt, Soziolinguistik, Wortschatz

Wortschatz-Komplexitätsmaße im Test

Posted on 14th April 2011 in authorship identification, Clusteranalyse, Stilometrie / stylometry, Textklassifikation, Textkomplexität, Wortschatz

Hier mal eine kleine Illustration, welche Ergebnisse die Wortschatz-Komplexitätsmaße für die Klassifikation von Texten liefern. Als Beispielkorpus habe ich die Texte der militanten gruppe gewählt, weil deren Texte vom BKA schon einmal einer forensischen Analyse unterzogen wurden: einer Analyse im Hinblick auf die Ähnlichkeit mit den Texten eines Soziologen, den man verdächtigte Mitglied der Gruppe zu sein. Dabei sollen Inhaltswörter das Hauptkriterium gewesen sein, wollen uns der Spiegel und andere Medien glauben machen. Die Analyse wurde zu einem jener Indizen, mit denen Überwachung, Festnahme und U-Haft des Soziologen gerechtfertigt wurden. Die folgenden Proberechnungen sind keine ernst zu nehmenden forensischen Analysen, die irgend etwas über die Autoren der Texte der mg aussagen. Sie sollen vielmehr zeigen, wie problematisch der Umgang mit Wortschatz-Komplexitätsmaßen ist. Ich halte es daher auch für unproblematisch, sie zu veröffentlichen.

Eine Übersicht über die Texte der mg findet sich in der Tabelle am Ende dieses Blog-Eintrags.
Die Texte der militanten gruppe gibt es übrigens unter http://www.semtracks.com/cosmov/ als Korpus für sprachlich-sozialwissenschaftliche Analysen.

Die Analyse erfolgte in zwei Schritten: Zuerst wurden für jeden der 52 Texte die Werte Yule’s K, Sichel’s S, Brunet’s W und Honoré’s R berechnet; im Anschluss wurden die Texte auf der Basis der Werte mittels einer hierarchischen Clusteranalyse gruppiert. Die Ergebnisse in Kürze:

Die Dendrogramme unterscheiden sich kaum im Hinblick auf die Anzahl der Cluster. Je nach Lesart könnte man drei bis fünf unterschiedlichen Autoren in den Reihen der militanten gruppe annehmen.
Allerdings unterscheiden sich die Dendrogramme stark im Hinblick auf die Zusammensetzung der Cluster; d.h. die Texte, die man den potenziellen Autoren zuweist, variieren stark. Dies hat natürlich Konsequenzen für die Validität der Ergebnisse von (1.)
Besonders bei Honoré’s R und Brunet’s W werden Frequenzeffekte sichtbar, wenn auch in unterschiedlicher Ausprägung.
Variablen wie Textsorte oder Entstehungszeit scheinen keinen Einfluss auf die Gruppierung der Texte zu haben. Dies überrascht insbesondere im Hinblick auf die Textsorte, denn es wäre zu erwarten, dass argumentative Texte sprachlich anders gestaltet sind als Bekennerschreiben oder Pressemitteilungen.

Honoré’s R

Die Clusteranalyse zeigen, wie stark das Maß von der Wortzahl abhängig ist. So finden sich alle längeren Texte im Cluster links, das sich am stärksten von den anderen unterscheidet.

: Honoré’s R: Dendrogramm der Texte der militanten gruppe

Brunet’s W

Brunet’s W neigt interessanterweise dazu, die sehr kurzen und die sehr langen Texte als einer Gruppe zugehörig zu klassifizieren.

: Brunet’s W: Dendrogramm der Texte der mg

Sichel’s S

Im Fall von Sichel’s, das auf der Auswertung von hapax dislegomena beruht, lässt sich keine Hintergrundvariable wie Textlänge, Textsorte oder Entstehungszeit finden, die die Gruppierung der Texte plausibel machen würde.

: Sichel’s S: Dendrogramm der Texte militanten Gruppe

Yule’s K

Gleiches gilt für Yule’s K.

: Yule’s K: Dendrogramm der Texte der militanten Gruppe

Je nach gewähltem Maß kommen man also zu einer sehr unterschiedlichen Gruppierung der Texte. Auch die Maße, in denen sich keine starken Frequenzeffekte zeigen, differieren in ihren Clustern. Die Interpretation dieser Ergebnisse im Hinblick auf die Autorschaft ist daher mehr als fragwürdig.

Nr.	Token	Datum	Titel
0	213	2001-06-12	Auch Kugeln markieren einen Schlußstrich …
1	1632	2001-06-14	Die „Stiftungsinitiative der deutschen Wirtschaft“ zur Rechenschaft ziehen – Wolfgang Gibowski, Manfred Gentz und Otto Graf Lambsdorff ins Visier nehmen!
2	1615	2001-06-21	Anschlagserklärung gegen den Niederlassungszweig der Mercedes-Benz AG auf dem DaimlerChrysler-Werk in Berlin-Marienfelde
3	3239	2002-02-05	Anschlagserklärung
4	788	2002-04-29	Anschlagserklärung
5	569	2002-12-31	Anschlagserklärung
6	2032	2003-02-25	Anschlagserklärung
7	845	2003-10-29	Anschlagserklärung – Alba in den Müll! Entsorgt Alba!
8	1121	2003-12-31	Anschlagserklärung
9	1533	2004-03-29	Anschlagserklärung
10	1596	2004-05-06	Anschlagserklärung
11	1681	2004-09-23	Anschlagserklärung
12	816	2005-01-10	Anschlagserklärung
13	857	2005-04-29	Anschlagserklärung
14	1777	2005-11-08	Anschlagserklärung!!!
15	1584	2006-02-16	Anschlagserklärung
16	1209	2006-03-20	Anschlagserklärung
17	2520	2006-04-10	Anschlagserklärung
18	510	2006-05-05	Glückwunschtelegramm & Nachschlag
19	844	2006-05-23	Anschlagserklärung
20	1139	2006-09-03	Anschlagserklärung
21	517	2006-09-10	Anschlagserklärung
22	1824	2006-10-13	Dementi & ein bisschen Mehr
23	1253	2006-12-19	Anschlagserklärung: Das war Mord!
24	419	2007-01-14	Anschlagserklärung
25	505	2007-05-18	Anschlagserklärung
26	2023	Winter 2005	mg-express No.1
27	2114	Sommer 2006	mg-express No.3
28	2547	Herbst 2006	mg-express No.4
29	2384	Frühjahr 2007	mg-express no.5
30	3421	2001-11-23	Ein Debattenversuch der militanten gruppe (mg)
31	9093	2002-08-01	Eine Auseinandersetzung mit den Autonomen Gruppen und Clandestino über die Organisierung militanter Gruppenstrukturen
32	12021	Sommer 2005	Wir haben uns mit einer Menge Puste auf den Weg gemacht
33	1494	2005-01-29	Versuch eines Streitgespräches – Reaktion auf das Interview mit Norbert „Knofo“ Kröcher in der Jungle World Nr. 4/26.1.2005
34	1407	2005-02-15	Zum Interim-Vorwort der Nr. 611 vom 10.2.2005
35	1175	2005-04-01	Anmerkungen zum barricada-Interview mit den Magdeburger Genossen
36	1859	2005-04-01	Zur jw-Artikelserie „Was tun? In der Stadt, auf dem Land oder Papier: Guerillakampf damals und jetzt“
37	3752	2005-06-01	Zur „postautonomen und konsumistischen“ Sicht auf die Militanzdebatte
38	1355	2005-07-01	Was machen wir als militante gruppe (mg) auf einem Sozialforum – haben wir denn nichts Besseres zu tun?
39	2912	2005-08-01	Mut zur Lücke? Zu Wolf Wetzels „postfordistischer Protestwelt“
40	8358	Mitte Mai 2006	Clandestino – was wollt ihr eigentlich?
41	2475	2006-06-03	Zur „Roggan“-Anschlagserklärung der autonomen gruppen
42	2993	2007-04-11	Das „Gnadengesuch“ von Christian Klar und der Instrumentalisierungsversuch einer militanten Aktion
43	8086	Ende Mai 2007	Erklärung zur BWA-Razzia und „Gewaltdebatte“ im Rahmen der Anti-G8-Proteste
44	5172	2002-05-09	Für einen revolutionären Aufbauprozess – Für eine militante Plattform
45	1859	2002-12-19	Presseerklärung – Nr. 1/2002
46	1841	2003-04-17	Presseerklärung zum revolutionären 1. Mai 2003 in Berlin – Nr. 1/2003 von der militanten gruppe (mg)
47	7200	2003-06-15	Ein Beitrag zum Aufruf „27. Juni 1993 – 10 Jahre nach dem Tod von Wolfgang Grams. Glaubt den Lügen der Mörder nicht! Kein Vergeben – Kein Vergessen! Gemeinsam den Kampf um Befreiung organisieren!
48	2623	2004-06-08	Eine Nachbetrachtung zum revolutionären 1. Mai 2004 in Berlin
49	57053	2004-07-01	Bewaffneter Kampf – Aufstand – Revolution bei den KlassikerInnen des Frühsozialismus, Kommunismus und Anarchismus, 1. Teil
50	15696	2004-12-01	(Stadt)guerilla oder Miliz?
51	21701	2006-01-01	Kraushaars Buch „Die Bombe im Jüdischen Gemeindehaus“ und die Diskreditierung des bewaffneten Kampfes

comments: Kommentare deaktiviert tags: BKA, militante gruppe, Stilometrie, Textklassifikation, Textkomplexität