Schöne neue Algorithmen für die Black Box Mensch – Kritik des digitalen Behaviorismus

Das Team von TEDxDresden hat mir dankenswerter Weise die Gelegenheit gegeben, einen Vortrag zum Thema „Schöne neue Algorithmen für die Black Box Mensch“ zu halten. Darin habe ich versucht, aus kulturwissenschaftlicher Perspektive darzustellen, wo die Probleme liegen und was man besser machen sollte, wenn man soziale oder kulturelle Phänomene mit maschinellen Methoden modellieren will.



Ich behaupte, dass die zurzeit gängige Herangehensweise bei der Modellierung sozialer Phänomene einer behaviorischen Vorstellung vom Menschen folgt, und plädiere statt dessen für Algorithmen, die menschliches Verhalten als interpretiertes Verhalten (und damit immer auch als potentiell mehrdeutig) modellieren sollten.

Das Beispiel, das ich prominent behandle, wird zurzeit auch in einem NZZ-Artikel von Steve Przybilla lobenswert kritisch reflektiert.


Ist die AfD eine populistische Partei? – Eine Analyse am Beispiel des Landesverbands Rheinland-Pfalz

Posted on 13th März 2016 in Allgemein, Extremismus, Politik

Die AfD wehrt sich heftig gegen die Zuschreibung, rechtspopulistisch zu sein. Sie sucht die Schuld dann bei den Medien, die zu bequem seien, sich mit den Inhalten auseinanderzusetzen, und scheut auch nicht vor persönlichen Diffamierungen von Wissenschaftlern zurück, die Inhalte und Politikstil der AfD als „populistisch“ bezeichnen. Für eine Tagung der Arbeitsgemeinschaft Sprache in der Politik habe ich die Sprache der AfD daraufhin untersucht, ob sich in ihr Merkmale finden, die es rechtfertigen, die AfD als populistische Partei zu bezeichnen oder ob die Zuschreibungen der Presse unbegründet sind.

In der politikwissenschaftlichen Debatte lassen sich grob zwei Traditionslinien der Definition von „Populismus“ ausmachen:

  1. Populismus ist ein Politikstil, der sich durch die Neigung, die „in einem politischen System festgelegten Spielregeln in Frage zu stellen und zu verletzen“ (Szacki 2005: 23) auszeichnet. Tabubrüche und Skandalisierung sind die Mittel dieses Stils.
  2. Populismus ist auch eine Ideologie, die durch mindestens zwei Merkmale bestimmt ist: den Rekurs auf das Volk, wobei der Begriff „Volk“ nicht im Sinne eines Staatsvolkes gebraucht sondern als homogene Einheit verstanden wird (bspw. als nationale Abstammungsgemeinschaft); sowie eine ausgeprägte Frontstellung gegen die gesellschaftlichen Eliten (Geden 2006: 19, 26).



Datengrundlage

Die Datengrundlage für die im folgenden kurz zusammengefassten Ergebnisse, waren die Pressemitteilungen und Wahlprogramme von sieben Parteien, die sich um Mandate im Landtag in Rheinland-Pfalz bewerben.

Das Korpus der Wahlprogramme setzte sich wie folgt zusammen:

Partei wordcount
AFD Wahlprogramm 9863
CDU Regierungsprogramm 28322
FDP Landtagswahlprogramm 36163
Grüne Landtagswahlprogramm 44582
Die Linke Landtagswahlprogramm 21523
NPD „10 Punkte“ 1727
SPD Regierungsprogramm 21746


Neben Wahlprogrammen habe ich auch die auf den Webseiten der Parteien veröffentlichten Pressemitteilungen und Stellungnahmen analysiert, die als autorisierte Meinungsäußerungen ebenfalls die Haltung des jeweiligen Landesverbands zu einem politischen Thema repräsentieren.

Partei wordcount no. of texts
AfD Rheinland-Pfalz 57964 237
CDU Rheinland-Pfalz 74283 261
FDP Rheinland-Pfalz 27648 73
Gruene Rheinland-Pfalz 241876 914
Die Linke Rheinland-Pfalz 154179 509
NPD Rheinland-Pfalz 63894 174
SPD Rheinland-Pfalz 22221 93



Skandalisierung

Um zu untersuchen, ob der Politikstil der AfD mehr als der anderer Parteien von Skandalisierungen geprägt ist, habe ich die Distribution einer Reihe von Merkmalen in den Pressemitteilungen aller Parteien gemessen und mit einander in Beziehung gesetzt. Im Einzelnen waren dies:

  • die Zahl negativ wertender Adjektive
  • die Zahl von Intensivierern aus dem absoluten, extrem hohen und sehr hohen Intensivierungsbereich; Intensivierer kodieren Emotionen und den Grad von Überzeugungen, bzw. der Rigorosität, mit der sie vertreten werden.
  • der Umfang des Gebrauchs skandalisierender Vokablen
  • die Zahl von Kommunikationsverben, die auf Konflikte verweisen

Für jede dieser funktional und semantisch definierten Wortklassen wurde die relative Frequenz in jedem Korpus berechnet und die Differenz zur relativen Häufigkeit in der Summe aller anderen Korpora bestimmt.


Die Analyse zeigt, dass bei der AfD alle untersuchten Indikatoren deutlich überdurchschnittlich häufiger auftreten als in der Summe der anderen Parteien. Keine andere Partei zeigt auf allen Indikatoren so gleichmäßige positive Ausprägungen. Dies erlaubt den Schluss, dass die Pressemitteilungen der AfD stärker emotionalisieren und skandalisieren als die aller anderen Parteien.



Rekurs auf das Volk

Die AfD in Rheinland-Pfalz vertritt — anders als andere Landesverbände — keine offen völkische Ideologie. Die Konstruktion einer deutschen Eigengruppe erfolgt durch die im Vergleich zu anderen Parteien überdurchschnittliche Thematisierung der Politikfelder Flüchtlinge, Asyl und Migration. Berechnet man beispielsweise, welche Substantive für die AfD RLP im Vergleich zu allen anderen Parteien signifikant sind, werden die thematischen Schwerpunkte deutlich (rot markierte Lexeme):


Die AfD tritt zudem für mehr plebiszitäre Elemente ein. Dies zeigt sich beispielsweise, wenn man die Komposita mit den lexikalischen Morphem /volk/ und /bürger/ in ihrem Wahlprogrammen untersucht. Abgesehen von „Volkswirtschaft“ thematisieren alle Komposita mit /volk/ größere Partizipationsmöglichkeiten der deutschen Staatsbürger.

Volksbeteiligung, Volksentscheid, Volkspartei, Volksbegehren, Volksherrschaft, Volksinitiative, Volksabstimmung, Volkssouveränität, Volkswirtschaft

Ähnlich sieht es bei Komposita mit dem lexikalischen Morphem /bürger/ aus:

Bürgergesellschaft, Mitbürger, Bürgerinteresse, Bürgerentscheid, Bürgertum, Bürgerbüro, Bürgerbeteiligung, Staatsbürgerschaft, bürgerlich, Bürgerbegehren, Normalbürger

Im Wahlprogramm der CDU finden sich dagegen gerade einmal drei Komposita, die mehr Beteiligung der Bürger thematisieren:

volkswirtschaftlich, Volksentscheid, Volksverhetzung, Volksinitiative, Bürgerschaft, Bürgerkrieg, Bürgerinitiative, Bürgerin, Bürgerbusse, Nicht-EU-Bürger, bürgerschaftlich, Bürgertickets, Staatsbürgerschaft, bürgernah, Bürgerbeteiligung, Bürgermeister

Die AfD erklärt damit den Volkswillen für zentral und konstruiert das „Volk“ in Abgrenzung zu Asylsuchenden und Migranten.



Frontstellung gegen das „Establishment“

Die Ablehnung des Establishment hat in der AfD zahlreiche Facetten. Einerseits unterstellt die Partei, Medien, Politik und sonstige Eliten hätten einen Verblendungszusammenhang konstruiert. Die AfD hingegen trete der allgegenwärtige Manipulation mit den Mitteln der Wahrheit und der Vernunft entgegen. Untersucht man, wie häufig Lexeme in den Pressemitteilungen Verwendung finden, die auf Lüge, Manipulation und einen allgegenwärtigen Verblendungszusammenhang verweisen, dann ergibt sich folgendes Bild:


In fast allen Kategorien weist die AfD eine deutlich überdurchschnittliche Referenz auf vermeintliche Manipulationen, Lügen oder verborgene Wahrheiten auf. Bei keiner anderen Partei — außer vielleicht der NPD — ist die Distribution über alle Klassen ähnlich kohärent und verweist somit auf eine Neigung zu Verschwörungstheorien.

Ebenso aufschlussreich ist die Analyse von metasprachlich markierten Ausdrücken. Setzt man Wörter in Anführungszeichen oder distanziert man sich von einer Bezeichnung, indem man ein „sogenannt“ davorsetzt, ist dies ein Indikator für implizite bzw. explizite Sprachkritik. Untersucht man, wie häufig alle Parteien sich solcher metasprachlicher Markierungen bedienen, ergibt sich folgendes Bild:

afd_rlp_sprachthematisierungen

Die AfD bedient sich weitaus häufiger als die anderen Parteien des demokratischen Spektrums metasprachlicher Markierungen und zeigt so ihre Distanz zur herrschenden Semantik. Sie weist eine ähnlich hohe Zahl an metasprachlichen Markierungen wie die NPD auf.

Untersucht man, welche Ausdrücke von der AfD metasprachlich markiert werden, wird die Distanz zum sog. Establishment deutlich. Neben Ausdrücken, die Migration thematisieren, sind dies von der AfD zu bloßer Ideologie verteufelte Wissenschaften sowie Wissenschaftler und sonstige Experten.

Flüchtlinge und Flüchtlingspolitik Gender, Diversity Experten und Akademiker
Flüchtling Gender-Mainstreaming Experte
Grenzschutz Gender Studies neue Akademiker
vorübergehend soziales Geschlecht akademisches Prekariat
Euro-Islam geschlechtergerechte Sprache Wissenschaftler
Asyl-Zuwanderung-über-alles Political Correctness Rechtsextremismusexperte
Völkerwanderung Gleichstellungsbeauftragte Elite
Parallelgesellschaften Gender Mainstreaming Diplom-Sozialwissenschaftler


Sucht man in den Pressmitteilungen der AfD nach Komposita mit dem lexikalischen Morphem /partei/, so findet man folgende Bezeichnungen für andere Parteien:

Parteienherrschaft, Altpartei, Alt-Partei, Kaderpartei, Blockparteienmanier, Altparteienpolitiker

Die Bezeichnung „Altpartei“ in allen Varianten ist dabei absolut dominant. Dass diese Bezeichnung von Joseph Goebbels und anderen Vertretern der NSDAP gerne benutzt wurde, scheint die AfD nicht weiter zu stören. Als Eigenbezeichnung verwendet die AfD gerne Komposita wie:

Volkspartei, Rechtsstaatspartei, Weckruf-Partei, Konfliktpartei, Mitmachpartei, Anti-Europartei, Oppositionspartei

Die Tatsache, dass die AfD den Rest des Parteiensystems pauschal als überkommene Institution abwertet, zeigt, wie sehr sie sich mit ihrer Rhetorik in traditionelle populistische Anti-Eliten-Diskurse einschreibt.



Zusammenfassung

Die Ergebnisse zur Rhetorik der AfD im Landtagswahlkampf in Rheinland-Pfalz lassen sich wie folgt zusammenfassen:

  1. Populismus als Politikstil: Die AfD skandalisiert wie keine andere Partei bei fast allen Indikatoren (negativ wertende Adjektive, Intensivierer, skandalisierende Wortschatz)
  2. Zentralität des Volkswillens: „Bürger“ und „Volk“ als zentrale Begriffe; Volksabstimmung, Homogenisierung des Volks anhand der Flüchtlingsthematik
  3. Ablehnung des Establishments: pauschale Kritik an anderen Parteien („Altparteien“), Kritik an akademische Eliten (insbesondere Sozialwissenschaften), Distanzierung von der herrschenden Semantik und von „politischer Korrektheit“, Konstruktion eines Manipulationszusammenhangs

Die Ergebnisse lassen den Schluss zu, dass der Landesverband der AfD in Rheinland-Pfalz mit einer populistische Kampagne um Wähler wirbt.



Literatur

  • Geden, Oliver (2006): Diskursstrategien im Rechtspopulismus. Wiesbaden: VS Verlag für Sozialwissenschaften.
  • Szacki, Jerzy (2005): Populismus und Demokratie. Versuch einer Begriffsklärung. In: Rudolf vonThaden / Anna Hofmann (Hrsg.): Populismus in Europa – Krise der Demokratie? Göttingen: Wallstein Verlag. S. 19-24.


Hackers in the House – Call for Participation: Datenspuren 2015

Posted on 16th Juni 2015 in Allgemein, Politik, Überwachung und Sicherheit

Dieses Jahr organisiere ich die Datenspuren des Chaos Computer Clubs Dresden (C3D2) mit. Sie werden am 24. + 25. Oktober 2015 in den Technische Sammlungen Dresden stattfinden. Im Folgenden der Call for Papers:


Girls and boys,
get up on your feet and make some noise,
because hackers are in the house!


Seit den Enthüllungen von Edward Snowden vergeht kaum ein Tag, an dem nicht Abhör- und Spionageskandale die Newsseiten der Print- und Online-Medien füllen. Diese Skandale schaffen ein neues Bewusstsein dafür, dass als selbstverständlich erachtete Rechte in der schönen neuen digitalen Welt gefährdet sind.

Wo „Jeder ist verdächtig“ das Mantra ist, das aus den vor neugierigen Blicken geschützten Fluren der Sicherheitsapparate bedrohlich nach außen dringt, dort scheint das für Demokratien so notwendige Grundvertrauen zwischen Bürgern und Staat gestört.

Wo die Digitalisierung den gläsernen Menschen schafft und Geheimhaltung ein Privileg des Staates bleiben soll, dort stellt sich die Frage, wie viel Geheimnis eine Demokratie braucht und wie viel sie verträgt.

Wo in immer mehr Lebensbereichen vernetzbare Daten entstehen und das vage Versprechen auf smarte Anwendungen schon genügt, das Beharren auf Datenschutz als obsolet und fortschrittsfeindlich zu diffamieren, dort muss die Frage diskutiert werden, wie viel Datenautonomie wir uns zugestehen wollen und wer diese garantiert.

Die Digitalisierung macht also eine umfassende Neubestimmung des Verhältnisses von Menschen, Staat und Ökonomie erforderlich. Und sie macht es erforderlich, dass die digitalen Avantgarden, die diese Entwicklung in den IT-Abteilungen großer Konzerne, an den Universitäten, in den Hackspaces oder in den Rechenzentren der Nachrichtendienste maßgeblich prägen und mitgestalten, ihre Rolle verstärkt reflektieren.

Der Chaos Computer Club Dresden lädt daher dazu ein, Vorschläge für technische, wissenschaftliche oder künstlerische Beiträge zu den Datenspuren 2015 einzureichen:

Themenfelder

  • Cryptowars damals und heute
  • Crypto-Usability
  • Formen Digitaler Selbstverteidigung
  • Computer Safety + Security
  • Chancen und Risiken von Smart Devices
  • Making you own devices (Maker + Breaker Scene)
  • Freie Software + Hardware
  • Hacking als Sub- und Gegenkultur
  • Informationsethik und Datenschutz
  • Datenkunst, Kunst und Elektronik

Einreichungsfrist

16. August 2015

Format

Kurzfassung (max. 300 Wörter) für Vortrag, Workshop, Installation/Performance, Junghackertrack

Einreichung

Vorträge und Workshops über das Konferenzsystem „frab“: https://frab.cccv.de/en/DS2015/cfp/session/new

Installationen, Junghackertrack usw. über die Mailingliste: datenspuren@lists.c3d2.de

Kontakt und Rückfragen

Organisationsteam: datenspuren@c3d2.de, Mailingliste: datenspuren@lists.c3d2.de

Benachrichtigung

Eine Benachrichtigung über die Annahme der Beiträge erfolgt bis zum 15. September 2015.


Die Datenspuren sind ein nichtkommerzieller Community-Event. Da wir weder Eintritt noch Teilnahmegebühren erheben ist es uns leider nicht möglich, Honorare zu zahlen. Auch die Bezuschussung von Reise- und Übernachtungskosten ist nur in Ausnahmefällen möglich. Anträge können gerne ans Orga-Team gestellt werden.


See you in da house!

comments: Kommentare deaktiviert für Hackers in the House – Call for Participation: Datenspuren 2015 tags: , , , , , ,

Die Geheimdienste lesen unsere E-Mails nicht! — Sie wissen aber trotzdem, was drin steht.

In Janoschs Kinderbuch „Post für den Tiger“ gründet der Hase mit den schnellen Schuhen einen Briefzustellservice und stellt die anderen Hasen aus dem Wald als Briefträger ein. In einer kurzen Ansprache macht er sie mit ihren Pflichten vertraut: „Ihr müsst […] schnell und schweigsam sein. Dürft die Briefe nicht lesen und das, was darin steht, niemandem erzählen. Alles klar?“ Und die Hasen mit den schnellen Schuhen antworteten „Alles klar!“ und alles war klar.

Der Hintersinn, mit dem Janosch seinen Hasen das Lesen der Briefe verbieten und im gleichen Atemzug betonen lässt, dass man deren Inhalt aber keinesfalls weitererzählen dürfe, ist der Chuzpe vergleichbar, mit der uns Geheimdienste und E-Mail-Provider wie Google oder Yahoo erklären, dass sie unsere Mails nicht lesen. Dabei haben sie nicht mal unrecht: Sie lesen unsere E-Mails ja wirklich nicht. Sie scannen und filtern und analysieren sie nur!


Nur Fliegen ist schöner…

Mit dem Flugzeug zu reisen hat bei allen Vorzügen einen entscheidenden Nachteil: Keine andere Form des Reisens normiert die Passagiere so weitreichend wie eine Flugreise. Sie erlaubt den Reisenden nur eine bestimmte Menge Gepäck in vorgeschriebener Form, weist ihnen einen engen Raum zu, den sie auch nur zu ganz bestimmten Zwecken verlassen dürfen, zwingt auf visuelle Signale hin zum Anschnallen, zwingt zum Ausschalten von Geräten und — indem das Entertainment-Programm unterbrochen wird — zum Zuhören bei allen Ansagen. Und keine andere Form des Reisens kennt derlei Sanktionen, wenn man sich der Normierung widersetzt: abhängig vom Land können einem Raucher auf der Bordtoilette Strafen vom Bußgeld bis zur merhmonatigen Gefängnisstrafe blühen. Die Annehmlichkeit der schnellen Überbrückung von Entfernungen zu einem noch erträglichen Preis wird also durch die Akzeptanz einer weitgehenden Normierung erkauft.



Vorrichtung zur erkennungsdienstlichen Behandlung, Gedenkstätte Bautzner Straße Dresden

Vorrichtung zur erkennungsdienstlichen Behandlung, Gedenkstätte Bautzner Straße Dresden

Doch damit Passagiere eine Flugreise überhaupt antreten dürfen, müssen sie teilweise als erniedrigend empfundene Kontrollen über sich ergehen lassen. Kontrollen gibt es auf ganz unterschiedlichen Eskalationsstufen.

Unterscheiden kann man erst einmal zwischen solchen, die man selbst mitbekommt, und solchen, die im Hintergrund ablaufen. Ein Beispiel für eine Kontrolle, die meist gar nicht in unser Bewusstsein vordingt, ist das Durchleuchten der Koffer.

Man kann Kontrollen weiterhin danach unterscheiden, ob sie rein maschinell durchgeführt, mit Hilfe von Maschinen, die von Menschen überwacht werden, oder von Menschen selbst. Muss ich durch einen Metalldetektor gehen oder an einer Kamera vorbei, die zur Prävention einer Vogelgrippe-Pandemie bei der Einreise meine Temperatur misst, dann empfinde ich das als weniger unangenehem, als wenn jemand hinter dem Bildschirm eines Gerätes sitzt, der ein Röntgenbild vom Inhalt meines Handgepäcks zeigt. Gänzlich unangenehm empfinde ich es, wenn mein Handgepäck vom Sicherheitspersonal geöffnet und durchwühlt wird.

Weiter kann man Kontrollen danach unterscheiden, ob jeder davon betroffen ist oder nur Auserwählte. Als ich noch mit Rucksack reiste, schnupperten am Gepäckband bei der Ankunft häufiger Drogenhunde an meinem Gepäck, geführt von Polizisten, die wie zufällig in meiner Nähe herumstanden. Und wer kennt es nicht, in eine als „Kabine“ bezeichnete Trennwandbucht gewunken und abgetastet zu werden?

Je näher die Kontrollen an meinen Körper heranrücken, je personenbezogener sie werden, als desto unangenehmer empfinde ich sie. Die maschinelle, körperferne Kontrolle außerhalb meines Gesichtsfeldes, von der alle Passagiere gleichermaßen betroffen sind, finde ich hingegen am wenigsten störend. Und so effizient und distanziert wie das automatische Durchleuchten unserer Koffer so diskret und rücksichtsvoll scannen die Geheimdienste unsere E-Mails.


Von Gepäckkontrollen und Mail-Filtern

Die Geheimdienste lesen nicht unsere E-Mails. Sie lesen sie nicht in dem Sinn, wie unser Gepäck am Flughafen nicht durchsucht, sondern nur durchleuchtet wird.

Die Geheimdienste lesen unsere E-Mails auch nicht massenhaft. Sie lesen sie so wenig massenhaft, wie am Flughafen jeder in eine separate Kabine gewunken und abgetastet wird, sondern nur ausgesuchte Passagiere.

Die Geheimdienste lesen unsere E-Mails auch nicht, um Verdächtige zu identifizieren. Ganz so wie im Flughafen nur jener in die Kabine muss, bei dem die Metalldetektoren anschlagen, so filtern die Geheimdienste unsere E-Mails automatisch, und das sogar in einem mehrstufigen Verfahren. Und Filtern ist nicht Lesen. Und mal ehrlich: wer hat schon was dagegen, wenn E-Mails gefiltert werden? Wer nicht seinen eigenen Mailserver betreibt, dessen E-Mails durchlaufen automatisch Filter, Spamfilter. Und keiner würde behaupten, dass seine E-Mails vom Spamfilter „gelesen“ werden.

Nein! Die Geheimdienste lesen unsere E-Mails nicht. Sie lesen sie höchsten ausnahmsweise, wenn sie beim Abtasten auf etwas Auffälliges stoßen, wenn der Metalldetektor Alarm schlägt, die Drogenhunde anschlagen oder der Sprengstofftest positiv ausfällt.


Lesen ist etwas ganz anderes

Lesen, im engeren Sinn, ist nämlich etwas ganz anderes als das, was etwa der BND bei der strategischen Überwachung des Fernmeldeverkehrs macht. Lesen ist eine aktive Konstruktion von Textsinn, eine Interaktion von Texteigenschaften und Leser. Der Textsinn ist ein kommunikatives Phänomen, das aus einer Leser-Text-Interaktion resultiert. Und weil jeder Leser und jede Leserin anders ist, sich mit anderem Vorwissen und anderer Motivation ans Lesen macht, kann der Textsinn bei jeder Lektüre ein anderer sein. Von einem Computer erwarten wir allerdings, dass er bei gleichem Algorithmus bei jeder Textanalyse immer zum gleichen Ergebnis kommt. Was der Computer macht, ist also kein Lesen, zumindest nicht im emphatischen Sinn.


Aufklären, Scannen und Filtern

Was die Geheimdienste tun, das trägt den Namen „Aufklärung“, präziser „strategische Fernmeldeaufklärung“. COMINT, Communications Intelligence, so der englische Name, ist ein Teilbereich der Signals Intelligence (SIGINT) und dient dem Erfassen und Auswerten verbaler und nonverbaler Kommunikation die über Radiowellen oder Kabel übertragen wird. Typische Funktionen innerhalb der Fernmeldeaufklärung sind Scanning (liegt ein Signal im Sinne einer groben Metrik vor?), automatische Analyse (enthält das Signal relevante Informationen?), Aufzeichnung und strukturierte Speicherung und Aggregierung.

„Scannen“ hat neben der engen COMINT-Bedeutung im Englischen zwei weitere Verwendungsweisen. Einerseits bedeutet es die genaue Inaugenscheinnahme mit dem Ziel der Entdeckung einer Eigenschaft („look at all parts of (something) carefully in order to detect some feature“), andererseits ein oberflächliches Durchschauen eines Dokuments, um eine bestimmte Information daraus zu extrahieren („look quickly but not very thoroughly through (a document or other text) in order to identify relevant information“, New Oxford American Dictionary). In beiden Fällen bedeutet aber „Scannen“ jedoch etwas anderes als „Lesen“. Während Lesen in seiner emphatischen Bedeutung nämlich auf die Rekonstruktion eines ganzheitlichen Textsinns zielt, sucht man beim Scannen nur nach einer bestimmten Information oder einem bestimmten Merkmal, ohne den Anspruch zu haben, dem Textganzen gerecht zu werden.

Eine im Kontext der Überwachungsapologetik gerne gewählte Metapher ist auch die des Filterns. Filtern bedeutet, Stoffe, Flüssigkeiten, Signale o.Ä. durch ein durchlässiges Medium zu leiten, das jedoch bestimmte Anteile zurückhält. Und so heißt es in der „Unterrichtung durch das Parlamentarische Kontrollgremium“ über die Durchführung sowie Art und Umfang der Maßnahmen nach dem G 10-Gesetz für den Zeitraum vom 1. Januar bis 31. Dezember 2011:

„Der Aufklärung unterliegt […] lediglich ein eingeschränkter Teil internationaler Verkehre, der automatisiert stark gefiltert wird. Nur ein geringer Anteil dieser E-Mails wird überhaupt manuell bearbeitet. […] Der deutliche Rückgang im Jahre 2011 ist auch darauf zurückzuführen, dass der BND das von ihm angewandte automatisierte Selektionsverfahren auch vor dem Hintergrund der Spamwelle im Jahre 2010 zwischenzeitlich optimiert hat.“

Automatisierte Selektion ist völlig harmlos, das impliziert der Bericht des Kontrollgremiums, manuelle Bearbeitung hingegen erwähnenswert. Es ist wie mit den Kontrollen am Flughafen.


Wann beginnt der Eingriff in Grundrechte?

Was zwischen Netzaktivisten und Sicherheitspolitikern offenbar umstritten ist, ist also die Frage, ab wann denn von einem Grundrechteeingriff gesprochen werden kann: beim Scannen, bei der Aufzeichnung, bei der automatischen Analyse oder erst bei der personenbezogenen Auswertung („manuelle Bearbeitung“)?



Zellenspion, Gedenkstätte Bautzner Straße Dresden

Zellenspion, Gedenkstätte Bautzner Straße Dresden

Mit dieser Frage hat sich das Bundesverfassungsgericht in seinem Urteil vom 14.7.1999 beschäftigt, das 2001 zur bis heute geltenden Neuregelung des G 10-Gesetzes, des Gesetzes zur Beschränkung des Brief-, Post- und Fernmeldegeheimnisses, geführt hat.

Darin zeigt sich das Bundesverfassungsgericht durchaus sensibilisiert für die Folgen des automatisierten Beobachtens des Datenverkehrs:

„Die Nachteile, die objektiv zu erwarten sind oder befürchtet werden müssen, können schon mit der Kenntnisnahme eintreten. Die Befürchtung einer Überwachung mit der Gefahr einer Aufzeichnung, späteren Auswertung, etwaigen Übermittlung und weiteren Verwendung durch andere Behörden kann schon im Vorfeld zu einer Befangenheit in der Kommunikation, zu Kommunikationsstörungen und zu Verhaltensanpassungen, hier insbesondere zur Vermeidung bestimmter Gesprächsinhalte oder Termini, führen. Dabei ist nicht nur die individuelle Beeinträchtigung einer Vielzahl einzelner Grundrechtsträger zu berücksichtigen. Vielmehr betrifft die heimliche Überwachung des Fernmeldeverkehrs auch die Kommunikation der Gesellschaft insgesamt. Deshalb hat das Bundesverfassungsgericht dem – insofern vergleichbaren – Recht auf informationelle Selbstbestimmung auch einen über das Individualinteresse hinausgehenden Gemeinwohlbezug zuerkannt (vgl. BVerfGE 65, 1 ).“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 234)

Und die Richter stellen klar, dass der Eingriff in Grundrechte nicht erst bei der manuellen Auswertung beginnt sondern schon beim Erfassen:

„Da Art. 10 Abs. 1 GG die Vertraulichkeit der Kommunikation schützen will, ist jede Kenntnisnahme, Aufzeichnung und Verwertung von Kommunikationsdaten durch den Staat Grundrechtseingriff (vgl. BVerfGE 85, 386 ). Für die Kenntnisnahme von erfaßten Fernmeldevorgängen durch Mitarbeiter des Bundesnachrichtendienstes steht folglich die Eingriffsqualität außer Frage. […] Eingriff ist daher schon die Erfassung selbst, insofern sie die Kommunikation für den Bundesnachrichtendienst verfügbar macht und die Basis des nachfolgenden Abgleichs mit den Suchbegriffen bildet. […] Der Eingriff setzt sich mit der Speicherung der erfaßten Daten fort, durch die das Material aufbewahrt und für den Abgleich mit den Suchbegriffen bereitgehalten wird. Dem Abgleich selbst kommt als Akt der Auswahl für die weitere Auswertung Eingriffscharakter zu. Das gilt unabhängig davon, ob er maschinell vor sich geht oder durch Mitarbeiter des Bundesnachrichtendienstes erfolgt, die zu diesem Zweck den Kommunikationsinhalt zur Kenntnis nehmen. Die weitere Speicherung nach Erfassung und Abgleich ist als Aufbewahrung der Daten zum Zweck der Auswertung gleichfalls Eingriff in Art. 10 GG.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 186ff)


Und wann ist dieser Eingriff gerechtfertigt?

Gleichzeitig aber sieht das Bundesverfassungsgericht die von Außen drohenden Gefahren als wesentlichen Grund, der geeignet ist, Grundrechtseinschränkungen zu gestatten:

„Auf der anderen Seite fällt ins Gewicht, daß die Grundrechtsbeschränkungen dem Schutz hochrangiger Gemeinschaftsgüter dienen. […] Die Gefahren, die ihre Quelle durchweg im Ausland haben und mit Hilfe der Befugnisse erkannt werden sollen, sind von hohem Gewicht. Das gilt unverändert für die Gefahr eines bewaffneten Angriffs, aber auch, wie vom Bundesnachrichtendienst hinreichend geschildert, für Proliferation und Rüstungshandel oder für den internationalen Terrorismus. Ebenso hat das hinter der Aufgabe der Auslandsaufklärung stehende Ziel, der Bundesregierung Informationen zu liefern, die von außen- und sicherheitspolitischem Interesse für die Bundesrepublik Deutschland sind, erhebliche Bedeutung für deren außenpolitische Handlungsfähigkeit und außenpolitisches Ansehen.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 235, 238)

In seiner Abwägung kommt das Bundesverfassungsgericht zu dem Ergebnis, dass die verdachtslose Überwachung des Fernmeldeverkehrs im und mit dem Ausland durch den Bundesnachrichtendienst und damit der vorher formulierte Eingriff in die Grundrechte der Bundesbürger gerechtfertigt ist:

„Die unterschiedlichen Zwecke rechtfertigen es aber, daß die Eingriffsvoraussetzungen im G 10 anders bestimmt werden als im Polizei- oder Strafprozeßrecht. Als Zweck der Überwachung durch den Bundesnachrichtendienst kommt wegen der Gesetzgebungskompetenz des Bundes aus Art. 73 Nr. 1 GG nur die Auslandsaufklärung im Hinblick auf bestimmte außen- und sicherheitspolitisch relevante Gefahrenlagen in Betracht. Diese zeichnet sich dadurch aus, daß es um die äußere Sicherheit der Bundesrepublik geht, vom Ausland her entstehende Gefahrenlagen und nicht vornehmlich personenbezogene Gefahren- und Verdachtssituationen ihren Gegenstand ausmachen und entsprechende Erkenntnisse anderweitig nur begrenzt zu erlangen sind. Der Bundesnachrichtendienst hat dabei allein die Aufgabe, zur Gewinnung von Erkenntnissen über das Ausland, die von außen- und sicherheitspolitischer Bedeutung für die Bundesrepublik Deutschland sind, die erforderlichen Informationen zu sammeln, auszuwerten und der Bundesregierung über die Berichtspflicht Informations- und Entscheidungshilfen zu liefern.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 241)

Eine Rolle bei der Abwägung hat offenbar auch gespielt, dass die Anzahl der überwachten Telekommunikationsbeziehungen verglichen mit der Gesamtzahl aller oder auch nur der internationalen Fernmeldekontakte aber vergleichsweise niedrig war. E-Mails waren damals beispielsweise noch gar nicht von der Überwachung betroffen. Darüberhinaus wertete das Bundesverfassungsgericht auch das Verbot zur gezielten Überwachung einzelner Anschlüsse, das im G 10-Gesetz verfügt wird, und die Tatsache, dass eine Auswertung und Weitergabe der Informationen nur in wenigen Fällen erfolge, als weitere wichtige Gründe für die Vereinbarkeit des G 10-Gesetzes mit dem Grundgesetz:

„Auch wenn die freie Kommunikation, die Art. 10 GG sichern will, bereits durch die Erfassung und Aufzeichnung von Fernmeldevorgängen gestört sein kann, erhält diese Gefahr ihr volles Gewicht doch erst durch die nachfolgende Auswertung und vor allem die Weitergabe der Erkenntnisse. Insoweit kann ihr aber auf der Ebene der Auswertungs- und Übermittlungsbefugnisse ausreichend begegnet werden.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 243)

Erfassung und Aufzeichnung bedrohen also schon die freie Kommunikation, Auswertung und Weitergabe aber, so sahen es die Verfassungsrichter, sind weitaus schlimmer. Es ist wie mit den Sicherheitskontrollen am Flughafen: je stärker sie die Objekte der Überwachung vereinzeln, je weniger sie maschinell sondern durch Personen erfolgen, desto unangenehmer sind sie.


Vom Filtern und Auswerten: Formale und inhaltliche Suchbegriffe

Die entscheidende Frage ist also: Ab wann liegt eine Auswertung vor, wann werden aus Signalen Informationen? Beschwerdeführer wie Verfassungsrichter waren sich gleichermaßen einig darin, dass eine Auswertung bei einem „computergestützten Wortbankabgleich“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 56), beim Filtern also, noch nicht vorliege. Das BVerfG-Urteil fiel freilich in eine Zeit des Umbruchs.



Innenhof der Gedenkstätte Bautzner Straße Dresden

Innenhof der Gedenkstätte Bautzner Straße Dresden

Das G10-Gesetz stammt aus dem Jahr 1968 und damit aus einer Zeit, in der Daten zwar großflächig erhoben werden konnten, ohne dass es jedoch technisch möglich war, die Kommunikationsdaten einzelnen Kommunikationspartnern zuzuordnen und die Inhalte massenhaft automatisiert zu filtern. Dies hatte sich Ende der 1990er Jahre freilich schon geändert. Das Bundesverfassungsgericht wusste schon damals um die Aussagekraft der Verbindungsdaten:

„Ferner führt die Neuregelung zu einer Ausweitung in personeller Hinsicht. Zwar ist die gezielte Erfassung bestimmter Telekommunikationsanschlüsse gemäß § 3 Abs. 2 Satz 2 G 10 ausgeschlossen. […] Faktisch weitet sich der Personenbezug dadurch aus, daß es im Gegensatz zu früher heute technisch grundsätzlich möglich ist, die an einem Fernmeldekontakt beteiligten Anschlüsse zu identifizieren. (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 9)

Zudem wurde die Anwendung von G 10-Maßnahmen bei der Novelle auf weitere Delikte ausgeweitet: neben Gefahren eines bewaffneten Angriffs traten die Proliferation und der illegale Rüstungshandel, der internationale Terrorismus, Handel mit Rauschgift und Geldwäsche. Allesamt Gefahren, die „stärker subjektbezogen sind und auch nach der Darlegung des Bundesnachrichtendienstes vielfach erst im Zusammenhang mit der Individualisierung der Kommunikationspartner die angestrebte Erkenntnis liefern.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 229)



Geruchskonserve in der Gedenkstätte Bautzner Straße Dresden

Geruchskonserve in der Gedenkstätte Bautzner Straße Dresden

Man beruhigte sich freilich damit, dass nur sehr wenige Fernmeldevorgänge tatsächlich in der Auswertung landeten. Der Innenminister führte an, die „materiellen und personellen Ressourcen des Bundesnachrichtendienstes reichten […] nicht aus, das Aufkommen vollständig auszuwerten.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 89) Lediglich 700 der 15.000 erfassten Fernmeldevorgänge würden mit Hilfe von Suchbegriffen selektiert, 70 würden von Mitarbeitern persönlich geprüft und 15 kämen in die Fachauswertung. Zwischen dem Filtern mit Hilfe von Suchbegriffen und dem Auswerten liegen also noch zwei Schritte. Wie aus den 700 Fernmeldevorgängen 70 werden, darüber schweigt der Innenminister. Anzunehmen ist, dass die gefilterteten Inhalte auf Suchwortkombinationen hin analysiert wurden.

Die Filterung erfolgt auch heute noch anhand formaler und inhaltlicher Suchbegriffe, die bei der Anordnung von G 10-Maßnahmen festgelegt werden. Formale Suchbegriffe sind „Anschlüsse von Ausländern oder ausländischen Firmen im Ausland“, inhaltliche Suchbegriffe sind „beispielsweise Bezeichnungen aus der Waffentechnik oder Namen von Chemikalien, die zur Drogenherstellung benötigt“ werden (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 87).


Suchen ist analysieren

Interessant an der Verhandlung über das G 10-Gesetz ist aber auch eine Aussage des Innenministers, in der er einräumt, dass die „Auswertung anhand der Suchbegriffe […] im Telex-Bereich vollautomatisch möglich“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 90) sei. Schon 1999 fand also eine automatische Auswertung statt, wenn auch aufgrund technischer Beschränkungen, nur in einem kleinen Bereich. Denn dieses Eingeständnis zeigt, dass die Trennung von Filterung und Auswertung, also von Suche und Analyse lediglich eine künstliche ist.

Für heutige automatische Textanalysen gilt: Suchen ist Analysieren. Wenn wir eine Anfrage an ein großes Textkorpus formulieren, dann fließen in diese Anfrage so komplexe Modelle über die Strukturierung und den semantischen Gehalt von Texten ein, dass jeder Anfrage faktisch eine Analyse zugrundeliegt. Um zu bestimmen, welche Themen in einem Dokument verhandelt werden, braucht man keinen Auswerter mehr; Topic Models schaffen Abhilfe.

In der Unterrichtung durch das Parlamentarische Kontrollgremium (PKGr) über die Durchführung sowie Art und Umfang von G 10-Maßnahmen im Jahr 2011 heißt es, lediglich ein eingeschränkter Teil internationaler Verkehre, der automatisiert stark gefiltert werde, unterliege der Aufklärung, nur

„ein geringer Anteil dieser E-Mails wird überhaupt manuell bearbeitet. […] Der deutliche Rückgang im Jahre 2011 ist auch darauf zurückzuführen, dass der BND das von ihm angewandte automatisierte Selektionsverfahren auch vor dem Hintergrund der Spamwelle im Jahre 2010 zwischenzeitlich optimiert hat. Hierzu haben unter anderem eine verbesserte Spamerkennung und -filterung, eine optimierte Konfiguration der Filter- und Selektionssysteme und eine damit verbundene Konzentration auf formale Suchbegriffe in der ersten Selektionsstufe beigetragen.“

Welche Verfahren genau zum Einsatz kommen, dazu schweigt der Bericht. Immerhin räumt er ein, dass Filterung und Selektion automatisch in einem mehrstufigen Verfahren erfolgen. Artikel 10, Absatz 4 des G 10-Gesetzes erlaubt es dem BND, bis zu 20% der auf den Übertragungswegen zur Verfügung stehenden Übertragungskapazitäten zu überwachen. 20% der Kapazitäten. Nicht 20% der tatsächlichen Kommunikation. Und zu den Kapazitäten schweigt sich der Bericht aus, auch zu den konkreten Zahlen der insgesamt erfassten Interaktionen. Sicher ist nur, dass sämtliche Formen der digitalen Kommunikation maschinell auswertbar sind: Telefongespräche, Faxe, Chatnachrichten, E-Mails, SMS etc.

Um aus einer so riesigen Datenmenge, wie sie in einem Jahr anfällt, eine vergleichsweise kleine Menge an Kommunikationsverkehren für die Auswertung herauszudestillieren — 329.628 Telekommunikationsverkehre im Bereich internationaler Terrorismus werden als auswertungswert erkannt, das sind weniger als 1000 pro Tag — reichen einfache Schlagwortsuchen nicht aus. Hierfür ist eine Modellierung von Themen anhand der Gewichtung und Distribution von Suchbegriffen nötig. Und dies auf allen erfassten Kommunikationsverkehren. Ein solches Verfahren ist nicht nur eine Filterung, sondern hat den Charakter einer Auswertung, es ist Suche und Analyse zugleich.

Die Dienste lesen nicht unsere E-Mails, sie wissen aber doch, was drin steht. Janosch lässt grüßen.


Definitionsmacht ohne Kontrolle

Die Auswertung geschieht zwar weitgehend automatisch. Das ist aber im Ergebnis kaum weniger schlimm, als wenn sie von einem Menschen vorgenommen würde. Denn „automatisch“ bedeutet natürlich nicht „objektiv“ oder „absichtslos“. Hinter der Auswahl der Suchbegriffe und der Modellierung von Themen stehen Vorstellungen von Gefahren und Gefährdern, die lediglich vor dem sehr engen Kreis der Mitglieder der G 10-Kommission und des Parlamentarischen Kontrollgremiums, Abgeordnete und Juristen, gerechtfertigt werden müssen. Davon abgesehen sind diese Vorstellungen so geheim wie die gewählten Suchbegriffe. Der BND besitzt hier eine Definitionsmacht, die sich einer gesellschaftlichen Debatte oder Kontrolle und einer wissenschaftlichen Prüfung entziehen kann. Diese Vorstellungen zählen zu den Arcana Imperii. Denn die Logik der Überwachung ist selbst Teil dessen, was aus Sicht der Überwacher geschützt werden muss.



Verhörraum Gedenkstätte Bautzner Straße Dresden

Verhörraum Gedenkstätte Bautzner Straße Dresden

Der Vergleich hinkt zwar, ist aber dennoch bedenkenswert: Wie wäre es, wenn man das StGB geheimhalten würde mit der Begründung, dann wüssten ja potenzielle Kriminelle, welche Handlungen als kriminell gelten und daher zu vermeiden wären? Dies erscheint uns deshalb so absurd, weil das StGB gewissermaßen der Maßstab ist, an dem wir messen, ob jemand kriminell oder straffällig geworden ist. Wäre das StGB unveröffentlicht, dann wäre Kriminellsein nicht etwas, das sich (auch für den potenziell Kriminellen) anhand dieses Maßstabs bestimmen ließe, sondern eine Eigenschaft der Personen, die sich in Taten aktualisieren kann, aber nicht muss. So sehr der Vergleich auch hinkt, so macht er doch sichtbar, dass die Dienste Identitäten nach demselben Muster zuschreiben: ein „Gefährder“ oder „Terrorist“ ist nicht erst dann ein Terrorist, wenn er zuschlägt oder zugeschlagen hat. Er ist es schon vor der Tat. Er ist identifizierbar durch seine Sprache, die auf künftige Taten auch dann verweisen kann, wenn sie die Tat nicht einmal zum Thema hat. Und diese Zuschreibung erfolgt in einem Feld, in dem die Zuschreibungen an weitergehende Überwachungs- und Strafregime gebunden sein kann. Wie würden wir es finden, wenn der Bundesgrenzschutz die Liste von Gegenständen, die auf Flugreisen nicht im Gepäck mitgeführt werden dürfen, geheimhalten würde? Und wenn der Bundesgrenzschutz aufgrund von Verstößen gegen diese Liste Passagieren das Fliegen verweigern könnte, ohne sagen zu müssen, warum?

Die strategische Fernmeldeüberwachung ist durch den technisch-informatischen Fortschritt so effizient geworden, dass ihre rechtliche Grundlage fragwürdig geworden ist. Die Macht, zu definieren, wer „Terrorist“ oder „Gefährder“ ist, darf daher nicht länger ohne Kontrolle bleiben.


comments: Kommentare deaktiviert für Die Geheimdienste lesen unsere E-Mails nicht! — Sie wissen aber trotzdem, was drin steht. tags: , , , , , , , , , , ,

Metasprachliche markierte Ausdrücke in der ZEIT im Jahr 2011 und eine kleine Geschichte der BRD in Wörtern

Posted on 6th Januar 2012 in Allgemein, Linguistische Kategorien, Off Topic

Liebe Freunde der Sicherheit,

im vorletzten Post habe ich die Möglichkeit diskutiert, mittels metasprachlich markierter Ausdrücke Ideologien zu identifizieren, die von der herrschenden Semantik abweichen. Auch der publizistische Mainstream markiert Wörter oder Ausdrücke durch Anführungszeichen oder ein vorangestelltes „sogenannt“, wenn auch seltener. In Zeitungen werden vor allem neue, missverständliche oder inhaltlich umstrittene Ausdrücke markiert. Die folgende Wortwolke zeigt, welche Ausdrücke in der gedruckten ZEIT im Jahr 2011 markiert wurden:



Metasprachlich markierte Ausdrücke in der ZEIT (print) 2011



An der Wortwolke werden vor allem die wichtigsten Themen des Jahres sichtbar: Euro-Rettung, Terrorismus (Schuhbomber, Rucksackbomber, Kofferbomber und für uns Freunde der Sicherheit besonders interessant: Unterhosenbomber), arabischer Frühling, Atomkraft (Brückentechnologie, Restrisiko, Liquidator, Fukushima, Energiewende), Protestbewegungen (Wutbürgertum, Plärrer, Empörte) und Selbstverteidigungsminister KT. Es finden sich auch einige Klassiker: „drittes Reich“ und „Führer“ werden in den meisten Medien aus gutem Grund immer in Anführungszeichen gesetzt. Natürlich findet sich auch „alternativlos“ als Unwort des Jahres in der Liste.

Ich habe auch für die anderen Jahrgänge der Zeit solche wordclouds berechnet. In der Gesamtschau erhält man eine kleine Geschichte der Bundesrepublik und ihrer gesellschaftlichen Debatten in einer Liste von Wörtern.

Als Lesehilfe: Je häufiger ein Ausdruck markiert wurde, desto größer wird er dargestellt. In einem Jahr zum ersten mal als markiert auftretende Ausdrücke sind rot, im Vergleich zu den anderen Jahren signifikant häufig auftretende Ausdrücke sind braun gefärbt.





Interessant ist, dass in Jahren von Krisen und Umbrüchen besonders viele Ausdrücke metasprachlich markiert werden. Die Jahre 1966-1969, 1977, 1989/90 sind dafür ein Beleg. Zieht man den Anstieg der Markierungen im Jahr 2011 im Vergleich zu den Jahren vorher in Betracht, dann muss die Diagnose heißen: wir erleben zurzeit einen Umbruch, der den großen Krisenjahren der BRD vergleichbar ist.


Anmerkung: Eine Filterung der Listen war nötig, da insbesondere Buch- oder Filmtitel auch in Anführungszeichen gesetzt werden. Dies wurde mit Hilfe einer Stoppliste automatisiert, eine Nachbearbeitung von Hand war dennoch nötig.

Für bessere Lesbarkeit: jenseits des Blog-Layouts habe ich noch eine schlichte HTML-Seite gemacht.


Wortschatz-Komplexitätsmaße und Autoridentifizierung

Die Hoffnung, Autoren anhand eines einzigen Indikators unterscheiden oder identifizieren zu können, stand am Anfang der Stilometrie. Der Fokus richtete sich dabei auf Maße, die unterschiedliche Aspekte des Wortschatzgebrauchs modellieren. Sie erlauben Aussagen über eine oder mehrere der folgenden vier linguostatistischen Dimensionen:

  • Verteilung: die Verteilung der Häufigkeit der verwendeten Wörter
  • Konzentration: Anteil (n mal) wiederkehrender Wörter
  • Vielfalt: Anteil nur selten vorkommender Wörter
  • Abdeckung: modelliert das Verhältnis von bestimmten Teilen des Wortschatzes zum Gesamttext (wie viel Prozent eines Textes wird mit den n häufigsten Wörtern / mit Funktionswörtern / … realisiert)

Die Wortschatz-Komplexitätsmaße beruhen meist auf einer teilweisen Verrechnung der folgenden textstatistischen Größen:

  • Anzahl der Token (= Wortzahl eines Textes): N
  • Anzahl der Types (= Anzahl der unterschiedlichen Wörter in einem Text): V
  • Anzahl der hapax legomena (= Types, die genau ein Mal im Text vorkommen): V1
  • Anzahl der dislegomena (= Types, die genau zwei Mal im Text vorkommen): V2
  • Anzahl der Types, die i Mal im Text vorkommen: Vi

Sie erheben den Anspruch, eine Aussage über die Wortschatzdifferenziertheit zu erlauben, das heißt über die Komplexität oder Schlichtheit des in einem Text zum Einsatz kommenden Wortschatzes.

Im Folgenden eine unvollständige Liste prominenter Maße für die Wortschatzkomplexität.

Honoré’s R (1979)

Das von Antony Honoré 1979 vorgeschlagene Maß R basiert auf der Frequenz von nur einmal vorkommenden Wörtern, sogenannten hapax legomena. Es wird wie folgt berechnet:

R = 100 * log N/(1-(V1/V))

Es geht davon aus, dass je häufiger ein Autor Wörter nur einmal benutzt (also beispielsweise Wortwiederholungen vermeidet), desto differenzierter sein Wortschatz ist.

R variiert typischerweise in einer Spanne von 1000 bis 2000, wobei höhere Werte auf einen komplexeren Wortschatz im Text verweisen und zwar in dem Sinn, dass eine große Anzahl Wörter selten im Text auftritt.

Das Maß R ist so konstruiert, dass es unabhängig von der Länge des Textes ist. Es impliziert die Annahme, dass das Verhältnis von hapax legomena zur Menge aller Types bezüglich der logarithmierten Textgrösse konstant ist. Leider ist dies aber nicht der Fall, wie Tweedie und Baayen nachweisen konnten, nimmt es mit zunehmender Textlänge ab.

Sichel’s S (1975)

Dieses Maß beruht auf dem Verhältnis der Frequenz der dislegomena, also von Wörtern, die genau zwei Mal vorkommen, zur Anzahl der Types in einem Text:

S = V2/V

Sichels Untersuchungen ergaben, dass diese Zahl für einen Autor bei Texten zwischen 1000 und 400.000 Wörtern annähernd konstant blieben, sich also robust gegenüber Textlängenschwankungen verhielten.

Brunet’s W (1978)

Ein Maß, das Aussagen weitgehend unabhängig von der Textlänge erlaubt ist Brunet’s W. Es wird wie folgt bestimmt:

W = N^V^-a (lies: N hoch V hoch -a), wobei a eine Konstante ist; Brunet verwendete: a = 0.172

Das Ergebnis variiert gewöhnlich zwischen 10 und 20, wobei ein kleiner Wert eine höhere Komplexität anzeigt.

Yule’s K (1938)

Dieses bereits 1938 vom Statistiker George Udny Yule entwickelte Wortfrequenzmaß gibt an, wie groß die Wahrscheinlichkeit ist, dass beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort gewählt wird. Es wird wie folgt berechnet:

K = 10,000 * (M/N2 – 1/N), wobei M = ∑ i^2*Vi ist.

Ein K-Wert 220 bedeutet, dass die Wahrscheinlichkeit, beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort zu erhalten, 1 zu 220 ist. Durch die Quadrieriung der Frequenz der Typegruppen (i^2) werden hochfrequente Wörter stärker gewichtet als hapax legomena.

Unter der Annahme, dass die Wahl der Wörter unabhängig von einander erfolgte, d.h. eine Poisson-Verteilung vorliegt, ist Yule’s K von der Textlänge unabhängig. Allerdings gibt es viele sprachtheoretische Gründe und empirische Evidenzen anzunehmen, dass die Wahl der Wörter nicht unabhängig von einander erfolgt.

Traditionelle Forensische Linguistik

Ziel der forensischen Linguistik ist es, aus sprachlichen Äußerungen Informationen über deren Urheber zu gewinnen. Das Attribut „forensisch“ bezieht sich darauf, dass die Äußerung im Kontext von mutmaßlichen Straftaten getätigt wurden oder für deren Aufklärung oder Vorbeugung relevant sind. Dieser Eintrag beschäftigt sich mit der traditionellen forensischen Linguistik, die beispielsweise bei der Analyse von Erpresser- oder Drohbriefen zum Einsatz kommt. Sie hat es mit eher wenig sprachlichem Material zu tun, das einer genauen Analyse unterzogen wird. Mit der computergestützten Stilometrie als Methode der forensischen Linguistik werde ich mich in späteren Beiträgen beschäftigen. Für die Stilmoetrie sind größere Datenmengen erforderlich.

Der linguistische Fingerabdruck: „From Fingerprint to Writeprint“?

Wenn Sicherheitsinformatiker ihre Software verkaufen wollen, dann sprechen sie gerne vom linguistischen Fingerabdruck. Um es gleich vorweg zu sagen: das ist vollkommen unseriös. Außer im Bereich der Stimmidentifizierung (forensische Phonetik) lassen sich sprachliche Äußerungen nicht eindeutig einer Person zuordnen. Der Vergleich  sprachlicher Merkmale von Äußerungen mit einem Fingerabdruck, der für die Identifizierung einer Person verwendet werden kann, ist daher irreführend. Sprachliche „Spuren“ sind keineswegs eindeutig. Der im digitalen Zeitalter von Kriminologen herbeigesehnte „Schreibabdruck“ kann den anaolgen Fingerabdruck nicht ersetzen.

Fehler und Normverstoß

Die traditionelle forensische Linguistik identifiziert also keine Täter, hilft aber dabei, Täterprofile zu erstellen. Sie tut dies, indem sie sprachliche Eigenschaften von Texten mit sozialen Merkmalen in Beziehung setzt. Wichtige Anhaltspunkte sind dabei Verstöße gegen die Regularitäten einer Sprache und gegen sprachliche oder stilistische Normen. Verstöße gegen die Regularitäten einer Sprache können Anzeichen dafür sein, dass der Produzent einer Äußerung kein Muttersprachler ist, insbesondere dann, wenn sie systematisch auftreten. Wenn also in einem Text mehrere Äußerungen wie

… Ich warte für die Übergabe … Ich möchte zu jemandem reden … Suchen Sie nicht für mich …

dann kann man davon ausgehen, dass der Verfasser kein Muttersprachler ist oder sich als Nichtmuttersprachlier  inszenieren möchte. Wenn solche Verstöße als Interferenzen interpretiert werden können, d.h. als Übertragung einer grammatikalischen Struktur aus der Muttersprache, können sie auch als Hinweise auf die Herkunft des Verfassers eines Textes gedeutet werden. Die Beispiele legen den Schluss nah, dass es sich um einen Muttersprachler des Englischen handelt, der hier schrieb und aufgrund mangelnder Kenntnisse des Deutschen feste Verb-Präposition-Verbindungen aus dem Englischen übernommen hat (… I’m waiting for … I want to talk to … Don’t look for …).

Autorprofil — Täterprofil

Neben der Frage, ob es sich um einen Muttersprachler handelt, bieten Texte häufig auch Anhaltspunkte dafür, aus welcher Region ein Autor kommt bzw. ob es Interferenzen mit einem regionalen Dialekt gibt. Wer „größer wie“ statt „größer als“ schreibt, kommt wahrscheinlich nicht aus Norddeutschland. Wer die regionale Variante „benützen“ gebraucht, kommt eher aus dem Süden des deutschen Sprachraums, wahrscheinlich aus dem Südwesten. Die Beherrschung der Rechtschreibung und Interpunktionsregeln, aber auch der richtige bzw. falsche Gebrauch von Fremdwörtern und die syntaktische Komplexität können Hinweise auf den Bildungsstand des Autors liefern. Die Einhaltung bestimmter stilistischer Normen kann zudem auch als Hinweis auf das Alter gedeutet werden. Rückschlüsse auf das Geschlecht des Verfassers sind allerdings nicht möglich.

Forensische Linguistik beim BKA

Das Bundeskriminalamt arbeitet mit dem Kriminaltechnischen Informationssystem Texte (KISTE), das die systematische Erfassung, Annotation, Interpretation und den Vergleich von Texten unterstützt. Aus der verlinkten Powerpoint-Präsentation einer Mitarbeiterin des BKA geht hervor, dass mehr als die Hälfte der untersuchten Texte Schreiben von Erpressern sind; Bedrohung und Volksverhetzung folgen in weitem Abstand. Terrorismus und Extremismus machen gerade einmal 5% der Fälle aus.

Fehleranalyse vs. Stilometrie

Die Fehleranalyse ist besonders dann ein erfolgversprechendes Vorgehen, wenn nur eine geringe Menge sprachlicher Daten vorliegt, die sich für statistische Analysen nicht oder kaum eignet. Bei größeren Datenmengen, in denen signifikante sprachliche Muster identifiziert werden können, kann ein breiteres Spektrum linguistischer Phänomene für die Zuordnung von Texten zu außersprachlichen Merkmalsbündeln herangezogen werden. Dazu demnächst mehr in einer kleinen Serie über Methoden der Stilometrie.

comments: Kommentare deaktiviert für Traditionelle Forensische Linguistik tags: , , , ,

„Überwachung“ und Selbstzwang

Posted on 14th April 2011 in Allgemein, Politik, Semantik, Überwachung und Sicherheit

Als an meiner Universität ein neues Gebäude errichtet wurde, fanden sich darin auffällig viele Kameras. Ich machte mir den Spaß, die Kameras zu zählen und musste feststellen, dass auf fünf Stockwerken nicht weniger als 43 Kameras mehr oder weniger offensichtlich angebracht waren. Gerne wollte ich nun von meiner Universitätsverwaltung wissen, was der Grund dafür sei, dass sie so viele Überwachungskameras installieren lassen hatte, wo doch von Kriminalität an meiner Universität keine Rede sein kann. Zur Antwort erhielt ich, dass die Universität keine Überwachungskameras habe anbringen lassen, sondern Sicherheitskameras.

Die sprachliche Konstruktion der Wirklichkeit

Wörter prägen unsere Wahrnehmung. Die Bezeichnung eines Gegenstandes konstruiert diesen Gegenstand mit, besonders dann, wenn er politisch umstritten ist. Die konkurrierenden Bezeichnungen für die in Rede stehenden Kameras heben jeweils einen Aspekt an ihrer Funktion hervor, der den Beteiligten besonders relevant erscheint. Der freundliche Verwaltungsangestellte, der meine Anfrage beantwortete, war überzeugt, dass die Kameras der Sicherheit der Studierenden diene, denn — so seine Begründung — die Bilder, die die Kameras aufzeichne, würden nur dann zur Ansicht freigegeben, wenn etwas vorgefallen sei. Es handle sich also nicht um Überwachung.

„Überwachung“ in Wörterbüchern

Als ich dann das Wort  im Grimm’schen Wörterbuch nachschlug, war ich fast geneigt, ihm Recht zu geben. Dort heißt es zur Bedeutung von „überwachen“:

bewachen, beaufsichtigen, im auge behalten, erst seit beginn des 19. jahrh. zu breiter verwendung gelangt
a) personen und sachen ü., beaufsichtigen (…)
b) eine thätigkeit ü., beaufsichtigen

Beaufsichtigt wurde tatsächlich niemand, denn es gab ja keinen Aufseher, also keinen Menschen hinter der Kamera. Auch die abstraktere Definition in Gablers Wirtschaftslexikon rechtfertigt es kaum, im Fall des speziellen Umgangs mit den Kameras an meiner Universität von „Überwachung“ zu sprechen:

Vorgehen, bei dem eventuelle Abweichungen zwischen beobachtbaren Istzuständen und vorzugebenden bzw. zu ermittelnden Sollzuständen festgestellt und beurteilt werden sollen.

Überwachung liegt also dann vor, wenn man Beobachtungen vornimmt, um die Abweichung von einer Norm festzustellen und zu beurteilen. Der Zweck der Überwachung ist die

Fehlerentdeckung und Fehlervermeidung sowie Erlangung von Informationen, die der Entscheidungsverbesserung all derjenigen dienen können, die über das Ergebnis der Überwachung unterrichtet werden.

Eine Kamera also, die Aufzeichnungen macht, die nur dann angesehen werden, wenn jemand eine Straftat meldet, deren Bilder aber sonst nach 48 Stunden gelöscht werden, scheint auf den ersten Blick tatsächlich keine Überwachungskamera zu sein. Denn, so argumentierte der Verwaltungsangestellte: wo keine Auswertung ist, dort ist auch keine Information, wo kein Beobachter ist, dort ist auch keine Überwachung. Die Kameras seien also tatsächlich nur Sicherheitskameras, denn durch ihre bloße Existenz verhinderten sie, dass überhaupt etwas vorfallen könne.

Panoptismus

Ich habe mit meinen Studierenden lange darüber diskutiert, ob sie angesichts der Existenz der Kameras ihr Verhalten verändern oder sich genauso verhalten wie unbeobachtet von den vielzähligen elektrischen Augen. Etwa die Hälfte vertrat die Ansicht, die Kameras hätten keinen Einfluss auf ihr Verhalten. Die andere Hälfte jedoch war der Ansicht, dass die gefühlte Beobachtung ihnen ein zwangloses Verhalten verunmögliche und sie sich merkwürdig diszipliniert fühlten. Das Wissen um die theoretische Möglichkeit, Gegenstand von gezielter Beobachtung durch eine Institution werden zu können, die im Falle eines Falles durchaus Zwangsmaßnahmen zu verhängen bzw. durchzusetzen in der Lage ist, führte also bei einem Teil der Studierenden dazu, dass sie sich Selbstzwängen unterwarfen, die sich verinnerlichten Normen der Richtigkeit und Wohlanständigkeit von Verhalten verdankten. Die Kameras entfalteten in ihnen einen Konformitätsdruck. Für diesen Mechanismus hat Michel Foucault die Bezeichnung Panoptismus geprägt. Auch wenn die Kameras abgeschaltet sind: Sie verweisen auf die Möglichkeit ihres Gebrauchs und können so unser Verhalten beeinflussen.

Selbstzwang und Zivilisation

Die Ausbildung von Selbstzwängen hat Norbert Elias mit dem Prozess der Zivilisation in Beziehung gesetzt. Menschen, die in „einfacheren“ (agrarisch geprägten) Gesellschaften lebten, verfügten seiner Ansicht nach über eine weniger differenzierte Selbstzwangapparatur als Menschen in hochdifferenzierten und besonders in mehrparteilichen Industriegesellschaften. Sie bedürften

zur Selbstzügelung in sehr hohem Maße der Verstärkung durch die von anderen erzeugte Furcht, den von anderen ausgeübten Druck. Der Druck kann von anderen Menschen, also etwa von einem Häuptling ausgehen oder von imaginierten Figuren, also etwa von Ahnen, Geistern oder Göttern. Was immer die Form, es bedarf hier eines sehr erheblichen Fremdzwanges, um bei Menschen das Selbstzwanggefüge zu stärken, das für ihre eigene Integrität, ja für ihr Überleben – wie auch für das der anderen Mitlebenden – erforderlich ist.

Zivilisationsprozesse sind, wie ich bei meinen Untersuchungen fand, gekennzeichnet durch eine Veränderung im Verhältnis von gesellschaftlichen Fremdzwängen und individuellen Selbstzwängen.

Die allgegenwärtigen Kameras sind keine Häuptlinge und keine strafenden Götter. Sie sind keine Fremdzwangapparate, die uns drohen. Sie sind aber mehr als das kritische Auge oder der strafende Blick der Mitmenschen, der uns dazu bewegt, die Normen unseres Zusammenlebens zu hinterfragen und so einen zivilisatorischen Effekt zu entfaltet. Sie sind auch Manifestationen unserer kollektiven Ängste. Doch bilden sie diese Ängste nicht einfach ab. Sie verstärken sie.

Quellen:

comments: Kommentare deaktiviert für „Überwachung“ und Selbstzwang tags: ,