Die Zukunft der deutschen Sprache (im digitalen Zeitalter)

Posted on 11th September 2014 in Digitale Revolution, Meta

Wenn man Texte über die Zukunft der deutschen Sprache liest, dann werden immmer wieder drei Tendenzen genannt:

  • wir werden in Zukunft noch mehr Wörter und Wendungen aus dem Englischen entlehnen
  • die Tendenz von synthetischen Formen zu analytischen Konstruktionen wird sich fortsetzen
  • (Multi-)Ethnolekte werden die Strukturen des Deutschen beeinflussen

So interessant und richtig diese Beobachtungen sein mögen, so scheint mir doch, dass die Zukunft der deutschen Sprache — und auch anderer Sprachen — am meisten davon beeinflusst wird, dass Computer einen immer größer werdenden Anteil an der Kommunikation haben. Aber nicht im trivialen Sinn, dass in der computervermittelten Kommunikation die Sprache verfällt. Computer sind vielmehr direkt oder indirekt immer tiefer in Transferprozesse im Medium der Sprache involviert. Und das hat Folgen in mindestens drei Bereichen:


1. Sprachliche Äußerungen werden nicht mehr nur von Menschen für Menschen produziert

Wenn Menschen früher geschrieben haben, dann haben sie das immer mit der Absicht und im Bewusstsein dessen getan, dass andere Menschen das Geschriebene lesen. Im digitalen vernetzten Zeitalter ist dies längst nicht mehr so. Viele Texte im Netz werden heute in dem Bewusstsein geschrieben, dass die Texte von Suchmaschinen durchsucht werden; und sie werden auf die Indexierungs- und Ranking-Algorithmen der Suchmaschinen hin optimiert. Die Adressaten bei suchmaschinenoptimierten Texten sind also nicht mehr nur die Menschen, sondern auch die Suchmaschine. Auf den Webseiten von „Textoptimierern“ liest sich das dann so: „Ob Blogbeitrag, Produktbeschreibungen, Artikel oder große Webprojekte zu den vielfältigsten Themen: NN ist der schnelle Weg für qualitativ hochwertigen Text-Content, der nicht nur Ihre User, sondern auch Suchmaschinen überzeugt.“ Und es gibt schon lange Texte, die ausschließlich für Suchmaschinen verfasst werden, viele Seiten in Webshops etwa werden nur für Google getextet. Hier ist es Usus, für jedes „Keyword“, also jedes Such-Lexem, das für den eigenen Geschäftsbereich relevant ist, und seine Kombinationen mit anderen Keywords eine eigenständige Landing Page mit „einzigartigem Content, der sich ausschließlich mit dem jeweiligen Keyword beschäftigt“ zu erstellen.

Parallel kommunizieren wir zunehmend natürlichsprachlich mit Computern und nicht mehr ausschließlich vermittelt über eigens für die Mensch-Maschine-Kommunikation entwickelte Sprachen, die wir mühsam erlernen müssen (vulgo: Programmiersprachen), oder von Sprache begleitet ikonische Systeme (vulgo: User Interfaces). Softwareunternehmen arbeiten vielmehr daran, dass wir unsere Anfragen und Befehle an Computer möglichst alltagssprachlich formulieren können, so dass wir den Eindruck bekommen, mit Computern wie mit Menschen interagieren zu können. Siri lässt grüßen.

Gleichzeitig produzieren Computer mehr und mehr auch natürlichsprachliche Texte: Sie verfassen Wikipedia-Artikel oder standardisierte Nachrichtentexte, formulieren Gutachten oder geben Antworten in Dialogsystemen. Und sie produzieren sogar natürlichsprachige Texte, die gar nicht für Menschen gemacht sind: Algorithmen der automatischen Textoptimierung schreiben menschliche Text so um, dass sie von Suchmaschinen höher gerankt werden, oder sie kompilieren die Texte gleich selbst aus natürlichsprachlichem Material. Computer schreiben für Computer.

Ob wir also Texte für Suchmaschinen optimieren, beim Schreiben von E-Mails oder im Chat bestimmte Schlagwörter vermeiden, um nicht in das Visier von Geheimdiensten oder Polizei zu geraten, oder einen Tweet mit einem Hashtag versehen: immer handeln wir im Bewusstsein dessen, dass Computer mitlesen, analysieren und ordnen, um Inhalte auffindbar zu machen. Aber Computer sind immer häufiger auch die Adressaten natürlichsprachiger Äußerungen und produzieren im Zuge dessen auch selbst natürlichsprachlich daherkommende Äußerungen und zwar für Menschen und Computer gleichermaßen. Vielleicht ist es noch nicht an der Zeit zu sagen, dass Sprache damit in letzter Konsequenz nicht mehr eine exklusive Eigenschaft der Spezies Mensch ist; denn Computer sind keine Spezies. Aber Computer haben einen wachsenden Einfluss, auch auf das soziale Konstrukt Sprache.


2. Die Mensch-Maschine-Kommunikation verlangt nach einer Standardisierung der Sprache

Immer dann, wenn Menschen direkt sprachlich mit Maschinen interagieren, sind sie gezwungen, ihre Sprache den Verarbeitungsmöglichkeiten des Computers anzupassen. Schon bei Speech-to-text-Anwendungen, wenn die Maschine nicht mehr ist als ein intelligentes Werkzeug, müssen sie deutlich sprechen oder zumindest auf die Art, wie sie die Maschine trainiert haben. Der adressatenspezifische Zuschnitt von Beiträgen zu einem Gespräch, das die Linguistik recipient design nennt, ist freilich nicht ungewöhnlich, er bedeutet aber beim jetzigen Stand der computerlinguistischen Möglichkeiten auch eine massive Reduktion der sprachlichen Möglichkeiten. Die Folge ist eine Standardisierung unseres Sprachverhaltens, eine Reduzierung der Variation und eine Vermeidung von Ambiguitäten, die zum Misslingen der Kommunikation führen könnten.

Die Chance, dass Computer unsere sprachlichen Äußerungen im von uns intendieren Sinn verarbeiten kann, steigen dramatisch, wenn unsere Äußerung geringe phonetische oder orthographische Variation aufweist, eine einfache, zuverlässig parsbare Syntax hat und wir Kernwortschatz oder terminologisierter Ausdrücke benutzen. Die computerinduzierte Standardisierung unserer Sprache führt also zu Vereinheitlichung, Vereinfachung und Logisierung.

Standardisierung freilich ist nichts, was erst mit dem Computer in die Sprache kam. In allen Sprachen formieren sich Sprachstandards und viele Sprachgemeinschaften haben sogar kodifizierte Standardsprachen ausgebildet. Diese Standardsprachen und ihre Beherrschung werden zweckrational (Verständigung optimieren), kulturelitär (differenzierte Literatursprache als kulturelle Errungenschaft) und gesellschaftspolitisch (Integration durch gemeinsame Sprache) begründet. Sprachvorbilder, die bei der Konstruktion der Standardnorm herangezogen wurden, waren historisch gesehen die Sprache der Schriftsteller, die Sprache der oberen Schichten in den kultiviertesten Regionen oder die Sprache der überregionalen Zeitungen. Die Digitalisierung macht hier einen Paradigmenwechsel möglich: Im Internet kann jeder Mensch sprachliche Spuren hinterlassen, die technisch auf die gleiche Weise zugänglich sind und mit dem gleichen Aufwand erfasst werden können wie die Texte überregionaler Zeitungen. Eine Standardnorm, die sich stärker am Sprachgebrauch aller Angehörigen einer Sprachgemeinschaft orientiert, ist denkbar. Doch just in diesem historischen Moment wird der Computer selbst zum Faktor der Standardisierung: Sprachnormen werden nicht mehr allein von Menschen auf der Basis menschlichen Handelns gemacht, die Kommunikation mit, für und von Computern führt vielmehr neue Begründungsmuster in den Sprachnormendiskurs ein. Standardsprache wird in Zukunft auch daran gemessen, wie gut sie maschinell verarbeitbar ist.


3. Vom Gewebe zur Struktur: Die Vertextung von Wissen tritt zurück hinter die Repräsentation von Wissen in der Form strukturierter Daten

Der Text ist die klassische Form der Wissensspeicherung, der Wissensvermittlung und der diskursiven Verhandlung von Wissen. Und das mit gutem Grund: in Texten kann Wissen begründet, hinterfragt und durch Verweise auf andere Texte mit Kontextwissen verknüpft werden. Texte sind kohärente, d.h. thematisch orientierte, Sprachhandlungen, die aus transphrastischen semantischen und syntaktischen Beziehungen, kulturellen Konventionen und Stilprinzipien ihre Einheit erhalten. Als Gewebe sind Texte nicht linear, auch wenn ihre graphische Repräsentation das suggeriert. Ihre Bestandteile sind komplex miteinander verknüpft und die Gesamtheit der Verknüpfungen lassen den Text überhaupt erst als solchen entstehen. Und Texte sind offen für Interpretationen, ihr Sinn liegt nicht fest, bestenfalls gibt es Auslegetraditionen.

Mit all diesen Dingen sind Computer überfordert. Im Textmining war ein Text lange eine bag of words, ein Sack voller Wörter. Die grundlegende Idee hinter diesem schon in den 1960er Jahren entwickelten Ansatz ist, dass sich die Bedeutung eines Textes mit Hilfe des Gewichts der im Dokument vorkommenden Terme operationalisieren ließe. Ein Text wird dann als Vektor repräsentiert, dessen Elemente die dokumentenspezifischen Werte jedes einzelnen Terms enthält. Auch wenn die Merkmalsvektoren komplexer geworden sind und mehr Eigenschaftsdimensionen natürlicher Sprachen abbilden, so sind Informatik und Computerlinguistik noch weit davon entfernt, den menschlichen Umgang mit Texten modellieren zu können.

Und solange dieses Defizit besteht, solange wird immer dann, wenn Wissen nicht nur für Menschen, sondern auch für Computer bereitgestellt werden soll, die Datenbank den Vorrang vor dem Text erhalten. Die Entstehung von Wikidata ist ein Symptom für diese Entwicklung. Die vermeintliche Eindeutigkeit der strukturierten Daten, der Versuch, die Komplexität der Welt in einem Datenmodell abzubilden, mag zwar einen Gewinn an Präzision und Eindeutigkeit mit sich bringen, die Computer für ihre Operationen benötigen; diese Eindeutigkeit ist aber per se eine Beschränkung der möglichen Bedeutungen von kulturellen Einheiten, Phänomenen, ja von Fakten und entspricht nicht der Art, wie bislang in unserer Gesellschaft mit Wissen umgegangen wird. Und die Kultur der strukturierten Daten, die maschinell verarbeitet, verknüpft, verbreitet und universell importiert werden können, ist offener für Manipulation und Missbrauch als die Textkultur.


Auch wenn an einzelnen Stellen Kritik anklingt, will ich die geschilderten Tendenzen nicht negativ beurteilen. Denn neben dem Verlust eines Alleinstellungsmerkmals unserer Spezies, an alleiniger Definitionsmacht der Menschen über Sprachnormen und dem Verlust des Primats von Texten gegenüber strukturierten Daten gewinnen wir durch die Digitalisierung der Sprache und ihre maschinelle Modellierung auch unendlich viele neue kommunikative Möglichkeiten. Und an Möglichkeiten, die digitalisierte Sprache zu hacken.



Für die Sächsische Zeitung hat Dominique Bielmeier mit mir über das Thema gesprochen.

Maschinelle Analyse narrativer Muster: Wie Männer und Frauen vom “Ersten Mal” erzählen

Posted on 5th September 2014 in Kollokationen, n-Gramme, Off Topic, Visualisierung

Ich hatte mein erstes Mal -> mein erstes Mal mit # -> nahm mich in den Arm -> fragte er mich ob ich -> wir bei ihm zu Hause -> seine Eltern nicht da waren -> kam er auf mich zu -> mich zu küssen und ich -> legten uns auf sein Bett -> fragte mich was los sei -> noch nie einen Freund gehabt -> zogen wir uns gegenseitig aus -> Wir küssten uns leidenschaftlich und -> Dann zog ich ihm seine -> Er schaute mich an und -> schaute mich an und fragte -> an und fragte ob ich -> mit ihm schlafen wolle und -> Er holte ein Kondom aus -> Dann drang er vorsichtig in -> er vorsichtig in mich ein -> Er fragte mich ob ich -> Als er merkte dass ich -> nahm mich in den Arm -> seit # Jahren zusammen und

Diese Phrasen bleiben von einer Geschichte vom „Ersten Mal“, wenn man von ihr das Vereinzelnde, Individualisierende wegnimmt und nur jene Teile der sprachlichen Gestaltung übrig lässt, die auch in anderen Geschichten zum gleichen Thema häufig vorkommen.

Wenn wir unseren Alltag erzählen, dann bedienen wir uns kulturell geprägter Muster. Diese Narrative sind sozial akzeptierte Interpretationsmuster, die unsere Wahrnehmung und Darstellung von Zusammenhängen überhaupt erst ermöglichen, aber gleichzeitig auch begrenzen. Obwohl sie höchst Persönliches und Individuelles zu codieren vorgeben, folgen auch Narrative vom „Ersten Mal“ kulturell geprägten Mustern, denen man sich mit maschinellen Methoden nähern kann. Zusammen mit Noah Bubenhofer und Nicole Müller habe ich 3376 Geschichten vom „Ersten Mal“ auf geschlechtsspezifische Unterschiede hin untersucht.

Sämtliche Geschichten wurden auf den Internet-Plattformen rockundliebe.de (2094 Erzählungen), Erstes-Mal.com (385 Erzählungen) und planet-liebe.de (897 Erzählungen) gesammelt. Die Webseiten wurden automatisiert heruntergeladen, die Texte extrahiert, mit Metainformationen (Alter beim Ersten Mal und Geschlecht) versehen, mit Hilfe des TreeTagger lemmatisiert und mit Part-of-speech-Informationen annotiert. Zusätzlich wurden alle Zahlen durch ein Raute-Symbol ersetzt. Insgesamt umfasst das Korpus 1.886.588 laufende Wortformen. Im Hinblick auf die Dimension Geschlecht ist das Korpus ungleich verteilt: rund 73% der Geschichten stammen von Frauen, nur rund 27% von Männern. Geschichten von Frauen waren mit durchschnittlich 567.9 Wörtern um rund 33 Wörter länger als die von Männern (534.5). Das Durchschnittsalter beim Ersten Mal, wie es von den Autorinnen und Autoren angegeben wurde, lag bei Frauen bei 15.8, bei Männern bei 16.8 Jahren.

Als Analysekategorien dienten uns die Distribution und Verkettung von n-Grammen. Die folgende Tabelle zeigt einen Vergleich der für das jeweilige Korpus typischsten n-Gramme:


Männer-Korpus Frauen-Korpus
llr n-gram f(1) f(2) llr n-gram f(1) f(2)
145,33 fragte sie mich ob ich 0 54 80,84 drang er in mich ein 134 0
88,81 fragte ich sie ob sie 0 33 77,82 ob ich mit ihm schlafen 129 0
75,36 drang ich in sie ein 0 28 68,97 fragte er mich ob ich 167 5
67,28 Ich fragte sie ob sie 0 25 60,93 in mich ein Es tat 101 0
64,59 drang langsam in sie ein 0 24 60,93 legte er sich auf mich 101 0
64,59 setzte sie sich auf mich 0 24 47,66 legte sich auf mich und 79 0
64,59 und zog es mir ueber 0 24 47,66 und drang in mich ein 79 0
61,9 setzte sich auf mich und 0 23 45,85 nahm mich in den Arm 76 0
59,21 sie sich auf mich und 0 22 44,64 und legte sich auf mich 74 0
56,52 ob ich mit ihr schlafen 0 21 44,04 fing er an mich zu 73 0
53,83 Sie fragte mich ob ich 0 20 43,43 er sich auf mich und 72 0
53,83 in sie ein Es war 0 20 42,83 in mich ein Es war 71 0
53,83 mir ein Kondom ueber und 0 20 41,81 Er fragte mich ob ich 123 6
53,83 und ich fragte sie ob 0 20 41,02 und zog es sich ueber 68 0
51,13 fluesterte sie mir ins Ohr 0 19 40,42 ihn in mir zu spueren 67 0
51,13 ich fragte sie ob sie 0 19 40,42 Er legte sich auf mich 67 0
48,44 an mir einen zu blasen 0 18 38 er fragte mich ob ich 63 0
48,44 ich drang in sie ein 0 18 38 mich ob ich mit ihm 63 0
48,44 legte sich auf den Ruecken 0 18 35,59 fragte mich ob ich es 59 0
48,44 mir das Kondom ueber und 0 18 34,38 Ich war mit meinem Freund 57 0


Aus diesen Listen wird unter anderem erkennbar, dass die verbale Handlung des Fragens, oder präziser: des Einholens von Einverständnis, offenbar häufig Bestandteil von Erstes-Mal-Erzählungen sind. Ebenso zeigen sich einige wenige geschlechtsspezifische Unterschiede: etwa die Referenz auf die Dauer der Beziehung („Ich war mit meinem Freund“).

Als eine erste Annäherung an die narrative Struktur haben wir die typischen Positionen von n-Grammen in den Texten bestimmt. Hierfür haben wir alle Texte in mehrere jeweils gleich große Teile geteilt und dann untersucht, in welchen Teilen der Erzählungen die n-Gramme mit welcher Frequenz vorkommen. Die folgenden Abbildungen zeigen die Distribution einiger n-Gramme, deren Positionierung im Text geschlechtsspezifische Unterschiede aufweist. Dies sind beispielsweise n-Gramme, die sexuelle Erfahrung und Beziehungsstatus betreffen:



Distribution von n-Grammen in den Geschichten von Männern und Frauen (normalisierte Werte)

Distribution von n-Grammen in den Geschichten von Männern und Frauen (normalisierte Werte)



Während das n-Gramm „für uns beide das erste“ von Frauen im ersten und vorletzten Abschnitt am häufigsten gebraucht wird, erwähnen Männer die Tatsache, dass es für beide das Erste Mal war, erst am Ende ihrer Erzählungen. Auch das n-Gramm „schon # Monate zusammen und“ wird von Frauen dominant in den ersten Teilen ihrer Geschichten verwendet, Männer hingegen benutzen es am Ende. Eine Kontextanalyse zeigt allerdings, dass bei Verwendung des n-Gramms am Ende einer Erzählung der Geschlechtsakt der Auftakt der Beziehung war, die ihre Fortsetzung bis in die Gegenwart zum Zeitpunkt des Schreibens hat; die Verwendung des n-Gramms zu Beginn einer Erzählung stellt die Dauer der bereits bestehenden Beziehungen dar.

Größere Differenzen in der Distribution zeigen sich auch bei n-Grammen, die auf Schlüsselhandlungen im Kerngeschehen verweisen.



Distribution von n-Grammen in den Geschichten von Männern und Frauen (normalisierte Werte).

Distribution von n-Grammen in den Geschichten von Männern und Frauen (normalisierte Werte).



So sind die n-Gramme „uns in die Augen und“ und „gab mir einen Kuss und“ je gegensätzlich verteilt. Während in den Erzählungen der Frauen der Kuss am Anfang jener Abschnitte zu finden ist, die sich mit sexuellen Handlungen befassen, berichten Männer hier vorwiegend von Blicken in die Augen; Männer berichten, am Ende der sexuellen Aktivitätsphase geküsst zu werden, Frauen erzählen hier dagegen vom Austausch von Blicken. Dies könnte man so deuten, dass für Frauen mit dem Vollzug des Geschlechtsaktes eine Intensivierung der Beziehung einhergeht, die für den Mann durch die Gabe des Einverständnisses zum Geschlechtsakt durch den tiefen Blick bereits erreicht ist und sich dann im Akt manifestiert. Ein weiterer Aspekt könnte sein, dass Männer narratologisch versichern wollen, dass Einverständnis vorgelegen hat, Frauen dagegen, dass zwischen den Partner emotionale Nähe herrschte. Dies könnte ein Hinweis darauf sein, dass sich aufgrund kultureller Stereotype geschlechtsspezifische Ängste mit dem „Ersten Mal“ verbinden. In diesen Kontext passen auch die Positionsdifferenzen des n-Gramms „küssten uns die ganze Zeit“. Während das fortwährende Küssen in den Erzählungen der Männer Teil von „Vor-“ bzw. „Nachspiel“ zu sein scheint, schildern Frauen ihr Erstes Mal so, dass das Küssen Bestandteil aller Phasen des Kerngeschehens sein kann.

Unser Verfahren zur Rekonstruktion narrativer Muster auf der Makroebene kombiniert typische Musterpositionen mit n-Gramm-Verkettungen (d.h. kookkurierenden n-Grammen) und visualisiert sie als hierarchischen Graphen. Der folgende Graph (hier als PDF zum Vergrößern), der Tetragrammverkettungen in den Geschichten von Frauen illustriert, bildet die Abfolge von Mustern in der vertikalen Dimension (von oben nach unten) ab. Mehrere voneinander unabhängige narrative Muster im gleichen Abschnitt, das heißt an ähnlichen Erzählpositionen, werden nebeneinander dargestellt. In diesem Graphen sind Bereiche von geringer phraseologischer Durchdringung und Verdichtungsbereiche sichtbar.



Narrationsgraph für die Erzählungen von Frauen

Narrationsgraph für die Erzählungen von Frauen



Muster in 1 referieren auf das Alter der Hauptpersonen der Erzählung:

Mein erstes Mal hatte – ich mit meinem Freund – hatte ich mit # – erstes Mal mit # – Bei meinem ersten Mal – ersten Mal war ich – Freund und ich waren – Ich war damals # – Ich war # und – # und er war – älter als ich und – ist # Jahre älter

Muster in 2 referieren auf die Dauer der Beziehung:

# Monate mit meinem – Monate mit meinem Freund – # Wochen mit meinem – mit mei-nem Freund zusammen – # Monate mit ihm – Monate mit ihm zusammen

Muster in 3 referieren auf die Frage des Mannes nach dem Einverständnis:

schaute mir tief in die – schaute mir lange in die – in die Augen und – fragte mich ob ich – Er fragte mich ob – mit ihm schlafen – ich es wirklich will – ich es wirklich wollte

Muster in 4 referieren auf das sexuelle Geschehen, in dem vor allem der Mann aktiv ist:

Er holte ein Kondom – Kondom aus seiner Hosentasche – aus seiner Tasche – Kondom aus seinem Nachttisch – holte ein Kondom raus – und streifte es sich – zog es sich über – sich über und drang – ganz vorsichtig in mich – langsam und vorsichtig in – langsam in mich ein – drang in mich ein – in mich ein Es – Es tat überhaupt nicht – tat überhaupt nicht weh

Muster in 5 referieren auf den gegenwärtigen Beziehungsstatus:

Und wir sind immer – immer noch zusammen und – immer noch mit ihm – noch mit ihm zusammen – Schatz ich liebe dich – liebe dich über alles

Die Umrisse der typischen Erzählung vom Ersten Mal aus der Sicht von Frauen werden anhand dieses Verfahrens gut sichtbar. Alternative Erzählstränge, die sich teilweise paral-lel zu den grau hinterlegten Teilen befinden, beziehen sich auf die Aspekte Schmerz („erst tat es ein“, „ein bisschen weh aber“, „dann war es einfach“, „es einfach nur noch“), praktische Unerfahrenheit („versuchte in mich einzudringen“) und die Evaluation („Es war ein wunderschönes“, „Es war ein unbeschreibliches“, „war ein unbeschreibliches Gefühl“, „Ich hätte nie gedacht“).

Aus dem folgenden Narrationsgraph (hier als PDF zum Vergrößern), der die Muster aus männlicher Perspektive verfasster Geschichten visualisiert, will ich nur zwei Auffälligkeiten aufgreifen.



Narrationsgraph der Geschichten von Männern

Narrationsgraph für die Erzählungen von Männern



Zum einen sind dies jene sprachlichen Muster im mit 1 bezeichneten Bereich, die auf die Einholung des Einverständnisses zum Geschlechtsakt verweisen. Hier ist es so, dass die Frage von männlicher wie weiblicher Seite kommen kann („fragte sie mich ob“, „ich fragte sie ob“). Zum anderen findet sich im mit 2 bezeichneten Bereich (siehe die nächste Abbildung) eine auffällige Verbindung mehrerer n-Gramme mit der Mehrworteinheit „Sie meinte ich solle“.



Ausschnitt aus dem Narrationsgraphen der Männer

Ausschnitt aus dem Narrationsgraphen der Männer



Die Analysen zeigen, dass Geschichten vom Ersten Mal von Männern und Frauen recht ähnlich erzählt werden und zwar nicht nur im Hinblick auf das sexuelle Geschehen, sondern auch im Hinblick auf die verbalen Handlungen, die ihm vorausgehen und es begleiten. Zentraler Bestandteil typischer Erzählungen beider Geschlechter ist die verbale Verständigung über die Bereitschaft zum Geschlechtsakt und die explizite Gabe des Einverständnisses durch die Frau. Das von der Paarsoziologie als Schwellen-Wendepunkt bezeichnete Erste Mal wird also als eine durch Einverständnis der Frau legitimierte Handlungsfolge erzählt, in der der Mann mehr Handlungsmacht hat als die Frau.

Die Ergebnisse der Analyse haben wir in folgendem Artikel zusammengefasst, den es auch als Preprint gibt:

Bubenhofer, Noah / Nicole Müller / Joachim Scharloth (2014): Narrative Muster und Diskursanalyse: Ein datengeleiteter Ansatz. In: Zeitschrift für Semiotik. Band 35, Heft 3-4 (2013), S. 419-444.


comments: Kommentare deaktiviert für Maschinelle Analyse narrativer Muster: Wie Männer und Frauen vom “Ersten Mal” erzählen tags: , , , , , , , , , , ,

DIE ZEIT über Kulturwissenschaften im Data-driven Turn

Posted on 22nd August 2014 in Datengeleitete Analysen, Digitale Revolution

Stefanie Schramm hat für DIE ZEIT (N° 35/2014, S. 27) einen großen Artikel über David Eugsters, Noah Bubenhofers und meine Analyse ihres Printarchivs geschrieben.



Kollokationsgraph von ZEIT-Artikeln, die den Tugendframe enthalten

Kollokationsgraph von ZEIT-Artikeln, die den Tugendframe enthalten



Die Studie „Kulturwissenschaften im Data-driven Turn“, die ich schonmal hier im Blog vorgestellt hatte, ist in folgendem Sammelband erschienen:

Scharloth, Joachim/Eugster, David/Bubenhofer, Noah (2013): Das Wuchern der Rhizome. Linguistische Diskursanalyse und Data-driven Turn. In: Busse, Dietrich/Teubert, Wolfgang (Hrsg.): Linguistische Diskursanalyse. Neue Perspektiven. Wiesbaden: Springer VS. S. 345-380.

Das Preprint zum Aufsatz ist hier einsehbar.


comments: Kommentare deaktiviert für DIE ZEIT über Kulturwissenschaften im Data-driven Turn tags: , ,

Franz Josef Wagner liebt, hasst, ist froh, hat Angst, weiß, weiß aber vor allem nicht und schämt sich

Posted on 10th Juni 2014 in n-Gramme, Off Topic

Franz Josef Wagner hat mit seinen Briefen ein eigenes Genre geschaffen. Nun hat er seinen Vertrag als Kolumnist verlängert. Zeit, ihn mit einem korpuslinguistischen Porträt zu würdigen. Denn während seine Leserinnen und Leser vor allem Vergnügen bei der Lektüre seiner Texte empfinden, wenn sie sich in der Lage sehen, diese als Satire aufzufassen, entfaltet Wagner in seinen Briefen einen außerordentlich facettenreichen Gefühlshaushalt, der in rekkurrenten sprachlichen Mustern greifbar wird.

Im Folgenden daher eine Zusammenstellung von Ich-Botschaften des Meister-Kolumnisten, die ausgehend von frequenten Emotionsausdrücken (Ich liebe, Ich hasse, Ich habe Angst, …) typische Verästelungen der Seele als Äste und Blattwerk eines n-Gramm-Baumes nachzeichnen. Und dies auf der Basis von mehr als 1300 Briefen.


Wagner liebt

74 mal beginnt Wagner seine Sätze mit den Worten „Ich liebe“. Wagner liebt außerordentliche Persönlichkeiten: „Ich liebe meine Kanzlerin“ und „Ich liebe Schäuble im Rollstuhl“, hat aber auch ein Herz für Normalsterbliche „Ich liebe Basis-Menschen“. Und Wagner liebt die alltäglichen Dinge, darunter „mein Auto“, „mein Kino“, „mein Kätzchen“, „mein Land“, „meinen Buchladen“.

wagner_liebt_ausschnitt

Den gesamten Graph als PDF oder als SVG


Eine erotische Komponente scheint bei „Ich liebe Frauen“ (4x) auf, wenn Wagner gesteht „Ich liebe himmlisch riechende Frauen“ und „Ich liebe nackte Beine“. Seine Verbundenheit mit den elemantaren Dingen des Lebens drückt sich auch in einer tiefen Zuneigung zu den folgenden Gegenständen aus: „Ich liebe die Sonne“, „Ich liebe den Sommer“, „Ich liebe den Winter“, „Ich liebe Berlin“.


Wagner hasst

Doch wo viel Liebe ist, dort ist auch Hass. 35 mal beginnt er Sätze mit „Ich hasse“.

wagner_hasst_ausschnitt

Den gesamten Graph als PDF oder als SVG


Wenn Franz Josef Wagner hasst, dann sind es das Wetter (Schnee, Frühfrost, Nebel, Winter, Affenhitze), Leute, die was zu sagen haben (Schiedsrichter, Hitler), bestimmte Erscheinungen der deutschen Sprache (gebrochenes Deutsch, Krüppel-Sprache, Sprache der Klugscheißer, Mobilfunk-Sprache), Dinge im Fernsehen (ARD-Reportagen, TV-Doktoren, Werbeunterbrechungen) und Dinge, die uns vermeintlich unabänderlich erscheinen (Arterien, die Farbe Weiß, Werbeunterbrechungen, Hochmut der Deutschen, das Rauchen), die ihn erzürnen.


Wagner ist froh

Wenn Franz Josef Wagner froh ist, dann darüber, dass er Franz Josef Wagner und am Leben ist. Daneben freut er sich über Olympiaden, Mauerfälle und wenn mal wieder jemand zurückgetreten ist.

ich_bin_froh_ausschnitt

Den gesamten Graph als PDF oder als SVG


Wagner weiß, weiß aber vor allem nicht

130 mal sagt Wagner „Ich weiß“! Das ist mal ein verständnisvolles „Ich weiß, dass Sie leiden“, mal ein von Einsicht für das Unverständnis seiner Mitmenschen getragenes „Ich weiß , dass mein Prügelimpuls Befremden auslöst“. In 105 Fällen freilich gesteht Wagner sein Nichtwissen ein.

wagner_weiss_ausschnitt

Den gesamten Graph als PDF oder als SVG


Neun mal konstatiert er souverän „Ich weiß es nicht.“, vier mal ist sein Wissen dem Vergessen anheim gefallen („Ich weiß nicht mehr“). Darüber hinaus räumt er (in der Reihenfolge ihrer Frequenz) ehrlich ein „Ich weiß nicht, wie“ (34x), „Ich weiß nicht, ob“ (16x), „Ich weiß nicht, was“ (14x), „Ich weiß nicht, wer“ (6x), „Ich weiß nicht, warum“ (6x). Dabei hat das Unwissen durchaus universalen Charakter in seiner Kolumne:

niemand_weiss_ausschnitt

Den gesamten Graph als PDF oder als SVG


Wenn Wagner konstatiert „Niemand weiß, wann und warum“, „Niemand weiß, wer Sie wirklich sind.“, „Niemand weiß, was sie denken.“, „Niemand weiß, wer er ist.“ oder „Niemand weiß, was uns droht.“, dann wird das Unwissen als tragischer Zustand alles Seienden sichtbar.



Wagner hat Angst

Wer so wenig weiß, hat Angst. Selten hat er „Angst um“ seine Adressaten oder „um Jogis Jungs“, obwohl diese durchaus angebracht wäre.

wagner_hat_angst_ausschnitt

Den gesamten Graph als PDF oder als SVG


Wagner hat vielmehr Angst davor, Rentner oder ein Pflegefall in Deutschland zu werden, vor Krebs, vor den letzten Tagen. Aber auch vor Kim Jong-un und einem Wachs-Hitler (und bemerkenswerte Koinzidenz: Angst auf der Autobahn). Und schließlich hat er Angst nachts in Berlin, Angst vor Berlin und Angst, nachts durch Berlin zu gehen.


Wagner schämt sich

Häufig kann Wagner auch umhin, sich für die Untaten seiner Adressaten oder für uns alle zu schämen.

ich_schaeme_mich_ausschnitt

Den gesamten Graph als PDF oder als SVG


Doch was wäre das Psychogramm des Kolumnisten ohne sein Bewusstsein, von Zeit zu Zeit selbst soziale Erwartungen enttäuschen zu müssen, das sich im Gefühl der Scham äußert. Etwa wenn er schreibt: „Ich schäme mich für mein Talent“. Der Meister leidet an seinem Talent und der empfindsame Leser ist in diesem Gefühl ganz bei ihm.


Deutschlandradio Kultur: Pre-Policing – Zukunft der Forensik

mobilfunk

Lydia Heller hat im Deutschlandradio Kultur ein sehr hörenswertes Feature zum Thema Präventive Polizeiarbeit gemacht, zu dem ich ein Plädoyer für eine digitale Forschungsethik beisteuern durfte.


comments: Kommentare deaktiviert für Deutschlandradio Kultur: Pre-Policing – Zukunft der Forensik tags: , , , ,

Die Geheimdienste lesen unsere E-Mails nicht! — Sie wissen aber trotzdem, was drin steht.

In Janoschs Kinderbuch „Post für den Tiger“ gründet der Hase mit den schnellen Schuhen einen Briefzustellservice und stellt die anderen Hasen aus dem Wald als Briefträger ein. In einer kurzen Ansprache macht er sie mit ihren Pflichten vertraut: „Ihr müsst […] schnell und schweigsam sein. Dürft die Briefe nicht lesen und das, was darin steht, niemandem erzählen. Alles klar?“ Und die Hasen mit den schnellen Schuhen antworteten „Alles klar!“ und alles war klar.

Der Hintersinn, mit dem Janosch seinen Hasen das Lesen der Briefe verbieten und im gleichen Atemzug betonen lässt, dass man deren Inhalt aber keinesfalls weitererzählen dürfe, ist der Chuzpe vergleichbar, mit der uns Geheimdienste und E-Mail-Provider wie Google oder Yahoo erklären, dass sie unsere Mails nicht lesen. Dabei haben sie nicht mal unrecht: Sie lesen unsere E-Mails ja wirklich nicht. Sie scannen und filtern und analysieren sie nur!


Nur Fliegen ist schöner…

Mit dem Flugzeug zu reisen hat bei allen Vorzügen einen entscheidenden Nachteil: Keine andere Form des Reisens normiert die Passagiere so weitreichend wie eine Flugreise. Sie erlaubt den Reisenden nur eine bestimmte Menge Gepäck in vorgeschriebener Form, weist ihnen einen engen Raum zu, den sie auch nur zu ganz bestimmten Zwecken verlassen dürfen, zwingt auf visuelle Signale hin zum Anschnallen, zwingt zum Ausschalten von Geräten und — indem das Entertainment-Programm unterbrochen wird — zum Zuhören bei allen Ansagen. Und keine andere Form des Reisens kennt derlei Sanktionen, wenn man sich der Normierung widersetzt: abhängig vom Land können einem Raucher auf der Bordtoilette Strafen vom Bußgeld bis zur merhmonatigen Gefängnisstrafe blühen. Die Annehmlichkeit der schnellen Überbrückung von Entfernungen zu einem noch erträglichen Preis wird also durch die Akzeptanz einer weitgehenden Normierung erkauft.



Vorrichtung zur erkennungsdienstlichen Behandlung, Gedenkstätte Bautzner Straße Dresden

Vorrichtung zur erkennungsdienstlichen Behandlung, Gedenkstätte Bautzner Straße Dresden

Doch damit Passagiere eine Flugreise überhaupt antreten dürfen, müssen sie teilweise als erniedrigend empfundene Kontrollen über sich ergehen lassen. Kontrollen gibt es auf ganz unterschiedlichen Eskalationsstufen.

Unterscheiden kann man erst einmal zwischen solchen, die man selbst mitbekommt, und solchen, die im Hintergrund ablaufen. Ein Beispiel für eine Kontrolle, die meist gar nicht in unser Bewusstsein vordingt, ist das Durchleuchten der Koffer.

Man kann Kontrollen weiterhin danach unterscheiden, ob sie rein maschinell durchgeführt, mit Hilfe von Maschinen, die von Menschen überwacht werden, oder von Menschen selbst. Muss ich durch einen Metalldetektor gehen oder an einer Kamera vorbei, die zur Prävention einer Vogelgrippe-Pandemie bei der Einreise meine Temperatur misst, dann empfinde ich das als weniger unangenehem, als wenn jemand hinter dem Bildschirm eines Gerätes sitzt, der ein Röntgenbild vom Inhalt meines Handgepäcks zeigt. Gänzlich unangenehm empfinde ich es, wenn mein Handgepäck vom Sicherheitspersonal geöffnet und durchwühlt wird.

Weiter kann man Kontrollen danach unterscheiden, ob jeder davon betroffen ist oder nur Auserwählte. Als ich noch mit Rucksack reiste, schnupperten am Gepäckband bei der Ankunft häufiger Drogenhunde an meinem Gepäck, geführt von Polizisten, die wie zufällig in meiner Nähe herumstanden. Und wer kennt es nicht, in eine als „Kabine“ bezeichnete Trennwandbucht gewunken und abgetastet zu werden?

Je näher die Kontrollen an meinen Körper heranrücken, je personenbezogener sie werden, als desto unangenehmer empfinde ich sie. Die maschinelle, körperferne Kontrolle außerhalb meines Gesichtsfeldes, von der alle Passagiere gleichermaßen betroffen sind, finde ich hingegen am wenigsten störend. Und so effizient und distanziert wie das automatische Durchleuchten unserer Koffer so diskret und rücksichtsvoll scannen die Geheimdienste unsere E-Mails.


Von Gepäckkontrollen und Mail-Filtern

Die Geheimdienste lesen nicht unsere E-Mails. Sie lesen sie nicht in dem Sinn, wie unser Gepäck am Flughafen nicht durchsucht, sondern nur durchleuchtet wird.

Die Geheimdienste lesen unsere E-Mails auch nicht massenhaft. Sie lesen sie so wenig massenhaft, wie am Flughafen jeder in eine separate Kabine gewunken und abgetastet wird, sondern nur ausgesuchte Passagiere.

Die Geheimdienste lesen unsere E-Mails auch nicht, um Verdächtige zu identifizieren. Ganz so wie im Flughafen nur jener in die Kabine muss, bei dem die Metalldetektoren anschlagen, so filtern die Geheimdienste unsere E-Mails automatisch, und das sogar in einem mehrstufigen Verfahren. Und Filtern ist nicht Lesen. Und mal ehrlich: wer hat schon was dagegen, wenn E-Mails gefiltert werden? Wer nicht seinen eigenen Mailserver betreibt, dessen E-Mails durchlaufen automatisch Filter, Spamfilter. Und keiner würde behaupten, dass seine E-Mails vom Spamfilter „gelesen“ werden.

Nein! Die Geheimdienste lesen unsere E-Mails nicht. Sie lesen sie höchsten ausnahmsweise, wenn sie beim Abtasten auf etwas Auffälliges stoßen, wenn der Metalldetektor Alarm schlägt, die Drogenhunde anschlagen oder der Sprengstofftest positiv ausfällt.


Lesen ist etwas ganz anderes

Lesen, im engeren Sinn, ist nämlich etwas ganz anderes als das, was etwa der BND bei der strategischen Überwachung des Fernmeldeverkehrs macht. Lesen ist eine aktive Konstruktion von Textsinn, eine Interaktion von Texteigenschaften und Leser. Der Textsinn ist ein kommunikatives Phänomen, das aus einer Leser-Text-Interaktion resultiert. Und weil jeder Leser und jede Leserin anders ist, sich mit anderem Vorwissen und anderer Motivation ans Lesen macht, kann der Textsinn bei jeder Lektüre ein anderer sein. Von einem Computer erwarten wir allerdings, dass er bei gleichem Algorithmus bei jeder Textanalyse immer zum gleichen Ergebnis kommt. Was der Computer macht, ist also kein Lesen, zumindest nicht im emphatischen Sinn.


Aufklären, Scannen und Filtern

Was die Geheimdienste tun, das trägt den Namen „Aufklärung“, präziser „strategische Fernmeldeaufklärung“. COMINT, Communications Intelligence, so der englische Name, ist ein Teilbereich der Signals Intelligence (SIGINT) und dient dem Erfassen und Auswerten verbaler und nonverbaler Kommunikation die über Radiowellen oder Kabel übertragen wird. Typische Funktionen innerhalb der Fernmeldeaufklärung sind Scanning (liegt ein Signal im Sinne einer groben Metrik vor?), automatische Analyse (enthält das Signal relevante Informationen?), Aufzeichnung und strukturierte Speicherung und Aggregierung.

„Scannen“ hat neben der engen COMINT-Bedeutung im Englischen zwei weitere Verwendungsweisen. Einerseits bedeutet es die genaue Inaugenscheinnahme mit dem Ziel der Entdeckung einer Eigenschaft („look at all parts of (something) carefully in order to detect some feature“), andererseits ein oberflächliches Durchschauen eines Dokuments, um eine bestimmte Information daraus zu extrahieren („look quickly but not very thoroughly through (a document or other text) in order to identify relevant information“, New Oxford American Dictionary). In beiden Fällen bedeutet aber „Scannen“ jedoch etwas anderes als „Lesen“. Während Lesen in seiner emphatischen Bedeutung nämlich auf die Rekonstruktion eines ganzheitlichen Textsinns zielt, sucht man beim Scannen nur nach einer bestimmten Information oder einem bestimmten Merkmal, ohne den Anspruch zu haben, dem Textganzen gerecht zu werden.

Eine im Kontext der Überwachungsapologetik gerne gewählte Metapher ist auch die des Filterns. Filtern bedeutet, Stoffe, Flüssigkeiten, Signale o.Ä. durch ein durchlässiges Medium zu leiten, das jedoch bestimmte Anteile zurückhält. Und so heißt es in der „Unterrichtung durch das Parlamentarische Kontrollgremium“ über die Durchführung sowie Art und Umfang der Maßnahmen nach dem G 10-Gesetz für den Zeitraum vom 1. Januar bis 31. Dezember 2011:

„Der Aufklärung unterliegt […] lediglich ein eingeschränkter Teil internationaler Verkehre, der automatisiert stark gefiltert wird. Nur ein geringer Anteil dieser E-Mails wird überhaupt manuell bearbeitet. […] Der deutliche Rückgang im Jahre 2011 ist auch darauf zurückzuführen, dass der BND das von ihm angewandte automatisierte Selektionsverfahren auch vor dem Hintergrund der Spamwelle im Jahre 2010 zwischenzeitlich optimiert hat.“

Automatisierte Selektion ist völlig harmlos, das impliziert der Bericht des Kontrollgremiums, manuelle Bearbeitung hingegen erwähnenswert. Es ist wie mit den Kontrollen am Flughafen.


Wann beginnt der Eingriff in Grundrechte?

Was zwischen Netzaktivisten und Sicherheitspolitikern offenbar umstritten ist, ist also die Frage, ab wann denn von einem Grundrechteeingriff gesprochen werden kann: beim Scannen, bei der Aufzeichnung, bei der automatischen Analyse oder erst bei der personenbezogenen Auswertung („manuelle Bearbeitung“)?



Zellenspion, Gedenkstätte Bautzner Straße Dresden

Zellenspion, Gedenkstätte Bautzner Straße Dresden

Mit dieser Frage hat sich das Bundesverfassungsgericht in seinem Urteil vom 14.7.1999 beschäftigt, das 2001 zur bis heute geltenden Neuregelung des G 10-Gesetzes, des Gesetzes zur Beschränkung des Brief-, Post- und Fernmeldegeheimnisses, geführt hat.

Darin zeigt sich das Bundesverfassungsgericht durchaus sensibilisiert für die Folgen des automatisierten Beobachtens des Datenverkehrs:

„Die Nachteile, die objektiv zu erwarten sind oder befürchtet werden müssen, können schon mit der Kenntnisnahme eintreten. Die Befürchtung einer Überwachung mit der Gefahr einer Aufzeichnung, späteren Auswertung, etwaigen Übermittlung und weiteren Verwendung durch andere Behörden kann schon im Vorfeld zu einer Befangenheit in der Kommunikation, zu Kommunikationsstörungen und zu Verhaltensanpassungen, hier insbesondere zur Vermeidung bestimmter Gesprächsinhalte oder Termini, führen. Dabei ist nicht nur die individuelle Beeinträchtigung einer Vielzahl einzelner Grundrechtsträger zu berücksichtigen. Vielmehr betrifft die heimliche Überwachung des Fernmeldeverkehrs auch die Kommunikation der Gesellschaft insgesamt. Deshalb hat das Bundesverfassungsgericht dem – insofern vergleichbaren – Recht auf informationelle Selbstbestimmung auch einen über das Individualinteresse hinausgehenden Gemeinwohlbezug zuerkannt (vgl. BVerfGE 65, 1 ).“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 234)

Und die Richter stellen klar, dass der Eingriff in Grundrechte nicht erst bei der manuellen Auswertung beginnt sondern schon beim Erfassen:

„Da Art. 10 Abs. 1 GG die Vertraulichkeit der Kommunikation schützen will, ist jede Kenntnisnahme, Aufzeichnung und Verwertung von Kommunikationsdaten durch den Staat Grundrechtseingriff (vgl. BVerfGE 85, 386 ). Für die Kenntnisnahme von erfaßten Fernmeldevorgängen durch Mitarbeiter des Bundesnachrichtendienstes steht folglich die Eingriffsqualität außer Frage. […] Eingriff ist daher schon die Erfassung selbst, insofern sie die Kommunikation für den Bundesnachrichtendienst verfügbar macht und die Basis des nachfolgenden Abgleichs mit den Suchbegriffen bildet. […] Der Eingriff setzt sich mit der Speicherung der erfaßten Daten fort, durch die das Material aufbewahrt und für den Abgleich mit den Suchbegriffen bereitgehalten wird. Dem Abgleich selbst kommt als Akt der Auswahl für die weitere Auswertung Eingriffscharakter zu. Das gilt unabhängig davon, ob er maschinell vor sich geht oder durch Mitarbeiter des Bundesnachrichtendienstes erfolgt, die zu diesem Zweck den Kommunikationsinhalt zur Kenntnis nehmen. Die weitere Speicherung nach Erfassung und Abgleich ist als Aufbewahrung der Daten zum Zweck der Auswertung gleichfalls Eingriff in Art. 10 GG.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 186ff)


Und wann ist dieser Eingriff gerechtfertigt?

Gleichzeitig aber sieht das Bundesverfassungsgericht die von Außen drohenden Gefahren als wesentlichen Grund, der geeignet ist, Grundrechtseinschränkungen zu gestatten:

„Auf der anderen Seite fällt ins Gewicht, daß die Grundrechtsbeschränkungen dem Schutz hochrangiger Gemeinschaftsgüter dienen. […] Die Gefahren, die ihre Quelle durchweg im Ausland haben und mit Hilfe der Befugnisse erkannt werden sollen, sind von hohem Gewicht. Das gilt unverändert für die Gefahr eines bewaffneten Angriffs, aber auch, wie vom Bundesnachrichtendienst hinreichend geschildert, für Proliferation und Rüstungshandel oder für den internationalen Terrorismus. Ebenso hat das hinter der Aufgabe der Auslandsaufklärung stehende Ziel, der Bundesregierung Informationen zu liefern, die von außen- und sicherheitspolitischem Interesse für die Bundesrepublik Deutschland sind, erhebliche Bedeutung für deren außenpolitische Handlungsfähigkeit und außenpolitisches Ansehen.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 235, 238)

In seiner Abwägung kommt das Bundesverfassungsgericht zu dem Ergebnis, dass die verdachtslose Überwachung des Fernmeldeverkehrs im und mit dem Ausland durch den Bundesnachrichtendienst und damit der vorher formulierte Eingriff in die Grundrechte der Bundesbürger gerechtfertigt ist:

„Die unterschiedlichen Zwecke rechtfertigen es aber, daß die Eingriffsvoraussetzungen im G 10 anders bestimmt werden als im Polizei- oder Strafprozeßrecht. Als Zweck der Überwachung durch den Bundesnachrichtendienst kommt wegen der Gesetzgebungskompetenz des Bundes aus Art. 73 Nr. 1 GG nur die Auslandsaufklärung im Hinblick auf bestimmte außen- und sicherheitspolitisch relevante Gefahrenlagen in Betracht. Diese zeichnet sich dadurch aus, daß es um die äußere Sicherheit der Bundesrepublik geht, vom Ausland her entstehende Gefahrenlagen und nicht vornehmlich personenbezogene Gefahren- und Verdachtssituationen ihren Gegenstand ausmachen und entsprechende Erkenntnisse anderweitig nur begrenzt zu erlangen sind. Der Bundesnachrichtendienst hat dabei allein die Aufgabe, zur Gewinnung von Erkenntnissen über das Ausland, die von außen- und sicherheitspolitischer Bedeutung für die Bundesrepublik Deutschland sind, die erforderlichen Informationen zu sammeln, auszuwerten und der Bundesregierung über die Berichtspflicht Informations- und Entscheidungshilfen zu liefern.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 241)

Eine Rolle bei der Abwägung hat offenbar auch gespielt, dass die Anzahl der überwachten Telekommunikationsbeziehungen verglichen mit der Gesamtzahl aller oder auch nur der internationalen Fernmeldekontakte aber vergleichsweise niedrig war. E-Mails waren damals beispielsweise noch gar nicht von der Überwachung betroffen. Darüberhinaus wertete das Bundesverfassungsgericht auch das Verbot zur gezielten Überwachung einzelner Anschlüsse, das im G 10-Gesetz verfügt wird, und die Tatsache, dass eine Auswertung und Weitergabe der Informationen nur in wenigen Fällen erfolge, als weitere wichtige Gründe für die Vereinbarkeit des G 10-Gesetzes mit dem Grundgesetz:

„Auch wenn die freie Kommunikation, die Art. 10 GG sichern will, bereits durch die Erfassung und Aufzeichnung von Fernmeldevorgängen gestört sein kann, erhält diese Gefahr ihr volles Gewicht doch erst durch die nachfolgende Auswertung und vor allem die Weitergabe der Erkenntnisse. Insoweit kann ihr aber auf der Ebene der Auswertungs- und Übermittlungsbefugnisse ausreichend begegnet werden.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 243)

Erfassung und Aufzeichnung bedrohen also schon die freie Kommunikation, Auswertung und Weitergabe aber, so sahen es die Verfassungsrichter, sind weitaus schlimmer. Es ist wie mit den Sicherheitskontrollen am Flughafen: je stärker sie die Objekte der Überwachung vereinzeln, je weniger sie maschinell sondern durch Personen erfolgen, desto unangenehmer sind sie.


Vom Filtern und Auswerten: Formale und inhaltliche Suchbegriffe

Die entscheidende Frage ist also: Ab wann liegt eine Auswertung vor, wann werden aus Signalen Informationen? Beschwerdeführer wie Verfassungsrichter waren sich gleichermaßen einig darin, dass eine Auswertung bei einem „computergestützten Wortbankabgleich“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 56), beim Filtern also, noch nicht vorliege. Das BVerfG-Urteil fiel freilich in eine Zeit des Umbruchs.



Innenhof der Gedenkstätte Bautzner Straße Dresden

Innenhof der Gedenkstätte Bautzner Straße Dresden

Das G10-Gesetz stammt aus dem Jahr 1968 und damit aus einer Zeit, in der Daten zwar großflächig erhoben werden konnten, ohne dass es jedoch technisch möglich war, die Kommunikationsdaten einzelnen Kommunikationspartnern zuzuordnen und die Inhalte massenhaft automatisiert zu filtern. Dies hatte sich Ende der 1990er Jahre freilich schon geändert. Das Bundesverfassungsgericht wusste schon damals um die Aussagekraft der Verbindungsdaten:

„Ferner führt die Neuregelung zu einer Ausweitung in personeller Hinsicht. Zwar ist die gezielte Erfassung bestimmter Telekommunikationsanschlüsse gemäß § 3 Abs. 2 Satz 2 G 10 ausgeschlossen. […] Faktisch weitet sich der Personenbezug dadurch aus, daß es im Gegensatz zu früher heute technisch grundsätzlich möglich ist, die an einem Fernmeldekontakt beteiligten Anschlüsse zu identifizieren. (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 9)

Zudem wurde die Anwendung von G 10-Maßnahmen bei der Novelle auf weitere Delikte ausgeweitet: neben Gefahren eines bewaffneten Angriffs traten die Proliferation und der illegale Rüstungshandel, der internationale Terrorismus, Handel mit Rauschgift und Geldwäsche. Allesamt Gefahren, die „stärker subjektbezogen sind und auch nach der Darlegung des Bundesnachrichtendienstes vielfach erst im Zusammenhang mit der Individualisierung der Kommunikationspartner die angestrebte Erkenntnis liefern.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 229)



Geruchskonserve in der Gedenkstätte Bautzner Straße Dresden

Geruchskonserve in der Gedenkstätte Bautzner Straße Dresden

Man beruhigte sich freilich damit, dass nur sehr wenige Fernmeldevorgänge tatsächlich in der Auswertung landeten. Der Innenminister führte an, die „materiellen und personellen Ressourcen des Bundesnachrichtendienstes reichten […] nicht aus, das Aufkommen vollständig auszuwerten.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 89) Lediglich 700 der 15.000 erfassten Fernmeldevorgänge würden mit Hilfe von Suchbegriffen selektiert, 70 würden von Mitarbeitern persönlich geprüft und 15 kämen in die Fachauswertung. Zwischen dem Filtern mit Hilfe von Suchbegriffen und dem Auswerten liegen also noch zwei Schritte. Wie aus den 700 Fernmeldevorgängen 70 werden, darüber schweigt der Innenminister. Anzunehmen ist, dass die gefilterteten Inhalte auf Suchwortkombinationen hin analysiert wurden.

Die Filterung erfolgt auch heute noch anhand formaler und inhaltlicher Suchbegriffe, die bei der Anordnung von G 10-Maßnahmen festgelegt werden. Formale Suchbegriffe sind „Anschlüsse von Ausländern oder ausländischen Firmen im Ausland“, inhaltliche Suchbegriffe sind „beispielsweise Bezeichnungen aus der Waffentechnik oder Namen von Chemikalien, die zur Drogenherstellung benötigt“ werden (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 87).


Suchen ist analysieren

Interessant an der Verhandlung über das G 10-Gesetz ist aber auch eine Aussage des Innenministers, in der er einräumt, dass die „Auswertung anhand der Suchbegriffe […] im Telex-Bereich vollautomatisch möglich“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 90) sei. Schon 1999 fand also eine automatische Auswertung statt, wenn auch aufgrund technischer Beschränkungen, nur in einem kleinen Bereich. Denn dieses Eingeständnis zeigt, dass die Trennung von Filterung und Auswertung, also von Suche und Analyse lediglich eine künstliche ist.

Für heutige automatische Textanalysen gilt: Suchen ist Analysieren. Wenn wir eine Anfrage an ein großes Textkorpus formulieren, dann fließen in diese Anfrage so komplexe Modelle über die Strukturierung und den semantischen Gehalt von Texten ein, dass jeder Anfrage faktisch eine Analyse zugrundeliegt. Um zu bestimmen, welche Themen in einem Dokument verhandelt werden, braucht man keinen Auswerter mehr; Topic Models schaffen Abhilfe.

In der Unterrichtung durch das Parlamentarische Kontrollgremium (PKGr) über die Durchführung sowie Art und Umfang von G 10-Maßnahmen im Jahr 2011 heißt es, lediglich ein eingeschränkter Teil internationaler Verkehre, der automatisiert stark gefiltert werde, unterliege der Aufklärung, nur

„ein geringer Anteil dieser E-Mails wird überhaupt manuell bearbeitet. […] Der deutliche Rückgang im Jahre 2011 ist auch darauf zurückzuführen, dass der BND das von ihm angewandte automatisierte Selektionsverfahren auch vor dem Hintergrund der Spamwelle im Jahre 2010 zwischenzeitlich optimiert hat. Hierzu haben unter anderem eine verbesserte Spamerkennung und -filterung, eine optimierte Konfiguration der Filter- und Selektionssysteme und eine damit verbundene Konzentration auf formale Suchbegriffe in der ersten Selektionsstufe beigetragen.“

Welche Verfahren genau zum Einsatz kommen, dazu schweigt der Bericht. Immerhin räumt er ein, dass Filterung und Selektion automatisch in einem mehrstufigen Verfahren erfolgen. Artikel 10, Absatz 4 des G 10-Gesetzes erlaubt es dem BND, bis zu 20% der auf den Übertragungswegen zur Verfügung stehenden Übertragungskapazitäten zu überwachen. 20% der Kapazitäten. Nicht 20% der tatsächlichen Kommunikation. Und zu den Kapazitäten schweigt sich der Bericht aus, auch zu den konkreten Zahlen der insgesamt erfassten Interaktionen. Sicher ist nur, dass sämtliche Formen der digitalen Kommunikation maschinell auswertbar sind: Telefongespräche, Faxe, Chatnachrichten, E-Mails, SMS etc.

Um aus einer so riesigen Datenmenge, wie sie in einem Jahr anfällt, eine vergleichsweise kleine Menge an Kommunikationsverkehren für die Auswertung herauszudestillieren — 329.628 Telekommunikationsverkehre im Bereich internationaler Terrorismus werden als auswertungswert erkannt, das sind weniger als 1000 pro Tag — reichen einfache Schlagwortsuchen nicht aus. Hierfür ist eine Modellierung von Themen anhand der Gewichtung und Distribution von Suchbegriffen nötig. Und dies auf allen erfassten Kommunikationsverkehren. Ein solches Verfahren ist nicht nur eine Filterung, sondern hat den Charakter einer Auswertung, es ist Suche und Analyse zugleich.

Die Dienste lesen nicht unsere E-Mails, sie wissen aber doch, was drin steht. Janosch lässt grüßen.


Definitionsmacht ohne Kontrolle

Die Auswertung geschieht zwar weitgehend automatisch. Das ist aber im Ergebnis kaum weniger schlimm, als wenn sie von einem Menschen vorgenommen würde. Denn „automatisch“ bedeutet natürlich nicht „objektiv“ oder „absichtslos“. Hinter der Auswahl der Suchbegriffe und der Modellierung von Themen stehen Vorstellungen von Gefahren und Gefährdern, die lediglich vor dem sehr engen Kreis der Mitglieder der G 10-Kommission und des Parlamentarischen Kontrollgremiums, Abgeordnete und Juristen, gerechtfertigt werden müssen. Davon abgesehen sind diese Vorstellungen so geheim wie die gewählten Suchbegriffe. Der BND besitzt hier eine Definitionsmacht, die sich einer gesellschaftlichen Debatte oder Kontrolle und einer wissenschaftlichen Prüfung entziehen kann. Diese Vorstellungen zählen zu den Arcana Imperii. Denn die Logik der Überwachung ist selbst Teil dessen, was aus Sicht der Überwacher geschützt werden muss.



Verhörraum Gedenkstätte Bautzner Straße Dresden

Verhörraum Gedenkstätte Bautzner Straße Dresden

Der Vergleich hinkt zwar, ist aber dennoch bedenkenswert: Wie wäre es, wenn man das StGB geheimhalten würde mit der Begründung, dann wüssten ja potenzielle Kriminelle, welche Handlungen als kriminell gelten und daher zu vermeiden wären? Dies erscheint uns deshalb so absurd, weil das StGB gewissermaßen der Maßstab ist, an dem wir messen, ob jemand kriminell oder straffällig geworden ist. Wäre das StGB unveröffentlicht, dann wäre Kriminellsein nicht etwas, das sich (auch für den potenziell Kriminellen) anhand dieses Maßstabs bestimmen ließe, sondern eine Eigenschaft der Personen, die sich in Taten aktualisieren kann, aber nicht muss. So sehr der Vergleich auch hinkt, so macht er doch sichtbar, dass die Dienste Identitäten nach demselben Muster zuschreiben: ein „Gefährder“ oder „Terrorist“ ist nicht erst dann ein Terrorist, wenn er zuschlägt oder zugeschlagen hat. Er ist es schon vor der Tat. Er ist identifizierbar durch seine Sprache, die auf künftige Taten auch dann verweisen kann, wenn sie die Tat nicht einmal zum Thema hat. Und diese Zuschreibung erfolgt in einem Feld, in dem die Zuschreibungen an weitergehende Überwachungs- und Strafregime gebunden sein kann. Wie würden wir es finden, wenn der Bundesgrenzschutz die Liste von Gegenständen, die auf Flugreisen nicht im Gepäck mitgeführt werden dürfen, geheimhalten würde? Und wenn der Bundesgrenzschutz aufgrund von Verstößen gegen diese Liste Passagieren das Fliegen verweigern könnte, ohne sagen zu müssen, warum?

Die strategische Fernmeldeüberwachung ist durch den technisch-informatischen Fortschritt so effizient geworden, dass ihre rechtliche Grundlage fragwürdig geworden ist. Die Macht, zu definieren, wer „Terrorist“ oder „Gefährder“ ist, darf daher nicht länger ohne Kontrolle bleiben.


comments: Kommentare deaktiviert für Die Geheimdienste lesen unsere E-Mails nicht! — Sie wissen aber trotzdem, was drin steht. tags: , , , , , , , , , , ,

Die Buchlesemaschine des Bundesamtes für Verfassungsschutz

Liebe Freunde der Sicherheit,

Lesen bildet zwar, aber in Zeiten der Digitalisierung kann Lesen viel effizienter durch Automaten erledigt werden. Dass unsere Dienste auch hier an der Spitze der technologischen Entwicklung stehen, belegt ein Dokument, auf das mich ein Kollege aufmerksam gemacht hat. In der 29. Sitzung des 2. Parlamentarischen Untersuchungsausschusses am 13. September 2012 spielte ein offenbar im Selbstverlag publiziertes Buch eine Rolle.

Scanroboter im Digitalisierungszentrum der SLUB

Scanroboter im Digitalisierungszentrum der SLUB



In diesem 2004 erschienenen Buch, das von einer Person verfasst wurde, die sich dem Landesamt für Verfassungsschutz in Baden-Württemberg vorher bereits als Informant andiente, tauchte neben Referenzen auf eine rechtsterroristische Zelle namens NSU auch der Name eines Beamten des Landesamtes für Verfassungsschutz in Baden-Württemberg auf. Die Aussage dieses LfV-Beamten, Günter Stengel, bringt es ans Tageslicht: Das Bundesamt für Verfassungsschutz digitalisiert Schriften und durchsucht sie nach „Begriffen“. Darunter sind einerseits die Arbeitsnamen von Mitarbeitern, aber offenbar auch Schlagwörter. Hier Ausschnitte des Wortlautprotokolls:


Clemens Binninger (CDU/CSU): Woher haben Sie denn erfahren, dass der ein Buch publiziert oder ein Buch schreibt und das an Gott und die Welt schickt? Woher haben Sie das dann erfahren?

Zeuge Günter Stengel: Ich glaube, das habe ich vom BfV erfahren. Die haben so eine Buchlesemaschine auf bestimmte Wörter. Da war Arbeitsname – so ist es rausgekommen — war mein Arbeitsname dabei.

Clemens Binninger (CDU/CSU): Ach, die sichten die Bücher, ob in Büchern irgendwas über LfV-Leute oder BfV-Leute steht?

Zeuge Günter Stengel: Wahrscheinlich hat er sich dorthin auch gewandt, an diese Stelle, und irgendeine Dienststelle hat das Buch dann von ihm zugeschickt bekommen. Ich weiß noch, dass dann ein Schreiben kam: Hier ist schon wieder ein Vermerk von diesem Stauffenberg, ein Buch geschrieben, und Sie vom LfV Baden-Württemberg sind persönlich genannt.

Clemens Binninger (CDU/CSU): Aber so was müsste doch auch irgendwo in den Akten des LfV zu finden sein. Also, jetzt sind wir ja in einem anderen offiziellen Vorgang. Quasi zum Eigenschutz der Behörde werden Bücher im Prinzip durchgeguckt: Wird irgendwo einer unserer Mitarbeiter enttarnt? Sie haben ja alle Arbeitsnamen, sind zwar keine V-Leute, aber haben Arbeitsnamen. Wenn das der Fall ist, gibt es eine kurze Meldung an das jeweilige Landesamt: Achtung, in diesem oder jenen Buch wird Herr oder Frau XY genannt. – Ist so das Verfahren?

Zeuge Günter Stengel: Ja, so muss das gewesen sein. Ich weiß, dass in dem Buch – – Es sind auch viele Politikernamen genannt worden und LfV Baden-Württemberg. Er schreibt dann, was ich damals zu einer be- stimmten Sache angeblich geredet habe, und dann hat er sich an den MAD gewandt, und der hätte gar das Gegenteil von mir gesagt. […]

Clemens Binninger (CDU/CSU): Gut. Wir haben ja nachher noch jemanden da, der sich mit den normalen Arbeitsabläufen eigentlich am besten auskennen müsste. Den können wir ja dann auch noch mal fragen, ob es da ein eingespieltes Verfahren gibt, wie mit solchen Verdachtshinweisen oder – – „Verdacht“ ist falsch – aber so Enttarnungshinweisen oder -gefahren umgegangen wird, ob es so ein standardisiertes Verfahren gibt und Sie dann benachrichtigt werden. Titel hat man Ihnen nie gesagt. Können Sie sich auch nicht erinnern?

Zeuge Günter Stengel: Nein. Im Gegensatz zu anderen Begriffen ist mir das nicht im Gedächtnis geblieben.

Clemens Binninger (CDU/CSU): Werden dann solche Bücher asserviert? Ich meine, die Behörden heben ja im Zweifel alles auf, was nur irgendwie ein bisschen relevant ist. Oder meinen Sie, gescannt und gelesen, dann weggeschmissen?

Zeuge Günter Stengel: Das weiß ich nicht.

Clemens Binninger (CDU/CSU): Wissen Sie nicht.

Zeuge Günter Stengel: Kann ich nichts dazu sagen.


Quelle: Stenografisches Protokoll der 29. Sitzung des 2. Untersuchungsausschusses am Donnerstag, dem 13. September 2012, 10 Uhr Paul-Löbe-Haus, Berlin, S. 92f.


Ich freue mich natürlich, dass auch das BfV seinen Beitrag dazu leistet, dass die Digitalisierung unserer Bucharchive nicht allein in der Hand amerikanischer Großkonzernen wie Google liegt.


comments: Kommentare deaktiviert für Die Buchlesemaschine des Bundesamtes für Verfassungsschutz tags: , , , , ,

30C3 Nachlese, Teil 2

Auf vielfachen Wunsch hier die gif-Grafik, die ich zur Illustration der Hoffnung einiger Aktivisten erstellt habe, die NSA suche lediglich nach Keywords.


Wie die NSA nicht unsere E-Mails liest

Wie die NSA nicht unsere E-Mails liest (CC0 1.0 Universell, Font by Bolt)

In der letzten Sendung von Breitband auf DeutschlandradioKultur gab es einen schönen Beitrag von Marcus Richter zur Zukunft der Überwachung, der auf dem Kongress entstanden ist und in dem ich auch was sagen durfte.

Und dann habe ich — wie beinahe alle Vortragenden — ein Interview für dctp.tv gegeben, bei dem zumindest die erste Hälfte von meiner Seite komplett misslungen ist. Der zweite Teil enthält aber ein paar Punkte, die ich im Talk nicht so deutlich formuliert habe:




comments: Kommentare deaktiviert für 30C3 Nachlese, Teil 2 tags: , , , , , ,

30C3 Nachlese

Der 30. Chaos Communication Congress war ein buntes Treffen von Makern, Netzaktivisten, Old-style-Hackern, DIYern und IT-Sicherheitsspezialexperten, das ganz im Zeichen der Snowden-Leaks stand. Auch wenn Zynismus, Wut und Trotz die gängigen Modi im Umgang mit der Totalüberwachung digitaler Kommunikation sind, überwog in den meisten Vorträgen doch der analytische Blick auf technische, politische und soziokulturelle Folgen der systematischen Grundrechtsverletzung durch staatliche Akteure.

30c3

Trotz der großen Vielfalt waren Kontroversen kaum sichtbar. Die Snowden-Enthüllungen haben es schwer gemacht, Datenschutz für gestrig zu erklären und die Abschaffung der Privatsphäre gut zu finden. Die Community wird nicht nur über einen computerzentrierten Lebensstil zusammengehalten. Sie ist sich einig in der Forderung nach Einhaltung von Grundrechten, im Kampf für ein Recht auf Anonymität, um transparente staatliche Institutionen und ein freies Netz. Und die Community weiß, was zu tun ist: offene technische Lösungen für möglichst spurenarme und sichere Kommunikation entwickeln, konstruktiv auf demokratische Entscheidungsprozesse und gesellschaftliche Debatten einwirken und wo das nichts nützt, sich an Protesten zu beteiligen, auch aktionistisch.

Der CCC ist nicht das revolutionäre Subjekt, von dem manche zu träumen scheinen. Er ist das organisatorische Rückgrat eine Community, die meistens still (und leider manchmal auch etwas unkoordiniert), aber beharrlich an ihren Projekten arbeitet. Er bezieht sein öffentliches Gewicht aus der technischen Kompetenz seiner Mitglieder und nicht daraus, dass er meinungsstark auf der Klaviatur der sozialen Medien spielt. Er ist keine straff organisierte NGO und schon gar keine Kaderorganisation. Dieser Einsicht ist es wohl auch zu verdanken, dass Versuche von Interessengruppen, die öffentliche Aufmerksamkeit und das Prestige des CCC für ihre Ziele zu benutzen, in diesem Jahr ausblieben.

Und so sind es auch nicht die Talks mit Glamourfaktor in Saal 1, in denen teilweise mit viel Pathos die Gegenwart und Zukunft des Netzes verhandelt wurde, die diesen Kongress ausgemacht haben, sondern die vielen Assemblies und Workshops, die Lightning Talks und zahlreichen Gespräche in den Lounges. Die meisten Teilnehmer dürften müde, aber mit dem Kopf voller Ideen nach Hause gefahren sein.

Ich habe auch gleich am Anfang einen Vortrag zum Thema „Überwachen und Sprache“ halten dürfen, den man sich hier herunterladen oder hier anschauen kann:

Stefan Schulz hat für die FAZ einen schönen Artikel über meinen Vortrag geschrieben, der vieles klarer formuliert als es mir möglich war. Heise hat dem Thema einen Spin gegegeben, der von mir nicht intendiert ist. Und der Deutschlandfunk geht in seinem Bericht weiter als ich in seiner Interpretation meines Vortrags. Und Al Jazeera hat einen kurzen O-Ton von mir eingeholt:

Einige inhaltliche Klarstellungen zu meinem Vortrag liegen mir am Herzen:

  • Die „Software“, die in meinem Vortrag vorkommt, existiert nicht und ist natürlich rein fiktional.
  • Ich habe nicht gesagt, dass Fefe oder Don Alphonso die radikalsten Blogger im ganzen Land sind. Die präsentierten Berechnungen dienten lediglich dazu, die Methoden zu illustrieren und zu verdeutlichen, dass die Zuschreibung von Kategorien wie „Gefährder/in“ oder „Radikale/r“ auf der Basis von Theorien und Methoden erfolgt, die sich nicht rechtfertigen müssen.
  • Ich analysiere keine Wortwolken, wie der Deutschlandfunk in seinem Bericht über meinen Vortrag erklärte, sondern Kollokationsgraphen im Sinne der visual analytics. Die Metapher der Wortwolke ist in diesem Kontext etwas irreführend.
  • Ich gehöre natürlich auch nicht zum „Schwarzen Block des CCC“, wie ein Mitglied von seniorentreff.de mutmaßt, ich hatte nur einen schwarzen Kapuzenpullover an (aber ansonsten Bluejeans und beige Chucks…).

Und dann war auch noch Promi-Gucken angesagt: Einmal habe ich hinter Andi Müller-Maguhn in der Schlange gestanden, bin neben Fefe die Treppe runtergelaufen und mit Constanze Kurz Aufzug gefahren. Außerdem konnte ich Marcus Richter und Tim Pritlove in Aktion erleben, deren Stimme mir viele Zugfahrten in der Tokyoter Rushhour erträglich gemacht haben. Ein großer Dank an alle Organisatorinnen und Organisatoren und an die Scharen von Engeln, die diesen Kongress möglich gemacht haben! Bis nächstes Jahr!


E-Mail-Verschlüsselung im Uni-Alltag

Posted on 21st November 2013 in Off Topic
E-Mail-Verschlüsselung im Alltag

E-Mail-Verschlüsselung im Alltag

Liebe Freunde der Sicherheit,

Seit Semesterbeginn versuche ich, innerhalb meiner Universität verschlüsselt zu kommunizieren. Die Snowden-Enthüllungen haben ein Klima geschaffen, in dem es eine hohe Akzeptanz für den Wunsch gibt, Kommunikation zu verschlüsseln, auch wenn damit zunächst die Überwindung technischer Hürden verbunden ist. Die Kollegen an der Fakultät für Sprach-, Literatur- und Kulturwissenschaft sind zwar grundsätzlich interessiert, winken aber ab, weil ihnen die Zeit für die „Einarbeitung ins Thema“ fehle. Anders ist es mit den Studierenden, die sich auch durch folgende Ankündigung auf meiner Website und in meiner Signatur motivieren lassen:

++ verschlüsselte E-Mails werden prioritär beantwortet ++

Und tatsächlich beantworte ich verschlüsselte Mails meist innerhalb sehr kurzer Zeit, in jedem Fall noch am selben Tag.

Datenschutz und E-Mail-Verschlüsselung an Universitäten

Verschlüsselung ist deshalb notwendig, weil innerhalb der Universität ständig mit sensiblen personenbezogenen Daten hantiert wird. Der Schutz dieser Daten ist an der TU Dresden eindeutig geregelt: Die „Rahmenordnung für die Rechen- und Kommunikationstechnik und die Informationssicherheit an der TU Dresden“ vom 08.01.2009 schreibt vor, dass die „übertragung von sensiblen personenbezogenen Daten“ über das Internet, insbesondere mittels E-Mail, „nur in verschlüsselter Form“ erfolgen darf. Unter sensible personenbezogene Daten fallen Daten der Datenschutzklassen C und D, von denen die Bereiche Studentenverwaltung, Prüfungsverwaltung und Zulassungswesen die Studierenden betreffen. Nicht zwingend, aber empfohlen ist die Verschlüsselung auch bei personenbezogenen Daten, deren Missbrauch zwar keine besondere Beeinträchtigung erwarten lässt, deren Kenntnis jedoch an ein berechtigtes Interesse des Einsichtnehmenden gebunden ist (Datenschutzklasse B). Darunter fallen auch Lehrveranstaltungsplanung und Seminarplatzvergabe. Die TU stellt für dienstliche elektronische Nachrichten eine PKI (Public Key Infrastruktur) bereit.

Absprachen über Prüfungstermine und Prüfungsinhalte, Prüfungsaufgaben, Empfehlungsschreiben für Stipendien, Bewerbungsunterlagen von Studierenden für Austauschprogramme und/oder Stipendien, Gutachten über Bachelor- und Masterarbeiten, Dokumente die Anstellung von wissenschaftlichen oder studentischen Hilfskräften betreffend — all das wird praktisch ausnahmslos unverschlüsselt verschickt, berichten mir Kollegen aus anderen Universitäten. Es gibt also gute Gründe, Verschlüsselung in den Arbeitsalltag zu integrieren.

Zwischenergebnis nach 5 Wochen

Von den 27 Studierenden, die mich seit Semesteranfang per E-Mail kontaktiert haben, haben zwölf ihre E-Mails teilweise verschlüsselt. Zwei Mitarbeiter konnte ich ebenfalls zum Verschlüsseln motivieren. Auch wenn ich nicht weiß, ob die Studierenden außer mit mir auch mit anderen Personen verschlüsselt kommunzieren, bin ich für den Anfang doch sehr zufrieden mit dem Ergebnis. Der nächste Hackday am Lehrstuhl wird in eine Art Kryptoparty umfunktioniert, dann werden es hoffentlich noch mehr.

Die häufigsten Probleme, die beim Verschlüsseln auftraten, waren:

  • die Studierenden versäumten es, mir ihre öffentlichen Schlüssel zugänglich zu machen (luden ihre Schlüssel nicht auf Key-Server hoch oder hängten sie nicht an ihre Mail an), so dass ich ihnen nicht verschlüsselt antworten konnte
  • die Studierenden benutzten den falschen Schlüssel zum verschlüsseln (meistens ihren eigenen) ihrer Mails an mich
  • die Studierenden hängten ihren public key als Word-File an

Die häufigsten Ausreden für das Nichtverschlüsseln von Mails:

  • zu kompliziert, ich brauche eine Anleitung
  • ich schreibe die meisten Mails auf meinem Handy und da ist Verschlüsselung nicht praktikabel
  • ich habe nichts zu verbergen

Das Versprechen auf prioritäre Beantwortung verschlüsselter E-Mails ist der Verschlüsselung natürlich nur deshalb förderlich, weil es eine Bedürfnisasymmetrie zwischen den Studierenden und mir hinsichtlich der Durchführung der E-Mail-Kommunikation gibt, die ich ausbeute. Die Studierenden mögen es mir verzeihen, denn für Verschlüsselung gibt es gute Gründe.