Digitale Revolution | surveillance and security - Computer- und korpuslinguistische Methoden des politisch motivierten Internet-Monitorings

Schöne neue Algorithmen für die Black Box Mensch – Kritik des digitalen Behaviorismus

Posted on 11th Januar 2017 in Allgemein, Datengeleitete Analysen, Digitale Revolution, ideology mapping, Maschinelles Lernen, Politik, Stilometrie / stylometry

Das Team von TEDxDresden hat mir dankenswerter Weise die Gelegenheit gegeben, einen Vortrag zum Thema „Schöne neue Algorithmen für die Black Box Mensch“ zu halten. Darin habe ich versucht, aus kulturwissenschaftlicher Perspektive darzustellen, wo die Probleme liegen und was man besser machen sollte, wenn man soziale oder kulturelle Phänomene mit maschinellen Methoden modellieren will.

Ich behaupte, dass die zurzeit gängige Herangehensweise bei der Modellierung sozialer Phänomene einer behaviorischen Vorstellung vom Menschen folgt, und plädiere statt dessen für Algorithmen, die menschliches Verhalten als interpretiertes Verhalten (und damit immer auch als potentiell mehrdeutig) modellieren sollten.

Das Beispiel, das ich prominent behandle, wird zurzeit auch in einem NZZ-Artikel von Steve Przybilla lobenswert kritisch reflektiert.

comments: Kommentare deaktiviert tags: Algorithmen, Behaviorismus, Black Box, Digitaler Behaviorismus, Kulturwissenschaften, Modellieren, TED, TEDxDresden

Looking Into Black Boxes #2

Posted on 20th September 2014 in Digitale Revolution, Meta

Das Team von „Looking into Black Boxes“ hat mich für die #2 ihrer Serie zum Thema Sprachdialogsysteme und Callcenter interviewt.

Was ich zum Einfluss der Digitalisierung auf die Sprache zu sagen habe, habe ich kürzlich auch für dieses Blog aufgeschrieben. Vielen Dank an Dirk Herzog, Fiona Krakenbürger und Jan Rödger für das interessante Gespräch und den gut gemachten Film!

comments: Kommentare deaktiviert tags: Interview, Into Black Boxes

Die Zukunft der deutschen Sprache (im digitalen Zeitalter)

Posted on 11th September 2014 in Digitale Revolution, Meta

Wenn man Texte über die Zukunft der deutschen Sprache liest, dann werden immmer wieder drei Tendenzen genannt:

wir werden in Zukunft noch mehr Wörter und Wendungen aus dem Englischen entlehnen
die Tendenz von synthetischen Formen zu analytischen Konstruktionen wird sich fortsetzen
(Multi-)Ethnolekte werden die Strukturen des Deutschen beeinflussen

So interessant und richtig diese Beobachtungen sein mögen, so scheint mir doch, dass die Zukunft der deutschen Sprache — und auch anderer Sprachen — am meisten davon beeinflusst wird, dass Computer einen immer größer werdenden Anteil an der Kommunikation haben. Aber nicht im trivialen Sinn, dass in der computervermittelten Kommunikation die Sprache verfällt. Computer sind vielmehr direkt oder indirekt immer tiefer in Transferprozesse im Medium der Sprache involviert. Und das hat Folgen in mindestens drei Bereichen:

1. Sprachliche Äußerungen werden nicht mehr nur von Menschen für Menschen produziert

Wenn Menschen früher geschrieben haben, dann haben sie das immer mit der Absicht und im Bewusstsein dessen getan, dass andere Menschen das Geschriebene lesen. Im digitalen vernetzten Zeitalter ist dies längst nicht mehr so. Viele Texte im Netz werden heute in dem Bewusstsein geschrieben, dass die Texte von Suchmaschinen durchsucht werden; und sie werden auf die Indexierungs- und Ranking-Algorithmen der Suchmaschinen hin optimiert. Die Adressaten bei suchmaschinenoptimierten Texten sind also nicht mehr nur die Menschen, sondern auch die Suchmaschine. Auf den Webseiten von „Textoptimierern“ liest sich das dann so: „Ob Blogbeitrag, Produktbeschreibungen, Artikel oder große Webprojekte zu den vielfältigsten Themen: NN ist der schnelle Weg für qualitativ hochwertigen Text-Content, der nicht nur Ihre User, sondern auch Suchmaschinen überzeugt.“ Und es gibt schon lange Texte, die ausschließlich für Suchmaschinen verfasst werden, viele Seiten in Webshops etwa werden nur für Google getextet. Hier ist es Usus, für jedes „Keyword“, also jedes Such-Lexem, das für den eigenen Geschäftsbereich relevant ist, und seine Kombinationen mit anderen Keywords eine eigenständige Landing Page mit „einzigartigem Content, der sich ausschließlich mit dem jeweiligen Keyword beschäftigt“ zu erstellen.

Parallel kommunizieren wir zunehmend natürlichsprachlich mit Computern und nicht mehr ausschließlich vermittelt über eigens für die Mensch-Maschine-Kommunikation entwickelte Sprachen, die wir mühsam erlernen müssen (vulgo: Programmiersprachen), oder von Sprache begleitet ikonische Systeme (vulgo: User Interfaces). Softwareunternehmen arbeiten vielmehr daran, dass wir unsere Anfragen und Befehle an Computer möglichst alltagssprachlich formulieren können, so dass wir den Eindruck bekommen, mit Computern wie mit Menschen interagieren zu können. Siri lässt grüßen.

Gleichzeitig produzieren Computer mehr und mehr auch natürlichsprachliche Texte: Sie verfassen Wikipedia-Artikel oder standardisierte Nachrichtentexte, formulieren Gutachten oder geben Antworten in Dialogsystemen. Und sie produzieren sogar natürlichsprachige Texte, die gar nicht für Menschen gemacht sind: Algorithmen der automatischen Textoptimierung schreiben menschliche Text so um, dass sie von Suchmaschinen höher gerankt werden, oder sie kompilieren die Texte gleich selbst aus natürlichsprachlichem Material. Computer schreiben für Computer.

Ob wir also Texte für Suchmaschinen optimieren, beim Schreiben von E-Mails oder im Chat bestimmte Schlagwörter vermeiden, um nicht in das Visier von Geheimdiensten oder Polizei zu geraten, oder einen Tweet mit einem Hashtag versehen: immer handeln wir im Bewusstsein dessen, dass Computer mitlesen, analysieren und ordnen, um Inhalte auffindbar zu machen. Aber Computer sind immer häufiger auch die Adressaten natürlichsprachiger Äußerungen und produzieren im Zuge dessen auch selbst natürlichsprachlich daherkommende Äußerungen und zwar für Menschen und Computer gleichermaßen. Vielleicht ist es noch nicht an der Zeit zu sagen, dass Sprache damit in letzter Konsequenz nicht mehr eine exklusive Eigenschaft der Spezies Mensch ist; denn Computer sind keine Spezies. Aber Computer haben einen wachsenden Einfluss, auch auf das soziale Konstrukt Sprache.

2. Die Mensch-Maschine-Kommunikation verlangt nach einer Standardisierung der Sprache

Immer dann, wenn Menschen direkt sprachlich mit Maschinen interagieren, sind sie gezwungen, ihre Sprache den Verarbeitungsmöglichkeiten des Computers anzupassen. Schon bei Speech-to-text-Anwendungen, wenn die Maschine nicht mehr ist als ein intelligentes Werkzeug, müssen sie deutlich sprechen oder zumindest auf die Art, wie sie die Maschine trainiert haben. Der adressatenspezifische Zuschnitt von Beiträgen zu einem Gespräch, das die Linguistik recipient design nennt, ist freilich nicht ungewöhnlich, er bedeutet aber beim jetzigen Stand der computerlinguistischen Möglichkeiten auch eine massive Reduktion der sprachlichen Möglichkeiten. Die Folge ist eine Standardisierung unseres Sprachverhaltens, eine Reduzierung der Variation und eine Vermeidung von Ambiguitäten, die zum Misslingen der Kommunikation führen könnten.

Die Chance, dass Computer unsere sprachlichen Äußerungen im von uns intendieren Sinn verarbeiten kann, steigen dramatisch, wenn unsere Äußerung geringe phonetische oder orthographische Variation aufweist, eine einfache, zuverlässig parsbare Syntax hat und wir Kernwortschatz oder terminologisierter Ausdrücke benutzen. Die computerinduzierte Standardisierung unserer Sprache führt also zu Vereinheitlichung, Vereinfachung und Logisierung.

Standardisierung freilich ist nichts, was erst mit dem Computer in die Sprache kam. In allen Sprachen formieren sich Sprachstandards und viele Sprachgemeinschaften haben sogar kodifizierte Standardsprachen ausgebildet. Diese Standardsprachen und ihre Beherrschung werden zweckrational (Verständigung optimieren), kulturelitär (differenzierte Literatursprache als kulturelle Errungenschaft) und gesellschaftspolitisch (Integration durch gemeinsame Sprache) begründet. Sprachvorbilder, die bei der Konstruktion der Standardnorm herangezogen wurden, waren historisch gesehen die Sprache der Schriftsteller, die Sprache der oberen Schichten in den kultiviertesten Regionen oder die Sprache der überregionalen Zeitungen. Die Digitalisierung macht hier einen Paradigmenwechsel möglich: Im Internet kann jeder Mensch sprachliche Spuren hinterlassen, die technisch auf die gleiche Weise zugänglich sind und mit dem gleichen Aufwand erfasst werden können wie die Texte überregionaler Zeitungen. Eine Standardnorm, die sich stärker am Sprachgebrauch aller Angehörigen einer Sprachgemeinschaft orientiert, ist denkbar. Doch just in diesem historischen Moment wird der Computer selbst zum Faktor der Standardisierung: Sprachnormen werden nicht mehr allein von Menschen auf der Basis menschlichen Handelns gemacht, die Kommunikation mit, für und von Computern führt vielmehr neue Begründungsmuster in den Sprachnormendiskurs ein. Standardsprache wird in Zukunft auch daran gemessen, wie gut sie maschinell verarbeitbar ist.

3. Vom Gewebe zur Struktur: Die Vertextung von Wissen tritt zurück hinter die Repräsentation von Wissen in der Form strukturierter Daten

Der Text ist die klassische Form der Wissensspeicherung, der Wissensvermittlung und der diskursiven Verhandlung von Wissen. Und das mit gutem Grund: in Texten kann Wissen begründet, hinterfragt und durch Verweise auf andere Texte mit Kontextwissen verknüpft werden. Texte sind kohärente, d.h. thematisch orientierte, Sprachhandlungen, die aus transphrastischen semantischen und syntaktischen Beziehungen, kulturellen Konventionen und Stilprinzipien ihre Einheit erhalten. Als Gewebe sind Texte nicht linear, auch wenn ihre graphische Repräsentation das suggeriert. Ihre Bestandteile sind komplex miteinander verknüpft und die Gesamtheit der Verknüpfungen lassen den Text überhaupt erst als solchen entstehen. Und Texte sind offen für Interpretationen, ihr Sinn liegt nicht fest, bestenfalls gibt es Auslegetraditionen.

Mit all diesen Dingen sind Computer überfordert. Im Textmining war ein Text lange eine bag of words, ein Sack voller Wörter. Die grundlegende Idee hinter diesem schon in den 1960er Jahren entwickelten Ansatz ist, dass sich die Bedeutung eines Textes mit Hilfe des Gewichts der im Dokument vorkommenden Terme operationalisieren ließe. Ein Text wird dann als Vektor repräsentiert, dessen Elemente die dokumentenspezifischen Werte jedes einzelnen Terms enthält. Auch wenn die Merkmalsvektoren komplexer geworden sind und mehr Eigenschaftsdimensionen natürlicher Sprachen abbilden, so sind Informatik und Computerlinguistik noch weit davon entfernt, den menschlichen Umgang mit Texten modellieren zu können.

Und solange dieses Defizit besteht, solange wird immer dann, wenn Wissen nicht nur für Menschen, sondern auch für Computer bereitgestellt werden soll, die Datenbank den Vorrang vor dem Text erhalten. Die Entstehung von Wikidata ist ein Symptom für diese Entwicklung. Die vermeintliche Eindeutigkeit der strukturierten Daten, der Versuch, die Komplexität der Welt in einem Datenmodell abzubilden, mag zwar einen Gewinn an Präzision und Eindeutigkeit mit sich bringen, die Computer für ihre Operationen benötigen; diese Eindeutigkeit ist aber per se eine Beschränkung der möglichen Bedeutungen von kulturellen Einheiten, Phänomenen, ja von Fakten und entspricht nicht der Art, wie bislang in unserer Gesellschaft mit Wissen umgegangen wird. Und die Kultur der strukturierten Daten, die maschinell verarbeitet, verknüpft, verbreitet und universell importiert werden können, ist offener für Manipulation und Missbrauch als die Textkultur.

Auch wenn an einzelnen Stellen Kritik anklingt, will ich die geschilderten Tendenzen nicht negativ beurteilen. Denn neben dem Verlust eines Alleinstellungsmerkmals unserer Spezies, an alleiniger Definitionsmacht der Menschen über Sprachnormen und dem Verlust des Primats von Texten gegenüber strukturierten Daten gewinnen wir durch die Digitalisierung der Sprache und ihre maschinelle Modellierung auch unendlich viele neue kommunikative Möglichkeiten. Und an Möglichkeiten, die digitalisierte Sprache zu hacken.

Für die Sächsische Zeitung hat Dominique Bielmeier mit mir über das Thema gesprochen.

comments: 2 » tags: deutsche Sprache, Digitale Revolution, Digitalisierung, strukturierte Daten, Text, Zukunft der deutschen Sprache

DIE ZEIT über Kulturwissenschaften im Data-driven Turn

Posted on 22nd August 2014 in Datengeleitete Analysen, Digitale Revolution

Stefanie Schramm hat für DIE ZEIT (N° 35/2014, S. 27) einen großen Artikel über David Eugsters, Noah Bubenhofers und meine Analyse ihres Printarchivs geschrieben.

Kollokationsgraph von ZEIT-Artikeln, die den Tugendframe enthalten

Die Studie „Kulturwissenschaften im Data-driven Turn“, die ich schonmal hier im Blog vorgestellt hatte, ist in folgendem Sammelband erschienen:

Scharloth, Joachim/Eugster, David/Bubenhofer, Noah (2013): Das Wuchern der Rhizome. Linguistische Diskursanalyse und Data-driven Turn. In: Busse, Dietrich/Teubert, Wolfgang (Hrsg.): Linguistische Diskursanalyse. Neue Perspektiven. Wiesbaden: Springer VS. S. 345-380.

Das Preprint zum Aufsatz ist hier einsehbar.

comments: Kommentare deaktiviert tags: Data-driven Turn, datengeleitete Analyse, Die ZEIT

Die Geheimdienste lesen unsere E-Mails nicht! — Sie wissen aber trotzdem, was drin steht.

Posted on 25th Mai 2014 in Allgemein, Digitale Revolution, ideology mapping, Politik, Terrorismus, Überwachung und Sicherheit

In Janoschs Kinderbuch „Post für den Tiger“ gründet der Hase mit den schnellen Schuhen einen Briefzustellservice und stellt die anderen Hasen aus dem Wald als Briefträger ein. In einer kurzen Ansprache macht er sie mit ihren Pflichten vertraut: „Ihr müsst […] schnell und schweigsam sein. Dürft die Briefe nicht lesen und das, was darin steht, niemandem erzählen. Alles klar?“ Und die Hasen mit den schnellen Schuhen antworteten „Alles klar!“ und alles war klar.

Der Hintersinn, mit dem Janosch seinen Hasen das Lesen der Briefe verbieten und im gleichen Atemzug betonen lässt, dass man deren Inhalt aber keinesfalls weitererzählen dürfe, ist der Chuzpe vergleichbar, mit der uns Geheimdienste und E-Mail-Provider wie Google oder Yahoo erklären, dass sie unsere Mails nicht lesen. Dabei haben sie nicht mal unrecht: Sie lesen unsere E-Mails ja wirklich nicht. Sie scannen und filtern und analysieren sie nur!

Nur Fliegen ist schöner…

Mit dem Flugzeug zu reisen hat bei allen Vorzügen einen entscheidenden Nachteil: Keine andere Form des Reisens normiert die Passagiere so weitreichend wie eine Flugreise. Sie erlaubt den Reisenden nur eine bestimmte Menge Gepäck in vorgeschriebener Form, weist ihnen einen engen Raum zu, den sie auch nur zu ganz bestimmten Zwecken verlassen dürfen, zwingt auf visuelle Signale hin zum Anschnallen, zwingt zum Ausschalten von Geräten und — indem das Entertainment-Programm unterbrochen wird — zum Zuhören bei allen Ansagen. Und keine andere Form des Reisens kennt derlei Sanktionen, wenn man sich der Normierung widersetzt: abhängig vom Land können einem Raucher auf der Bordtoilette Strafen vom Bußgeld bis zur merhmonatigen Gefängnisstrafe blühen. Die Annehmlichkeit der schnellen Überbrückung von Entfernungen zu einem noch erträglichen Preis wird also durch die Akzeptanz einer weitgehenden Normierung erkauft.

Vorrichtung zur erkennungsdienstlichen Behandlung, Gedenkstätte Bautzner Straße Dresden

Doch damit Passagiere eine Flugreise überhaupt antreten dürfen, müssen sie teilweise als erniedrigend empfundene Kontrollen über sich ergehen lassen. Kontrollen gibt es auf ganz unterschiedlichen Eskalationsstufen.

Unterscheiden kann man erst einmal zwischen solchen, die man selbst mitbekommt, und solchen, die im Hintergrund ablaufen. Ein Beispiel für eine Kontrolle, die meist gar nicht in unser Bewusstsein vordingt, ist das Durchleuchten der Koffer.

Man kann Kontrollen weiterhin danach unterscheiden, ob sie rein maschinell durchgeführt, mit Hilfe von Maschinen, die von Menschen überwacht werden, oder von Menschen selbst. Muss ich durch einen Metalldetektor gehen oder an einer Kamera vorbei, die zur Prävention einer Vogelgrippe-Pandemie bei der Einreise meine Temperatur misst, dann empfinde ich das als weniger unangenehem, als wenn jemand hinter dem Bildschirm eines Gerätes sitzt, der ein Röntgenbild vom Inhalt meines Handgepäcks zeigt. Gänzlich unangenehm empfinde ich es, wenn mein Handgepäck vom Sicherheitspersonal geöffnet und durchwühlt wird.

Weiter kann man Kontrollen danach unterscheiden, ob jeder davon betroffen ist oder nur Auserwählte. Als ich noch mit Rucksack reiste, schnupperten am Gepäckband bei der Ankunft häufiger Drogenhunde an meinem Gepäck, geführt von Polizisten, die wie zufällig in meiner Nähe herumstanden. Und wer kennt es nicht, in eine als „Kabine“ bezeichnete Trennwandbucht gewunken und abgetastet zu werden?

Je näher die Kontrollen an meinen Körper heranrücken, je personenbezogener sie werden, als desto unangenehmer empfinde ich sie. Die maschinelle, körperferne Kontrolle außerhalb meines Gesichtsfeldes, von der alle Passagiere gleichermaßen betroffen sind, finde ich hingegen am wenigsten störend. Und so effizient und distanziert wie das automatische Durchleuchten unserer Koffer so diskret und rücksichtsvoll scannen die Geheimdienste unsere E-Mails.

Von Gepäckkontrollen und Mail-Filtern

Die Geheimdienste lesen nicht unsere E-Mails. Sie lesen sie nicht in dem Sinn, wie unser Gepäck am Flughafen nicht durchsucht, sondern nur durchleuchtet wird.

Die Geheimdienste lesen unsere E-Mails auch nicht massenhaft. Sie lesen sie so wenig massenhaft, wie am Flughafen jeder in eine separate Kabine gewunken und abgetastet wird, sondern nur ausgesuchte Passagiere.

Die Geheimdienste lesen unsere E-Mails auch nicht, um Verdächtige zu identifizieren. Ganz so wie im Flughafen nur jener in die Kabine muss, bei dem die Metalldetektoren anschlagen, so filtern die Geheimdienste unsere E-Mails automatisch, und das sogar in einem mehrstufigen Verfahren. Und Filtern ist nicht Lesen. Und mal ehrlich: wer hat schon was dagegen, wenn E-Mails gefiltert werden? Wer nicht seinen eigenen Mailserver betreibt, dessen E-Mails durchlaufen automatisch Filter, Spamfilter. Und keiner würde behaupten, dass seine E-Mails vom Spamfilter „gelesen“ werden.

Nein! Die Geheimdienste lesen unsere E-Mails nicht. Sie lesen sie höchsten ausnahmsweise, wenn sie beim Abtasten auf etwas Auffälliges stoßen, wenn der Metalldetektor Alarm schlägt, die Drogenhunde anschlagen oder der Sprengstofftest positiv ausfällt.

Lesen ist etwas ganz anderes

Lesen, im engeren Sinn, ist nämlich etwas ganz anderes als das, was etwa der BND bei der strategischen Überwachung des Fernmeldeverkehrs macht. Lesen ist eine aktive Konstruktion von Textsinn, eine Interaktion von Texteigenschaften und Leser. Der Textsinn ist ein kommunikatives Phänomen, das aus einer Leser-Text-Interaktion resultiert. Und weil jeder Leser und jede Leserin anders ist, sich mit anderem Vorwissen und anderer Motivation ans Lesen macht, kann der Textsinn bei jeder Lektüre ein anderer sein. Von einem Computer erwarten wir allerdings, dass er bei gleichem Algorithmus bei jeder Textanalyse immer zum gleichen Ergebnis kommt. Was der Computer macht, ist also kein Lesen, zumindest nicht im emphatischen Sinn.

Aufklären, Scannen und Filtern

Was die Geheimdienste tun, das trägt den Namen „Aufklärung“, präziser „strategische Fernmeldeaufklärung“. COMINT, Communications Intelligence, so der englische Name, ist ein Teilbereich der Signals Intelligence (SIGINT) und dient dem Erfassen und Auswerten verbaler und nonverbaler Kommunikation die über Radiowellen oder Kabel übertragen wird. Typische Funktionen innerhalb der Fernmeldeaufklärung sind Scanning (liegt ein Signal im Sinne einer groben Metrik vor?), automatische Analyse (enthält das Signal relevante Informationen?), Aufzeichnung und strukturierte Speicherung und Aggregierung.

„Scannen“ hat neben der engen COMINT-Bedeutung im Englischen zwei weitere Verwendungsweisen. Einerseits bedeutet es die genaue Inaugenscheinnahme mit dem Ziel der Entdeckung einer Eigenschaft („look at all parts of (something) carefully in order to detect some feature“), andererseits ein oberflächliches Durchschauen eines Dokuments, um eine bestimmte Information daraus zu extrahieren („look quickly but not very thoroughly through (a document or other text) in order to identify relevant information“, New Oxford American Dictionary). In beiden Fällen bedeutet aber „Scannen“ jedoch etwas anderes als „Lesen“. Während Lesen in seiner emphatischen Bedeutung nämlich auf die Rekonstruktion eines ganzheitlichen Textsinns zielt, sucht man beim Scannen nur nach einer bestimmten Information oder einem bestimmten Merkmal, ohne den Anspruch zu haben, dem Textganzen gerecht zu werden.

Eine im Kontext der Überwachungsapologetik gerne gewählte Metapher ist auch die des Filterns. Filtern bedeutet, Stoffe, Flüssigkeiten, Signale o.Ä. durch ein durchlässiges Medium zu leiten, das jedoch bestimmte Anteile zurückhält. Und so heißt es in der „Unterrichtung durch das Parlamentarische Kontrollgremium“ über die Durchführung sowie Art und Umfang der Maßnahmen nach dem G 10-Gesetz für den Zeitraum vom 1. Januar bis 31. Dezember 2011:

„Der Aufklärung unterliegt […] lediglich ein eingeschränkter Teil internationaler Verkehre, der automatisiert stark gefiltert wird. Nur ein geringer Anteil dieser E-Mails wird überhaupt manuell bearbeitet. […] Der deutliche Rückgang im Jahre 2011 ist auch darauf zurückzuführen, dass der BND das von ihm angewandte automatisierte Selektionsverfahren auch vor dem Hintergrund der Spamwelle im Jahre 2010 zwischenzeitlich optimiert hat.“

Automatisierte Selektion ist völlig harmlos, das impliziert der Bericht des Kontrollgremiums, manuelle Bearbeitung hingegen erwähnenswert. Es ist wie mit den Kontrollen am Flughafen.

Wann beginnt der Eingriff in Grundrechte?

Was zwischen Netzaktivisten und Sicherheitspolitikern offenbar umstritten ist, ist also die Frage, ab wann denn von einem Grundrechteeingriff gesprochen werden kann: beim Scannen, bei der Aufzeichnung, bei der automatischen Analyse oder erst bei der personenbezogenen Auswertung („manuelle Bearbeitung“)?

Zellenspion, Gedenkstätte Bautzner Straße Dresden

Mit dieser Frage hat sich das Bundesverfassungsgericht in seinem Urteil vom 14.7.1999 beschäftigt, das 2001 zur bis heute geltenden Neuregelung des G 10-Gesetzes, des Gesetzes zur Beschränkung des Brief-, Post- und Fernmeldegeheimnisses, geführt hat.

Darin zeigt sich das Bundesverfassungsgericht durchaus sensibilisiert für die Folgen des automatisierten Beobachtens des Datenverkehrs:

„Die Nachteile, die objektiv zu erwarten sind oder befürchtet werden müssen, können schon mit der Kenntnisnahme eintreten. Die Befürchtung einer Überwachung mit der Gefahr einer Aufzeichnung, späteren Auswertung, etwaigen Übermittlung und weiteren Verwendung durch andere Behörden kann schon im Vorfeld zu einer Befangenheit in der Kommunikation, zu Kommunikationsstörungen und zu Verhaltensanpassungen, hier insbesondere zur Vermeidung bestimmter Gesprächsinhalte oder Termini, führen. Dabei ist nicht nur die individuelle Beeinträchtigung einer Vielzahl einzelner Grundrechtsträger zu berücksichtigen. Vielmehr betrifft die heimliche Überwachung des Fernmeldeverkehrs auch die Kommunikation der Gesellschaft insgesamt. Deshalb hat das Bundesverfassungsgericht dem – insofern vergleichbaren – Recht auf informationelle Selbstbestimmung auch einen über das Individualinteresse hinausgehenden Gemeinwohlbezug zuerkannt (vgl. BVerfGE 65, 1 ).“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 234)

Und die Richter stellen klar, dass der Eingriff in Grundrechte nicht erst bei der manuellen Auswertung beginnt sondern schon beim Erfassen:

„Da Art. 10 Abs. 1 GG die Vertraulichkeit der Kommunikation schützen will, ist jede Kenntnisnahme, Aufzeichnung und Verwertung von Kommunikationsdaten durch den Staat Grundrechtseingriff (vgl. BVerfGE 85, 386 ). Für die Kenntnisnahme von erfaßten Fernmeldevorgängen durch Mitarbeiter des Bundesnachrichtendienstes steht folglich die Eingriffsqualität außer Frage. […] Eingriff ist daher schon die Erfassung selbst, insofern sie die Kommunikation für den Bundesnachrichtendienst verfügbar macht und die Basis des nachfolgenden Abgleichs mit den Suchbegriffen bildet. […] Der Eingriff setzt sich mit der Speicherung der erfaßten Daten fort, durch die das Material aufbewahrt und für den Abgleich mit den Suchbegriffen bereitgehalten wird. Dem Abgleich selbst kommt als Akt der Auswahl für die weitere Auswertung Eingriffscharakter zu. Das gilt unabhängig davon, ob er maschinell vor sich geht oder durch Mitarbeiter des Bundesnachrichtendienstes erfolgt, die zu diesem Zweck den Kommunikationsinhalt zur Kenntnis nehmen. Die weitere Speicherung nach Erfassung und Abgleich ist als Aufbewahrung der Daten zum Zweck der Auswertung gleichfalls Eingriff in Art. 10 GG.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 186ff)

Und wann ist dieser Eingriff gerechtfertigt?

Gleichzeitig aber sieht das Bundesverfassungsgericht die von Außen drohenden Gefahren als wesentlichen Grund, der geeignet ist, Grundrechtseinschränkungen zu gestatten:

„Auf der anderen Seite fällt ins Gewicht, daß die Grundrechtsbeschränkungen dem Schutz hochrangiger Gemeinschaftsgüter dienen. […] Die Gefahren, die ihre Quelle durchweg im Ausland haben und mit Hilfe der Befugnisse erkannt werden sollen, sind von hohem Gewicht. Das gilt unverändert für die Gefahr eines bewaffneten Angriffs, aber auch, wie vom Bundesnachrichtendienst hinreichend geschildert, für Proliferation und Rüstungshandel oder für den internationalen Terrorismus. Ebenso hat das hinter der Aufgabe der Auslandsaufklärung stehende Ziel, der Bundesregierung Informationen zu liefern, die von außen- und sicherheitspolitischem Interesse für die Bundesrepublik Deutschland sind, erhebliche Bedeutung für deren außenpolitische Handlungsfähigkeit und außenpolitisches Ansehen.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 235, 238)

In seiner Abwägung kommt das Bundesverfassungsgericht zu dem Ergebnis, dass die verdachtslose Überwachung des Fernmeldeverkehrs im und mit dem Ausland durch den Bundesnachrichtendienst und damit der vorher formulierte Eingriff in die Grundrechte der Bundesbürger gerechtfertigt ist:

„Die unterschiedlichen Zwecke rechtfertigen es aber, daß die Eingriffsvoraussetzungen im G 10 anders bestimmt werden als im Polizei- oder Strafprozeßrecht. Als Zweck der Überwachung durch den Bundesnachrichtendienst kommt wegen der Gesetzgebungskompetenz des Bundes aus Art. 73 Nr. 1 GG nur die Auslandsaufklärung im Hinblick auf bestimmte außen- und sicherheitspolitisch relevante Gefahrenlagen in Betracht. Diese zeichnet sich dadurch aus, daß es um die äußere Sicherheit der Bundesrepublik geht, vom Ausland her entstehende Gefahrenlagen und nicht vornehmlich personenbezogene Gefahren- und Verdachtssituationen ihren Gegenstand ausmachen und entsprechende Erkenntnisse anderweitig nur begrenzt zu erlangen sind. Der Bundesnachrichtendienst hat dabei allein die Aufgabe, zur Gewinnung von Erkenntnissen über das Ausland, die von außen- und sicherheitspolitischer Bedeutung für die Bundesrepublik Deutschland sind, die erforderlichen Informationen zu sammeln, auszuwerten und der Bundesregierung über die Berichtspflicht Informations- und Entscheidungshilfen zu liefern.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 241)

Eine Rolle bei der Abwägung hat offenbar auch gespielt, dass die Anzahl der überwachten Telekommunikationsbeziehungen verglichen mit der Gesamtzahl aller oder auch nur der internationalen Fernmeldekontakte aber vergleichsweise niedrig war. E-Mails waren damals beispielsweise noch gar nicht von der Überwachung betroffen. Darüberhinaus wertete das Bundesverfassungsgericht auch das Verbot zur gezielten Überwachung einzelner Anschlüsse, das im G 10-Gesetz verfügt wird, und die Tatsache, dass eine Auswertung und Weitergabe der Informationen nur in wenigen Fällen erfolge, als weitere wichtige Gründe für die Vereinbarkeit des G 10-Gesetzes mit dem Grundgesetz:

„Auch wenn die freie Kommunikation, die Art. 10 GG sichern will, bereits durch die Erfassung und Aufzeichnung von Fernmeldevorgängen gestört sein kann, erhält diese Gefahr ihr volles Gewicht doch erst durch die nachfolgende Auswertung und vor allem die Weitergabe der Erkenntnisse. Insoweit kann ihr aber auf der Ebene der Auswertungs- und Übermittlungsbefugnisse ausreichend begegnet werden.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 243)

Erfassung und Aufzeichnung bedrohen also schon die freie Kommunikation, Auswertung und Weitergabe aber, so sahen es die Verfassungsrichter, sind weitaus schlimmer. Es ist wie mit den Sicherheitskontrollen am Flughafen: je stärker sie die Objekte der Überwachung vereinzeln, je weniger sie maschinell sondern durch Personen erfolgen, desto unangenehmer sind sie.

Vom Filtern und Auswerten: Formale und inhaltliche Suchbegriffe

Die entscheidende Frage ist also: Ab wann liegt eine Auswertung vor, wann werden aus Signalen Informationen? Beschwerdeführer wie Verfassungsrichter waren sich gleichermaßen einig darin, dass eine Auswertung bei einem „computergestützten Wortbankabgleich“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 56), beim Filtern also, noch nicht vorliege. Das BVerfG-Urteil fiel freilich in eine Zeit des Umbruchs.

Innenhof der Gedenkstätte Bautzner Straße Dresden

Das G10-Gesetz stammt aus dem Jahr 1968 und damit aus einer Zeit, in der Daten zwar großflächig erhoben werden konnten, ohne dass es jedoch technisch möglich war, die Kommunikationsdaten einzelnen Kommunikationspartnern zuzuordnen und die Inhalte massenhaft automatisiert zu filtern. Dies hatte sich Ende der 1990er Jahre freilich schon geändert. Das Bundesverfassungsgericht wusste schon damals um die Aussagekraft der Verbindungsdaten:

„Ferner führt die Neuregelung zu einer Ausweitung in personeller Hinsicht. Zwar ist die gezielte Erfassung bestimmter Telekommunikationsanschlüsse gemäß § 3 Abs. 2 Satz 2 G 10 ausgeschlossen. […] Faktisch weitet sich der Personenbezug dadurch aus, daß es im Gegensatz zu früher heute technisch grundsätzlich möglich ist, die an einem Fernmeldekontakt beteiligten Anschlüsse zu identifizieren. (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 9)

Zudem wurde die Anwendung von G 10-Maßnahmen bei der Novelle auf weitere Delikte ausgeweitet: neben Gefahren eines bewaffneten Angriffs traten die Proliferation und der illegale Rüstungshandel, der internationale Terrorismus, Handel mit Rauschgift und Geldwäsche. Allesamt Gefahren, die „stärker subjektbezogen sind und auch nach der Darlegung des Bundesnachrichtendienstes vielfach erst im Zusammenhang mit der Individualisierung der Kommunikationspartner die angestrebte Erkenntnis liefern.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 229)

Geruchskonserve in der Gedenkstätte Bautzner Straße Dresden

Man beruhigte sich freilich damit, dass nur sehr wenige Fernmeldevorgänge tatsächlich in der Auswertung landeten. Der Innenminister führte an, die „materiellen und personellen Ressourcen des Bundesnachrichtendienstes reichten […] nicht aus, das Aufkommen vollständig auszuwerten.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 89) Lediglich 700 der 15.000 erfassten Fernmeldevorgänge würden mit Hilfe von Suchbegriffen selektiert, 70 würden von Mitarbeitern persönlich geprüft und 15 kämen in die Fachauswertung. Zwischen dem Filtern mit Hilfe von Suchbegriffen und dem Auswerten liegen also noch zwei Schritte. Wie aus den 700 Fernmeldevorgängen 70 werden, darüber schweigt der Innenminister. Anzunehmen ist, dass die gefilterteten Inhalte auf Suchwortkombinationen hin analysiert wurden.

Die Filterung erfolgt auch heute noch anhand formaler und inhaltlicher Suchbegriffe, die bei der Anordnung von G 10-Maßnahmen festgelegt werden. Formale Suchbegriffe sind „Anschlüsse von Ausländern oder ausländischen Firmen im Ausland“, inhaltliche Suchbegriffe sind „beispielsweise Bezeichnungen aus der Waffentechnik oder Namen von Chemikalien, die zur Drogenherstellung benötigt“ werden (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 87).

Suchen ist analysieren

Interessant an der Verhandlung über das G 10-Gesetz ist aber auch eine Aussage des Innenministers, in der er einräumt, dass die „Auswertung anhand der Suchbegriffe […] im Telex-Bereich vollautomatisch möglich“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 90) sei. Schon 1999 fand also eine automatische Auswertung statt, wenn auch aufgrund technischer Beschränkungen, nur in einem kleinen Bereich. Denn dieses Eingeständnis zeigt, dass die Trennung von Filterung und Auswertung, also von Suche und Analyse lediglich eine künstliche ist.

Für heutige automatische Textanalysen gilt: Suchen ist Analysieren. Wenn wir eine Anfrage an ein großes Textkorpus formulieren, dann fließen in diese Anfrage so komplexe Modelle über die Strukturierung und den semantischen Gehalt von Texten ein, dass jeder Anfrage faktisch eine Analyse zugrundeliegt. Um zu bestimmen, welche Themen in einem Dokument verhandelt werden, braucht man keinen Auswerter mehr; Topic Models schaffen Abhilfe.

In der Unterrichtung durch das Parlamentarische Kontrollgremium (PKGr) über die Durchführung sowie Art und Umfang von G 10-Maßnahmen im Jahr 2011 heißt es, lediglich ein eingeschränkter Teil internationaler Verkehre, der automatisiert stark gefiltert werde, unterliege der Aufklärung, nur

„ein geringer Anteil dieser E-Mails wird überhaupt manuell bearbeitet. […] Der deutliche Rückgang im Jahre 2011 ist auch darauf zurückzuführen, dass der BND das von ihm angewandte automatisierte Selektionsverfahren auch vor dem Hintergrund der Spamwelle im Jahre 2010 zwischenzeitlich optimiert hat. Hierzu haben unter anderem eine verbesserte Spamerkennung und -filterung, eine optimierte Konfiguration der Filter- und Selektionssysteme und eine damit verbundene Konzentration auf formale Suchbegriffe in der ersten Selektionsstufe beigetragen.“

Welche Verfahren genau zum Einsatz kommen, dazu schweigt der Bericht. Immerhin räumt er ein, dass Filterung und Selektion automatisch in einem mehrstufigen Verfahren erfolgen. Artikel 10, Absatz 4 des G 10-Gesetzes erlaubt es dem BND, bis zu 20% der auf den Übertragungswegen zur Verfügung stehenden Übertragungskapazitäten zu überwachen. 20% der Kapazitäten. Nicht 20% der tatsächlichen Kommunikation. Und zu den Kapazitäten schweigt sich der Bericht aus, auch zu den konkreten Zahlen der insgesamt erfassten Interaktionen. Sicher ist nur, dass sämtliche Formen der digitalen Kommunikation maschinell auswertbar sind: Telefongespräche, Faxe, Chatnachrichten, E-Mails, SMS etc.

Um aus einer so riesigen Datenmenge, wie sie in einem Jahr anfällt, eine vergleichsweise kleine Menge an Kommunikationsverkehren für die Auswertung herauszudestillieren — 329.628 Telekommunikationsverkehre im Bereich internationaler Terrorismus werden als auswertungswert erkannt, das sind weniger als 1000 pro Tag — reichen einfache Schlagwortsuchen nicht aus. Hierfür ist eine Modellierung von Themen anhand der Gewichtung und Distribution von Suchbegriffen nötig. Und dies auf allen erfassten Kommunikationsverkehren. Ein solches Verfahren ist nicht nur eine Filterung, sondern hat den Charakter einer Auswertung, es ist Suche und Analyse zugleich.

Die Dienste lesen nicht unsere E-Mails, sie wissen aber doch, was drin steht. Janosch lässt grüßen.

Definitionsmacht ohne Kontrolle

Die Auswertung geschieht zwar weitgehend automatisch. Das ist aber im Ergebnis kaum weniger schlimm, als wenn sie von einem Menschen vorgenommen würde. Denn „automatisch“ bedeutet natürlich nicht „objektiv“ oder „absichtslos“. Hinter der Auswahl der Suchbegriffe und der Modellierung von Themen stehen Vorstellungen von Gefahren und Gefährdern, die lediglich vor dem sehr engen Kreis der Mitglieder der G 10-Kommission und des Parlamentarischen Kontrollgremiums, Abgeordnete und Juristen, gerechtfertigt werden müssen. Davon abgesehen sind diese Vorstellungen so geheim wie die gewählten Suchbegriffe. Der BND besitzt hier eine Definitionsmacht, die sich einer gesellschaftlichen Debatte oder Kontrolle und einer wissenschaftlichen Prüfung entziehen kann. Diese Vorstellungen zählen zu den Arcana Imperii. Denn die Logik der Überwachung ist selbst Teil dessen, was aus Sicht der Überwacher geschützt werden muss.

Verhörraum Gedenkstätte Bautzner Straße Dresden

Der Vergleich hinkt zwar, ist aber dennoch bedenkenswert: Wie wäre es, wenn man das StGB geheimhalten würde mit der Begründung, dann wüssten ja potenzielle Kriminelle, welche Handlungen als kriminell gelten und daher zu vermeiden wären? Dies erscheint uns deshalb so absurd, weil das StGB gewissermaßen der Maßstab ist, an dem wir messen, ob jemand kriminell oder straffällig geworden ist. Wäre das StGB unveröffentlicht, dann wäre Kriminellsein nicht etwas, das sich (auch für den potenziell Kriminellen) anhand dieses Maßstabs bestimmen ließe, sondern eine Eigenschaft der Personen, die sich in Taten aktualisieren kann, aber nicht muss. So sehr der Vergleich auch hinkt, so macht er doch sichtbar, dass die Dienste Identitäten nach demselben Muster zuschreiben: ein „Gefährder“ oder „Terrorist“ ist nicht erst dann ein Terrorist, wenn er zuschlägt oder zugeschlagen hat. Er ist es schon vor der Tat. Er ist identifizierbar durch seine Sprache, die auf künftige Taten auch dann verweisen kann, wenn sie die Tat nicht einmal zum Thema hat. Und diese Zuschreibung erfolgt in einem Feld, in dem die Zuschreibungen an weitergehende Überwachungs- und Strafregime gebunden sein kann. Wie würden wir es finden, wenn der Bundesgrenzschutz die Liste von Gegenständen, die auf Flugreisen nicht im Gepäck mitgeführt werden dürfen, geheimhalten würde? Und wenn der Bundesgrenzschutz aufgrund von Verstößen gegen diese Liste Passagieren das Fliegen verweigern könnte, ohne sagen zu müssen, warum?

Die strategische Fernmeldeüberwachung ist durch den technisch-informatischen Fortschritt so effizient geworden, dass ihre rechtliche Grundlage fragwürdig geworden ist. Die Macht, zu definieren, wer „Terrorist“ oder „Gefährder“ ist, darf daher nicht länger ohne Kontrolle bleiben.

comments: Kommentare deaktiviert tags: BND, Bundesverfassungsgericht, BVerfG, COMINT, Filtern, G 10-Gesetz, G 10-Kommission, Grundrechte, Lesen, Parlamentarisches Kontrollgremium, Scannen, strategische Fernmeldeaufkläung

Die Buchlesemaschine des Bundesamtes für Verfassungsschutz

Posted on 13th Februar 2014 in Digitale Revolution, Inhaltswörter, Politik, Überwachung und Sicherheit

Liebe Freunde der Sicherheit,

Lesen bildet zwar, aber in Zeiten der Digitalisierung kann Lesen viel effizienter durch Automaten erledigt werden. Dass unsere Dienste auch hier an der Spitze der technologischen Entwicklung stehen, belegt ein Dokument, auf das mich ein Kollege aufmerksam gemacht hat. In der 29. Sitzung des 2. Parlamentarischen Untersuchungsausschusses am 13. September 2012 spielte ein offenbar im Selbstverlag publiziertes Buch eine Rolle.

Scanroboter im Digitalisierungszentrum der SLUB

In diesem 2004 erschienenen Buch, das von einer Person verfasst wurde, die sich dem Landesamt für Verfassungsschutz in Baden-Württemberg vorher bereits als Informant andiente, tauchte neben Referenzen auf eine rechtsterroristische Zelle namens NSU auch der Name eines Beamten des Landesamtes für Verfassungsschutz in Baden-Württemberg auf. Die Aussage dieses LfV-Beamten, Günter Stengel, bringt es ans Tageslicht: Das Bundesamt für Verfassungsschutz digitalisiert Schriften und durchsucht sie nach „Begriffen“. Darunter sind einerseits die Arbeitsnamen von Mitarbeitern, aber offenbar auch Schlagwörter. Hier Ausschnitte des Wortlautprotokolls:

Clemens Binninger (CDU/CSU): Woher haben Sie denn erfahren, dass der ein Buch publiziert oder ein Buch schreibt und das an Gott und die Welt schickt? Woher haben Sie das dann erfahren?

Zeuge Günter Stengel: Ich glaube, das habe ich vom BfV erfahren. Die haben so eine Buchlesemaschine auf bestimmte Wörter. Da war Arbeitsname – so ist es rausgekommen — war mein Arbeitsname dabei.

Clemens Binninger (CDU/CSU): Ach, die sichten die Bücher, ob in Büchern irgendwas über LfV-Leute oder BfV-Leute steht?

Zeuge Günter Stengel: Wahrscheinlich hat er sich dorthin auch gewandt, an diese Stelle, und irgendeine Dienststelle hat das Buch dann von ihm zugeschickt bekommen. Ich weiß noch, dass dann ein Schreiben kam: Hier ist schon wieder ein Vermerk von diesem Stauffenberg, ein Buch geschrieben, und Sie vom LfV Baden-Württemberg sind persönlich genannt.

Clemens Binninger (CDU/CSU): Aber so was müsste doch auch irgendwo in den Akten des LfV zu finden sein. Also, jetzt sind wir ja in einem anderen offiziellen Vorgang. Quasi zum Eigenschutz der Behörde werden Bücher im Prinzip durchgeguckt: Wird irgendwo einer unserer Mitarbeiter enttarnt? Sie haben ja alle Arbeitsnamen, sind zwar keine V-Leute, aber haben Arbeitsnamen. Wenn das der Fall ist, gibt es eine kurze Meldung an das jeweilige Landesamt: Achtung, in diesem oder jenen Buch wird Herr oder Frau XY genannt. – Ist so das Verfahren?

Zeuge Günter Stengel: Ja, so muss das gewesen sein. Ich weiß, dass in dem Buch – – Es sind auch viele Politikernamen genannt worden und LfV Baden-Württemberg. Er schreibt dann, was ich damals zu einer be- stimmten Sache angeblich geredet habe, und dann hat er sich an den MAD gewandt, und der hätte gar das Gegenteil von mir gesagt. […]

Clemens Binninger (CDU/CSU): Gut. Wir haben ja nachher noch jemanden da, der sich mit den normalen Arbeitsabläufen eigentlich am besten auskennen müsste. Den können wir ja dann auch noch mal fragen, ob es da ein eingespieltes Verfahren gibt, wie mit solchen Verdachtshinweisen oder – – „Verdacht“ ist falsch – aber so Enttarnungshinweisen oder -gefahren umgegangen wird, ob es so ein standardisiertes Verfahren gibt und Sie dann benachrichtigt werden. Titel hat man Ihnen nie gesagt. Können Sie sich auch nicht erinnern?

Zeuge Günter Stengel: Nein. Im Gegensatz zu anderen Begriffen ist mir das nicht im Gedächtnis geblieben.

Clemens Binninger (CDU/CSU): Werden dann solche Bücher asserviert? Ich meine, die Behörden heben ja im Zweifel alles auf, was nur irgendwie ein bisschen relevant ist. Oder meinen Sie, gescannt und gelesen, dann weggeschmissen?

Zeuge Günter Stengel: Das weiß ich nicht.

Clemens Binninger (CDU/CSU): Wissen Sie nicht.

Zeuge Günter Stengel: Kann ich nichts dazu sagen.

Quelle: Stenografisches Protokoll der 29. Sitzung des 2. Untersuchungsausschusses am Donnerstag, dem 13. September 2012, 10 Uhr Paul-Löbe-Haus, Berlin, S. 92f.

Ich freue mich natürlich, dass auch das BfV seinen Beitrag dazu leistet, dass die Digitalisierung unserer Bucharchive nicht allein in der Hand amerikanischer Großkonzernen wie Google liegt.

comments: Kommentare deaktiviert tags: Bundesamt für Verfassungsschutz, Lesen, OCR, Parlemantarischer Untersuchungsausschuss, Scannen, Scanroboter

Sommerschule: Digitization and its Impact on Society

Posted on 15th Mai 2013 in Digitale Revolution, Off Topic

An der TU Dresden organisiere ich zusammen mit vielen KollegInnen eine Sommerschule. Über Bewerbungen von Interessierten freue ich mich.

Call for Papers / Travel grants
International summer school „Digitization and its Impact on Society“
Technische Universität Dresden
September 29 – October 5, 2013

The digital revolution is altering the present in many ways not all of which have been sufficiently addressed by research. There are three core aspects to this change:

The digitization of our world: More and more information is being converted into a digital format or is already being produced in this numerical form.
Parallel to the emergence of ‚Big Data‘, digitization allows data from different sources to be combined and analyzed together: The representation of different types of information in a numerical model enables the analysis and combination of this information through the use of algorithms. This, in turn, is the basis for
the growing emancipation of data from the purpose for which they were produced: Digitization allows any kind of query to the data possible in a mathematical model. The result is the user’s freedom from the archive’s structures, coupled with a certain loss of control over one’s own data.

Initiated by the traditional computer-based sciences, the process of digitization also affects Social Sciences and the Humanities. Although each discipline has already developed its own questions and approaches in Digital Humanities, a broader, interdisciplinary discussion about the new technologies’ impact on society is still missing.

The summer school’s aim is to initiate this interdisciplinary discussion. The following disciplines will be included (Please note that the summer school is basically open to all disciplines)

Language, Literature and Cultural Studies

Digitization enables a fresh look at archives (Data-driven History) and poses questions on permanent forms of storage and how digitizing historical collections affects cultural memory. Moreover, digitization also challenges the notions of authenticity and cultural situatedness that are commonly associated with both the everyday and the aesthetic use of language.

Business and Economics

The low costs involved with the trade of digital goods have created new challenges. Markets are no longer dominated by producers of goods, but by providers of infrastructure and platform operators. Digital piracy has become a major economic obstacle in developing new digital products.

Law

Digitization raises fundamental questions with regard to the allocation of rights to information and with regard to the access to information. It is a major challenge to secure an adequate balance between exclusive intellectual property rights on the one hand, and freedom of information on the other. The second focus of the legal perspective lies on the implications for the legal protection of the private sphere. Due to changes of the media landscape, the process of digitization requires to re-examine the equilibrium between data protection and personality rights vis-à-vis the fundamental right to freedom of speech.

Sociology and Political Science

Digital communication calls for the redefining or even the elimination of terms such as ‚private‘ and ‚public‘. Furthermore, digitization creates new possibilities for political participation and draws attention to the cross-cutting issue of network policy.

Communication and Media Science

The exchange of information through the digitization of sound, image and text has led to a radical change of the public sphere. Due to the technical structure of the digital networks anybody can become a sender. As a result, the resource of public attention and the quality of information become central foci for research.

Education

The digitization of learning content and learning environments (virtual classroom) is bringing us closer to the ideal of free and equal access to educational resources. At the same time it is causing changes to teaching methods, assessment and evaluation (based on learning analytics) and even to scientific publishing (e.g. Science-Blog).

The summer school’s key topics include (but are not limited to) the following:

Digital archive and cultural memory
Online communities of practice and their symbolic forms (e.g. cyber language)
Economics of online platforms and platform neutrality
Copyright and freedom of information in the digital age
Social networks and ubiquitous media / Change of the public sphere
Liquid democracy vs. post-democracy
Potentials of digitizing university research and teaching

TU Dresden offers travel grants for up to 20 post-docs and PhD students from all nations. The grants will cover travel and accommodation. Preference will be given to interdisciplinary topics.

Applications:

Please apply with your CV and your abstract (max. 400 words) for a 20-minute presentation on your current research by June 15, 2013 at

http://linguistik.zih.tu-dresden.de/application/

Organization:

Dresden Center for Digital Linguistics, Noah Bubenhofer, Joachim Scharloth, Yvonne Krämer

Scientific Committee:

Noah Bubenhofer, Thomas Bürger, Wolfgang Donsbach, Horst-Peter Götting, Lutz Hagen, Thomas Köhler, Holger Kuße, Claudia Lange, Anne Lauber-Rönsberg, Joachim Scharloth, Eric Schoop, Marcel Thum

comments: Kommentare deaktiviert tags: Call for Papers, Digitzation, Summer School

Utopie vom Ende des Plagiats

Posted on 10th Februar 2013 in Digitale Revolution, Off Topic

Das Plagiat ist wie der Schimmel auf der Käserinde. Man könnte die Rinde wegschneiden und den Käse essen, wenn er denn gut ist. Aber der Ekel und die Vermutung, der Schimmel habe den ganzen Käse verdorben, lässt ihn uns wegwerfen. In der Wissenschaft manifestieren sich Plagiate in fehlenden Fußnoten oder Anführungszeichen. Die Fußnote hätte auf einen früheren Text verweisen sollen, in dem der Gedanke, den sich die vorliegende Studie zu eigen macht, in den gleichen oder anderen Worten, schon einmal oder gar zum ersten mal formuliert ist. Aber auch hier gibt es Grenzen: Natürlich muss man nicht auf die „Kritik der reinen Vernunft“ verweisen, wenn man das Wort „Transzendentalphilosophie“ benutzt. Die Fachkollegen würden schmunzeln.

Die meisten Plagiate in den Kultur- und Sozialwissenschaften (das ist meine Erfahrung mit studentischen Hausarbeiten) treten in jenen Teilen der Arbeit auf, in denen Forschungsgeschichte referiert, Konzepte spezifiziert und Theorien dargestellt werden. Dann wird mangels gründlicher Rezeption der relevanten Texte aus allerlei Sekundärquellen eine auf Kohärenz zielende Darstellung zusammenkomponiert. Und weil es peinlich wäre, die mangelnde Lektüre zuzugeben und „zitiert nach“ zu schreiben, und zu gewagt, die Paraphrase der Sekundärquelle noch einmal durch eine eigene Paraphrase wiederzugeben, tut man so, als habe man das Werk selbst gelesen oder übernimmt wörtlich aus einer Sekundärquelle und lässt den Nachweis weg. Kein Zweifel: Leser und Leserin werden so auf inakzeptable Weise getäuscht.

Wer die Lektüre wichtiger Quellen und Sekundärquellen nur vortäuscht, so könnte man meinen, kann auch keine gute Arbeit schreiben. Stimmt aber leider nicht. Freilich, die guten Studierenden sind klug genug, nicht zu plagiieren. Dennoch erweisen sich bisweilen auch gut oder gar sehr gute Arbeiten als Plagiatsfälle. Die Betreffenden hatten die Theorien, die sie plagiierend referierten, auch ohne vertiefte Lektüre der relevanten Texte verstanden. Und sie waren in der Lage, darauf aufbauend eigenständig zu forschen und neue Erkenntnisse zu generieren. Der Schimmel ist „nur“ auf der Käserinde, den Käse selbst könnten wir eigentlich essen, wenn da nicht unser Ekel wäre.

Bei der Diskussion um Plagiate tritt häufig in den Hintergrund, dass es die eigenständige Denkleistung der Forschenden ist, der Erkenntnissgewinn im Verhältnis zu anderen Arbeiten, der die eigentliche wissenschaftliche Leistung ausmacht. Dennoch ist die Täuschung, vor allem dann, wenn sie gehäuft und systematisch erfolgt, inakzeptabel.

Die utopische Lösung ist, die Täuschung abzuschaffen und mit ihr die Flüchtigkeit, die Ungenauigkeit, die handwerklichen Fehler und was sonst alles noch als Ausrede dafür herhalten muss, wenn Fußnote oder Anführungszeichen fehlen. Die Lösung wäre es, Wissenschaftlerinnen und Wissenschaftler vom Zitieren und Verweisen zu entlasten. Sie müssten es nicht mehr selber tun dürfen, sondern die Verantwortung an eine Software abgeben müssen. Eine Software, die in einem fertigen Text vor der Publikation alle intertextuellen Bezüge annotieren würde. Die Software müsste besser sein, als die momentan verfügbare Plagiatssoftware, denn sie müsste über die sprachliche Oberfläche hinaus Konzepte und Argumentationsmuster identifizieren und mit einander in Beziehung setzen können. Das ist zurzeit leider utopisch. Und sie müsste sich auf das Gesamtarchiv aller (wissenschaftsaffinen) Texte stützen können. Auch das ist angesichts des geltenden Urheberrechts leider utopisch. Der Zitationsgraph, dessen Granularität man je nach Erkenntnisinteresse regulieren könnte, wäre wissenschaftshistorisch hochinteressant. Und wenn eine Arbeit nur aus Zitaten früherer Werke zusammengestoppelt wäre ohne den Funken einer eigenen Erkenntnis, dann würde sie auch keinen interessieren. Der Käse wäre ungenießbar, aber nicht wegen des Schimmels auf der Rinde.

Leider werden Wissenschaftlerinnen und Wissenschaftler aber auch weiterhin einen gewichtigen Teil ihrer Ressourcen in die Pflege von Literaturdatenbanken und Fußnotenapparaten investieren, Plagiatsjäger ihre Freizeit in das Auffinden für Indizien von Täuschungsabsichten und Fakultäten viel Geld in Lizenzen für Plagiatssoftware.

comments: 2 » tags: Plagiat, Plagiatssoftware, Wissenschaft, Zitationsgraph

Wittgenstein im Web 2.0

Posted on 2nd Februar 2013 in Digitale Revolution, Off Topic

Das Internet hat uns alle zu potentiellen Sendern gemacht. War die Öffentlichkeit früher durch die Gatekeeperfunktion der Massenmedien geprägt, so steht der Zugang zu den publizistischen Produktionsmitteln im Web 2.0 jedermann offen. Der angenehme Effekt, von dem auch ich als Wissenschaftler hier und da beglückt wurde: Einstmals angesehene Autoritäten verlieren ihre Deutungsmacht und kommen in die unangenehme Situation, sich argumentativ rechtfertigen zu müssen — vor den Interessierten und Engagierten, aber auch vor den digitalen Spießern.

Wie ergeht es aber jenen, die sich nicht mehr rechtfertigen können, weil sie etwa schon tot sind? Wie ergeht es beispielsweise dem von mir sehr verehrten Ludwig Wittgenstein im Web 2.0? Auf goodreads.com können Rezensionen zu Büchern hinterlassen werden und auch Wittgenstein wird fleißig und schonungslos besprochen. Solche Rezensionen sind dann von besonderem Wert, wenn sie quer zur bisherigen Forschungsmeinung stehen und Aspekte am Werk betonen, die bislang noch kaum in den Blick gerückt sind, wie etwa in der folgenden Rezension der Philosophischen Untersuchungen von meinem Kollegen Prof X:

Als besonderer Kenner von Wittgensteins Werk erweist sich auch Autor JB. In einer differenzierten Würdigung des Tractatus logico-philosophicus übertrifft er die aphoristische Kraft des rezensierten Werks um Längen:

Doch JB kann es noch besser: In einer weiteren Rezension verbindet er auf engstem Raum eine von tiefer Textkenntnis zeugende Einordnung der Philosophischen Untersuchungen in das Gesamtwerk Wittgensteins mit an der historisch-kritischen Methode geschulten Anmerkungen zur Textgestalt, kombiniert dies mit einer biographischen Deutung des Gesamtwerks und verpackt seine Kritik in eine in seiner Tiefgründigkeit nur schwer zu fassende Anspielung auf einen absoluten Höhepunkt der Weltliteratur:

Die Konzepte der Autorität und Deutungsmacht relektiert Rezensent Josh in einem anspielungsreichen, den rezensierten Tractatus an intellektueller Schärfe bei weitem übertreffenden, Aphorismus:

Kommen wir zu einem anderen Klassiker, über den besonders viele weibliche Mitglieder der Netzgemeinde Tiefsinniges ins Eingabeformular getippt haben: Friedrich Nietzsche. Auch hier möchte ich einige der kenntnisreichsten und erkenntnisfördernsten Texte zu Also sprach Zarathustra vorstellen.

Rezensentin Susan vollbringt das intellektuelle Kunststück, Namensschreibung und Deutung des Gesamtwerks überzeugend in eine sinnhafte Beziehung miteinander zu setzen:

Neu war mir, dass die Plagiatsjäger auch bei Nietzsche fündig geworden sind:

Als überaus produktiv erweist sich auch die Lektüre des Werks aus der Perspektive der gender studies, aus der Gloria Suzie zentrale Fragen an Text und Autorfunktion heranträgt:

Und Autorin Devon dekonstruiert Nietzsche aus einer cis-weiblichen Position:

Getreu dem Aphorismus „‚Erkenne dich selbst‘, ist die ganze Wissenschaft“ deutet Rezensentin Gini den Text im Sinne der performativen Dimension der Lektüre auf die Leserin, also sich selbst:

Auch die Autorität eines weiteren Stars der Philosophie bleibt von kritischen Reflexionen im user generated content nicht unangetastet: Immanuel Kant.

Während einige Kants Hauptwerk Kritik der reinen Vernunft differenziert argumentierend aus grundsätzlichen Erwägungen rundweg ablehnen…

… stellen andere die Bedeutung des Königsberger Philosophen nicht in Frage, kritisieren ihn jedoch wegen mangelnder Lebhaftigkeit in der Darstellung …

… und dem zugegebenermaßen chaotischen und unsystematischen Aufbau seines Werks:

Andere hingegen betonen ganz im Gegensatz zur relativen Körperferne der Transzendentalphilosophie die Materialität des Textes und die Möglichkeit seiner Einschreibung in den eigenen Leib — ein im etablierten philosophischen Diskurs bislang völlig unbeachteter Zugang zu Kants Werk:

Auch an subtilem Humor fehlt es den Rezensentinnen nicht, die in den feinen Verästerlungen der Sprache ironisch verpackte Kritik anklingen lassen:

Der letzte Theoretiker, dessen kritische Würdigung im Web 2.0 hier vogestellt werden soll, ist John Langshaw Austin und dessen einflussreiches Hauptwerk How to Do Things with Words. Ein Werk, das schon bei der ersten Sichtung zu begeisterten Kommentaren führt:

Doch ein eingehendes Studium des Textes lässt auch die kritikwürdigen Aspekte hervortreten. Bean verortet Austin etwa in innovativer Weise im puristischen Diskurs.

Andere Rezensenten bemängeln trotz Anerkennung des durch Austin geleisteten Erkenntnisfortschritts den mangelnden Anwendungsbezug:

Kritisch wird das Scheitern der Austinschen Anleitung zum Wortgebrauch auch im Hinblick auf Sprechakte reflektiert, die an Unbelebtes gerichtet werden; eine Dimension, die der Meister in seinem Werk völlig außer Betracht ließ:

Hannah Arendt schreibt in „Macht und Gewalt“: „Autorität bedarf zu ihrer Erhaltung und Sicherung des Respekts entweder vor der Person oder dem Amt. Ihr gefährlichster Gegner ist nicht Feindschaft sondern Verachtung, und was sie am sichersten unterminiert, ist das Lachen.“ Ich danke dem Web 2.0 für die Öffnung vieler diskursiver Räume und wünsche mir mehr von dem Humor, der in anderen Teilen des Webs immer wieder aufscheint auch in seinem deutschsprachigen Teil.

comments: Kommentare deaktiviert tags: Austin, Autorität, Deutungsmacht, Digitale Revolution, Humor, Kant, Nietzsche, Web 2.0, Wittgenstein