Syntax | surveillance and security - Computer- und korpuslinguistische Methoden des politisch motivierten Internet-Monitorings

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Posted on 14th April 2011 in authorship identification, Buchstaben, Funktionswörter, Inhaltswörter, Linguistische Kategorien, n-Gramme, Satzzeichen, Stilometrie / stylometry, Syntax, Textklassifikation, Textkomplexität, Wortarten / part of speech (pos)

Will man Texte klassifizieren, z.B. Zeitungstexte automatisch in die Kategorien Nachrichten, Kommentar und Feature sortieren, oder untersuchen, ob Texte unbekannter Herkunft von einem bestimmten Autor stammen, dann muss Merkmale festlegen, anhand derer die Texte mit einander verglichen werden sollen, um sie nach Ähnlichkeit zu ordnen. Im Folgenden eine Liste von Merkmalskategorien, die in der Stilometrie häufig zum Einsatz kommen.

Textkomplexität

durchschnittliche Wortlänge bzw. Verteilung der Wortlängen im Hinblick auf Silben- oder Buchstabenzahl
durchschnittlich Wortzahl pro Satz
Verhältnis von Types zu Token
Frequenzen von Wörtern, die bestimmten Häufigkeit angehören, beispielsweise Wörter, die nur einmal vorkommen (hapax legomena)

Funktionswörter

Grundannahme 1: Funktionswörter variieren nicht oder kaum mit dem Thema des Textes, sondern bilden eine Art stilistische Konstante
Grundannahme 2: Funktionswörter werden nicht bewusst manipuliert
Für das Englische werden typischerweise folgende Wortklassen (mit insgesamt einigen hundert Vertretern) verwendet: Pronomen, Präpositionen, Hilfsverben, Modalverben, Konjunktionen und Artikel; daneben auch Zahlen und Interjektionen, auch wenn es sich dabei nicht um Funktionswörter im engeren Sinn handelt

Syntax und Wortarten

relative Frequenz bestimmter syntaktischer Konstruktionen, anhand von:
Verteilung der Ergebnisse syntaktischer Text-Chunker und Parser
Verteilung von Wortartensequenzen oder Verteilung aus Folgen der Kombination von Wortarten und bestimmten Wortklassen

Funktionale lexikalische Taxonomien

bestimmte Wortarten und Funktionswörter werden in ein Klassifikationsschema gebracht, das semantische und grammatikalische Unterschiede zwischen unterschiedlichen Klassen auf unterschiedlichen Ebenen der Abstraktion repräsentiert
diese Taxonomien können dann benutzt werden, um Merkmale zu konstruieren, die stilistisch relevant sein können: auf der untersten Ebene können dies Funktionswörter oder part-of-speech-Unigramme sein; aber auch abstraktere Ebenen (Verteilung von semantischen Wortklassen) können für die Stilbestimmung eingesetzt werden

Inhaltswörter

eine problematische Kategorie, da Inhaltswörter je nach Thema und Kommunikationsbereich variieren
üblicherweise können sehr seltene Wörter und solche, die im Korpus eine stabile Verteilung aufweisen, ausgesondert werden
als erfolgreich haben sich auch Inhaltswort-n-Gramme und Kollokationen von Inhaltswörtern erwiesen

Buchstaben n-Gramme

einige Autoren behaupten, Buchstaben n-Gramme seien nützlich für die Identifizierung lexikalischer Präferenzen, ja sogar für grammatikalische und orthographische Vorlieben
der Vorteil: man braucht überhaupt kein linguistisches Wissen
offenbar gibt es gewisse Erfolge bei der Anwendung: insbesondere bei der Textsortenidentifikation oder bei der Messung der Ähnlichkeit von Dokumenten

Weitere Merkmale

morphologische Analyse: erfolgreich bei morphologisch komplexeren Sprachen
Frequenz und Verteilung von Satzzeichen
orthographische und/oder grammatikalische Fehler

comments: 1 » tags: authorship detection, forensische Linguistik, n-Gramm, Stilometrie, Textklassifikation, Textkomplexität

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Kategorien

Neueste Beiträge

Archive

About

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Kategorien

Neueste Beiträge

Archive

Wordcloud

About