Adaptive and Scalable Event Detection Techniques for Twitter Data Streams

Description

Twitter hat derzeit 271 Millionen monatlich aktive Benutzer, die über 500 Millionen Tweets pro Tag schreiben. Damit ist Twitter nicht nur die populärste und am schnellsten wachsende Microblogging-Plattform, sondern auch eine wichtige Quelle für zeitnahe Informationen über aktuelle Ereignisse. Ereigniserkennung für traditionelle Medien wie beispielsweise Zeitungsarchive oder Nachrichten-Webseiten wurde im Forschungsgebiet Topic Detection and Tracking (TDT) ausgiebig untersucht. Im Fall von Twitter-Datenströmen ergeben sich jedoch zusätzliche Problemstellungen, die bisher nur ungenügend angegangen wurden. Einerseits sind Twitter-Dokumente sehr kurz und daher schwieriger zu klassifizieren. Da sie von niemandem redigiert werden, enthalten sie zudem belanglose Inhalte, Schreibfehler und umgangssprachliche Ausdrucksformen. Andererseits variiert die Frequenz, mit der Twitter-Nachrichten erstellt werden, über kleine Zeitfenster stark und nimmt im Durchschnitt über große Zeitfenster rapide zu. Obwohl es eine Reihe von Arbeiten gibt, die sich der Ereigniserkennung in Twitter-Datenströmen widmen, konzentrieren sich diese ausschließlich auf die Informationsextraktion aus Twitter-Dokumenten und vernachlässigen die Herausforderungen, die mit dem Verarbeiten von Datenströmen verbunden sind. Viele der vorgeschlagenen Techniken beruhen auf einer komplexen Konstellation von Parametern und nehmen an, dass diese eingestellt werden können, indem der Algorithmus auf Beispieldaten ausgeführt wird. Es gibt viele Gründe, weshalb dieser Ansatz weder realistisch noch praktikabel ist. Einerseits verhindern diese fixen Einstellungen, dass ein Verfahren sich an qualitative Veränderungen im Datenstrom adaptiert. Andererseits bestimmen diese Parameter oft auch den Tradeoff zwischen Resultatqualität und Verarbeitungsgeschwindigkeit. Fixe Einstellungen verhindern deshalb auch, dass diese Verfahren mit quantitativen Änderungen im Datenstrom skalieren. Im diesem Projekt wollen wir diese Herausforderungen von adaptiven und skalierenden Methoden zur Ereigniserkennung in Twitter-Datenströmen im Rahmen unserer Forschung im Gebiet der Data Stream Management Systems (DSMS) untersuchen. Konkret wollen wir uns auf das Problem der sogenannten First Story Detection bzw. der Erkennung von generellen und unbekannten Ereignissen widmen, die als Teilbereich von TDT definiert ist. Das Projekt ist in drei Arbeitspakete gegliedert. Die ersten zwei Arbeitspakete entwickeln die erwähnten adaptiven und skalierenden Methoden der Ereigniserkennung. Wir wollen untersuchen, wie Parametereinstellungen durch Rückkopplung fortlaufend an den gegenwärtigen Inhalt und das aktuelle Volumen des Datenstroms angepasst werden können. Da dieser Ansatz ein genaues Verständnis der Auswirkungen der Parameter eines Verfahrens auf die Resultatqualität und die Verarbeitungsgeschwindigkeit voraussetzt, werden in einem dritten Arbeitspaket die Grundlagen für die empirische Untersuchung dieser Zusammenhänge gelegt.

Institutions
  • WG Scholl (Database and Information Systems)
  • WG Grossniklaus (Database and Information Systems)
Further information
Period: 13.07.2015 – 31.12.2018