Forschungs- und Entwicklungsvertrag: Data Mining und Visualisierung von Datenbanken
In vielen Bereichen der Bildverarbeitung und Mustererkennung postalischer und nicht-postalischer Anwendungen bei Siemens I&S PA sind trennscharfe Feature zur Optimierung maschineller Lernverfahren zu entwerfen und auszuwählen. Es lassen sich viele Anwendungsbeispiele für den Bedarf an Methoden und Algorithmen im Bereich Feature Engineering finden. Zwei mögliche solche Beispiele sind:
- Für die Erkennung und Interpretation von Logos sind weitgehend universelle Features zu entwickeln, mit denen sich eine möglichst große Klasse von Logos aus verschiedenen Anwendungsdomänen unterschiedlicher Semantik beschreiben und klassifizieren lässt. Ziel muss es sein, ein generisches Lern- und Klassifikationssystem für die Logo-Erkennung zu entwickeln. Die Trainingsmenge soll aus einem heterogenen Satz verschiedener Eingabemedien extrahiert werden, wie z.B. gescannten Briefumschlägen, Bilddatenbanken, Internet-Seiten oder Verkehrsvideos. Um ein effizientes Retrieval gewährleisten zu können, sind die hoch-dimensionalen Feature-Vektoren, die die Logos beschreiben, mit semantischen Metainformationen anzureichern.
- Zur Interpretation von Texten in Bildern soll ein generisches maschinelles Lernsystem entwickelt werden, welches extrahierten Texten eine von mehreren möglichen Bedeutungen zuordnen kann. Auch hier sollen Trainingsdaten unterschiedlicher Semantik eingesetzt werden können. Mögliche Quellen für ein derartiges Lern- und Klassifikationssystem sind z.B. Texte auf Briefumschlägen (Postadressen, Label, etc.), Texte in Verkehrsvideos oder semi-strukturierte Texte, die auf Bildern in Bilddatenbanken zu finden sind. Die hoch-dimensionalen Feature-Vektoren, die die Texte beschreiben, müssen auch hier mit semantischen Metainformationen angereichert werden, um ein effizientes Retrieval zu ermöglichen.
Semantische Konzepte werden im Allgemeinen nicht allein durch unüberwacht arbeitende Verfahren maschinell gelernt. Stattdessen sollen zur Ableitung neuer semantischer Features geeignete Verfahren aus dem Bereich des statistischen maschinellen Lernens verknüpft werden mit Data Mining Techniken und interaktiver Visualisierung. Eine geeignete Darstellung hoch-dimensionaler Merkmalsräume ist eine der kritischen Komponenten im Prozess des Erzeugens neuer semantischer Informationen. Wichtige Impulse zur Bearbeitung solcher Problemstellungen erwartet man aus dem sich entwickelnden Forschungsgebiet Visual Analytics.
Eine besondere Herausforderung im Bereich Visual Analytics besteht darin, einem Anwender durch adäquate visuelle Repräsentationen einen besseren Einblick in hoch-dimensionale Informationsräume zu geben. Visual Analytics wird es erlauben, auf relativ einfache Art und Weise neue semantische Konzepte durch interaktives Explorieren von low-level Merkmalsräumen zu erzeugen. Als Ziel steht dabei die Herleitung hoch-skalierbarer Visual Analytics Methoden im Vordergrund. Skalierbarkeit bedeutet in diesem Zusammenhang, mit denselben Verfahren gleichermaßen sehr kleine wie sehr große Datensätze verarbeiten zu können und dabei wichtige Eigenschaften von Daten wie zum Beispiel deren Größe, Dimensionalität, Erzeugungsrate, Aktualität, Präzision und Vollständigkeit zu berücksichtigen.
- Keim, Daniel - Project leader
- Stoffel, Andreas - Academic staff
- Department of Computer and Information Science
- WG Keim (Data Analysis and Visualization)
Period: | 01.10.2007 – 31.12.2010 |