Subspace clustering for complex data

Günnemann, Stephan; Seidl, Thomas (Thesis advisor)

Aachen / Publikationsserver der RWTH Aachen University (2012) [Doktorarbeit]

Seite(n): III, 304, XXVII S. : graph. Darst.

Kurzfassung

Das gestiegene Potential von Speichertechnologien und Informationssystemen hat die Möglichkeit eröffnet, kostengünstig große Mengen an komplexen Daten zu sammeln. Neben einfachen Beschreibungen von Objekten durch einige wenige Attribute reichen diese Datenquellen von hochdimensionalen Vektorräumen über unvollkommene Daten hin zu Netzwerkdaten. Die Aufgabe des Data Mining ist es, mit Hilfe von automatischen oder semi-automatischen Algorithmen aus diesen Datenquellen bislang unbekannte und nützliche Muster zu extrahieren. In dieser Arbeit betrachten wir die Aufgabe des Clusterings, die darauf abzielt Gruppen von ähnlichen Objekten zu bilden und gleichzeitig unähnliche Objekte zu trennen. Da in heutigen Anwendungen häufig sehr viele Eigenschaften für jedes Objekt gespeichert werden, ist nicht zu erwarten, dass Objekte existieren, die bei Betrachtung der Gesamtheit aller Eigenschaften ähnlich zueinander sind. Vielmehr werden sinnvolle Gruppen nur in Teilräumen des Datenraums gefunden. Als Lösung für dieses Problem wurde das Paradigma des Subspace Clusterings eingeführt, welches automatisch für jede Gruppe von Objekten eine zugehörige Menge relevanter Attribute identifiziert, in welchen die Objekte ähnlich zueinander sind. In dieser Arbeit führen wir neue Methoden für ein effektives Subspace Clustering auf verschiedenen Typen von komplexen Daten ein. Wir untersuchen das Problem der Redundanz in Subspace Clustering-Ergebnissen und schlagen neue Modelle zur Vermeidung dieser Redundanz vor. Da jeder Teilraum eine andere Sicht auf die Daten liefert, können häufig mehrere sinnvolle Gruppierungen der Objekte gefunden werden. Daher führen wir Techniken ein, die nicht auf eine einzige Partitionierung der Objekte eingeschränkt sind sondern mehrere unterschiedliche Gruppierungen finden können. Neben der Lösung dieser Herausforderungen für das Subspace Clustering von vektoriell beschriebenen Daten analysieren wir ferner das Subspace Clustering auf unvollkommenen Daten sowie auf einer Kombination von Netzwerkdaten mit vektoriellen Daten. Wir schlagen integrierte Analysetechniken vor, welche mit Fehlern in den Daten umgehen können und verschiedene Datenquellen simultan analysieren. In experimentellen Untersuchungen zeigen wir die Stärken der neu entwickelten Clustering-Methoden. Insgesamt ermöglichen wir erstmalig die Bestimmung eines sinnvollen Subspace Clustering für diese komplexen Daten.

Identifikationsnummern

  • URN: urn:nbn:de:hbz:82-opus-41038
  • REPORT NUMBER: RWTH-CONV-143177