Combined clustering of graph and attribute data

Boden, Brigitte; Seidl, Thomas (Thesis advisor)

Aachen / Apprimus-Verl. (2014) [Doktorarbeit]

Seite(n): III, 232, XXI S. : graph. Darst.

Kurzfassung

In vielen modernen Anwendungen werden heutzutage immer größere Datenmengen gesammelt und gespeichert. Da moderne Speichersysteme immer höhere Speicherkapazitäten bei immer geringeren Kosten ermöglichen, sind Datenbanken, die große Mengen von Daten verschiedener Typen enthalten, heute allgegenwärtig. Der Begriff Data Mining beschreibt die Aufgabe, aus solchen Datenmengen nützliches und zuvor unbekanntes Wissen automatisiert zu extrahieren. Diese Arbeit befasst sich mit einer speziellen Aufgabe des Data Mining, dem Clustering. Dieses hat das Ziel, Objekte in Cluster zu gruppieren, so dass Objekte im selben Cluster einander ähnlich und Objekte in unterschiedlichen Clustern einander unähnlich sein sollen. Zwei der häufigsten Datentypen sind Vektordaten, die jedes Objekt durch einen Vektor von Attributen darstellen, und Graph-Daten, die Beziehungen zwischen Objekten als Kanten in Graphen darstellen. In vielen Fällen sind Daten beider Typen vorhanden; so können zusätzlich zu einem Graphen weitere Informationen über die Knoten oder auch die Kanten existieren, die als Attributvektoren dargestellt werden können. Das Ziel dieser Arbeit ist es, Clusteringverfahren zu entwickeln, die beide Datentypen simultan verwenden und so Cluster von Objekten finden, die sowohl im Graphen dicht verbunden als auch im Attributraum zueinander ähnlich sind. Da für hochdimensionale Vektordaten eine Ähnlichkeit in allen Attributen unwahrscheinlich ist, sollen unsere Verfahren gemäß dem Prinzip des Subspace Clustering auch Cluster finden, die nur in einer Teilmenge der Attribute die Ähnlichkeit erfüllen. In dieser Arbeit werden Clusteringverfahren für Graphen mit Knotenattributen, Graphen mit Kantenattributen und heterogene Netzwerke vorgestellt. Alle diese Ansätze haben das Ziel, eine möglichst unverzerrte Kombination der Datentypen und möglichst redundanzfreie Clusteringergebnisse zu erreichen.

Identifikationsnummern

  • URN: urn:nbn:de:hbz:82-opus-50665
  • REPORT NUMBER: RWTH-CONV-145244