Efficient clustering of big data streams

  • Effizientes Clustering von großen Datenströmen

Hassani, Marwan; Seidl, Thomas (Thesis advisor); Gaber, Mohamed Medhat (Thesis advisor); Kowalewski, Stefan (Thesis advisor)

1. Aufl.. - Aachen : Apprimus-Verl. (2015, 2015)
Buch, Doktorarbeit

In: Ergebnisse aus der Informatik 4
Seite(n)/Artikel-Nr.: III, 244, XXV S. : graph. Darst.

Zugl.: Aachen, Techn. Hochsch., Diss., 2015

Kurzfassung

Aktuelle Entwicklungen in den Datenerfassungsgeräten und Datenspeichersystemen bieten ständig günstigere Möglichkeiten zur Sammlung und Speicherung von großen Datenmengen. Mit steigender Rechenleistung und effizienteren Datenbanken wird der Zugang zu einer Vielzahl komplexer Daten ermöglicht. Die Aufgabe des Data Mining ist das Extrahieren von nützlichen Mustern in diesen umfangreichen und unterschiedlichen Daten, um schließlich neue Erkenntnisse zu gewinnen. Diese Dissertation konzentriert sich auf die Clustering-Analyse, deren Ziel darin besteht, ähnliche Objekte in dieselben Cluster und unähnliche Objekte in verschiedene Cluster zu gruppieren. Während traditionelle Clustering-Algorithmen lediglich statische Daten betrachten, müssen heutige Algorithmen mit vielen, kontinuierlichen, möglicherweise unendlichen Datenströmen, die mit hoher Geschwindigkeit ankommen, umgehen.Aufgrund der immer höheren Dimensionalität in aktuellen Anwendungen, liefern traditionelle Clustering-Algorithmen, unter Berücksichtigung aller Dimensionen, nur selten aussagekräftige Cluster. Ein allgemeiner Ansatz zur Lösung dieses Problems ist die Subspace-Clustering-Analyse. Anstatt alle Dimensionen gemeinsam zu berücksichtigen, werden Cluster automatisch in verschiedenen Teilräumen unterschiedlicher Dimensionalität gesucht.In dieser Dissertation werden neue Methoden für die effiziente Subspace-Clustering-Analyse von hochdimensionalen Datenströme vorgestellt und mit dem Anytime-Paradigma kombiniert. Darüber hinaus werden effiziente und adaptive dichtebasierte Clustering-Algorithmen für hochdimensionale Datenströme entwickelt. Speziell für Sensordatenströme, werden neue algorithmische Lösungen für eine energieeffiziente netzwerkinterne Aggregation untersucht. Die in dieser Dissertation entwickelten Ansätze tragen maßgeblich zum aktuellen Forschungsstand im Bereich der effizienten Analyse von Datenströmen bei.

Einrichtungen

  • Lehrstuhl für Informatik 9 (Process and Data Science) [122510]
  • Fachgruppe Informatik [120000]
  • Lehrstuhl für Informatik 11 (Embedded Software) [122810]

Identifikationsnummern