Mining and similarity search in temporal databases

Kremer, Hardy; Seidl, Thomas (Thesis advisor)

Aachen / Apprimus-Verl. (2013) [Doktorarbeit]

Seite(n): III, 216, XXVIII S. : Ill., graph. Darst.

Kurzfassung

Neue Erkenntnisse in der Datenbankforschung, insbesondere in den Bereichen des Data Mining und der Ähnlichkeitssuche, und die fortschreitende Entwicklung von Speichertechnologien und Mikroprozessoren ermöglichen die Analyse und Exploration von großen Datenmengen. Während es im Data Mining das Ziel ist, unbekanntes Wissen aus Daten zu extrahieren, behandelt die Ähnlichkeitssuche Techniken des inhaltsbasierten Objektvergleichs. Im Rahmen dieser Aufgaben erfreuen sich temporale Daten einer wachsenden Beliebtheit. Sie zeichnen sich durch ihren hohen Informationsgehalt und ihre zahlreichen Anwendungsmöglichkeiten aus. In dieser Dissertation werden neue Techniken des Data Mining und der Ähnlichkeitssuche für temporale Daten entwickelt. Eine große Herausforderung in der Data-Mining-Forschung ist die Effektivität der vorgeschlagenen Verfahren, die sich in der Qualität der extrahierten Muster äußert. Im Bereich des Zeitreihen-Clustering wird daher eine neue Methode eingeführt, die sich an den Anforderungen von Realdatensätzen orientiert: Das Verfahren erkennt Muster, die in Teilräumen und Teilsequenzen verborgenen sind, und ist in Hinblick auf Messfehler und zeitliche Verschiebungen sehr robust. Im Weiteren werden neue Techniken für die Aufgabe der Clusterabbildung entwickelt, bei der eine Zuordnung zwischen den Clustern zweier Clustermengen gesucht wird. Hierbei werden zwei Anwendungen betrachtet: Die Verfolgung von sich entwickelnden Clustern in raum-zeitlichen Daten und die Evaluierung von Clustering-Ergebnissen in Datenstrom-Szenarien. Systeme der Ähnlichkeitssuche und zahlreiche Data-Mining-Verfahren nutzen in der Regel Distanzfunktionen für den Vergleich von Objekten. Ein sehr effektives, aber auch rechenintensives, Zeitreihen-Distanzmaß beruht auf einem adaptiven Verzerren der Zeitachse. Für dieses Maß werden im Rahmen der Arbeit Techniken entwickelt, die signifikante Laufzeitverbesserungen ermöglichen. Während die Methode des antizipativen Aussortierens bis dato ungenutzte Informationen für ein schnelles Verwerfen von Kandidaten in bestehenden Verarbeitungssystemen verwendet, nutzt die Methode der multiplen Verarbeitung gemeinsame Eigenschaften in Anfragemengen für ein vereintes Aussortieren von Kandidaten. Die in der Arbeit entwickelten Methoden werden experimentellen Analysen unterzogen und im Vergleich zu Konkurrenzverfahren evaluiert. Insgesamt stellen die vorgestellten Ansätze und Resultate einen wesentlichen Fortschritt in den Forschungsgebieten des Data Mining und der Ähnlichkeitssuche auf temporalen Daten dar.

Identifikationsnummern

  • URN: urn:nbn:de:hbz:82-opus-48061
  • REPORT NUMBER: RWTH-CONV-144351