Anytime algorithms for stream data mining

Kranen, Philipp; Seidl, Thomas (Thesis advisor)

Aachen / Publikationsserver der RWTH Aachen University (2011) [Doktorarbeit]

Seite(n): III, 270, XLVI S. : Ill., graph. Darst.

Kurzfassung

Die rasante Entwicklung der Informationstechnologie hat zur Folge, dass in allen Bereichen der Gesellschaft und des täglichen Lebens große Mengen an Daten erzeugt und gespeichert werden. Beispiele reichen von Multimedia-Daten auf privaten Computern bis hin zu Messdaten in wissenschaftlichen Experimenten. Data Mining beschreibt die Aufgabe, in solchen Daten neue und interessante Muster zu finden. Diese können beispielsweise zur automatischen Empfehlung von Filmen genutzt werden oder helfen neue Zusammenhänge aufzudecken und Prozesse zu verstehen. Seit Beginn der Data Mining Forschung wächst die Größe der zu verarbeitenden Datensätze. Während Datensätze zunächst als statisch und vollständig gegeben angenommen wurden, generieren viele Anwendungen heute kontinuierliche und teilweise unendliche Datenströme. Anytime-Algorithmen stellen eine Klasse von Algorithmen dar, welche sich besonders gut zum Einsatz auf Datenströmen eignet. Ihr Name rührt von ihrer Eigenschaft her, zu jeder Zeit ein Ergebnis liefern zu können. Die zur Verfügung stehende Zeit ist dem Algorithmus dabei nicht bekannt: er berechnet ein initiales Ergebnis und verbessert dieses solange zusätzliche Rechenzeit vorhanden ist. Wird der Algorithmus unterbrochen, so liefert er das beste Ergebnis zurück, welches bis zu diesem Zeitpunkt erzielt wurde. In dieser Dissertation werden neue Anytime-Verfahren für die Bayes Klassifikation entwickelt, intensiv untersucht und evaluiert. Der erste Anytime-Algorithmus zum Clustern von Datenströmen wird vorgestellt und eine Anwendung für die Erkennung von Ausreißern wird diskutiert. Neben neuen Algorithmen werden zwei übergeordnete Verfahren entwickelt, die den Anwendungsbereich für Anytime-Algorithmen signifikant erweitern. Die in dieser Dissertation vorgestellten Ansätze und Resultate tragen zum Stand der Forschung im Bereich Anytime-Algorithmen und Data Mining auf Datenströmen bei.

Identifikationsnummern

  • URN: urn:nbn:de:hbz:82-opus-38501
  • REPORT NUMBER: RWTH-CONV-124475