Preprocessing event data in process mining

Fani Sani, Mohammadreza; van der Aalst, Wil M. P. (Thesis advisor); van der Aa, Han (Thesis advisor)

Aachen : RWTH Aachen University (2023)
Doktorarbeit

Dissertation, RWTH Aachen University, 2023

Kurzfassung

Process Mining zielt darauf ab, die Lücke zwischen den klassischen datengetriebenen Verfahren und dem Geschäftsprozessmanagement zu verbinden. Es besteht aus drei Teilbereichen: Prozesserkennung, Übereinstimmungsprüfung und Prozesserweiterung. Für alle Teilbereiche wurden verschiedene Algorithmen und Methoden entwickelt, die in der Industrie immer mehr Anwendung finden. Viele der Process Mining-Algorithmen haben jedoch Schwierigkeiten im Umgang mit realen Ereignisdaten. Einige der Algorithmen sind bei der Auswertung von Ereignisdaten, die auch Ausreißer beinhalten könnten, eingeschränkt. Zudem sind einige existierende Lösungen sehr zeitaufwendig, wenn sie auf große Datenmengen angewendet werden. Um die genannten Probleme zu überwinden, stellen wir in dieser Arbeit einige Vorverarbeitungsalgorithmen vor, mit deren Hilfe aktuelle Prozesserkennungsalgorithmen besser funktionieren. Anstatt neue Process Mining-Algorithmen für jeden Teilbereich zu entwickeln, haben wir uns entschlossen, einige Vorverarbeitungsverfahren vorzustellen und die vorverarbeiteten Ereignisdaten an die bestehenden Algorithmen weiterzugeben. Diese Vorverarbeitungsalgorithmen wurden in ProM entwickelt, eine weit verbreitete wissenschaftliche Open-Source-Plattform. Für den Teilbereich der Prozesserkennung haben wir gezeigt, wie sensitiv mehrere Prozesserkennungsalgorithmen auf das Verhalten von Ausreißern reagieren. Im Anschluss daran haben wir mehrere Verfahren zur Vorverarbeitung vorgeschlagen, die Ausreißer erkennen und so vorverarbeitete Ereignisprotokolle mit einer verringerten Anzahl an Ausreißern liefern können. Durch die Anwendung dieser Methoden auf mehrere reale Ereignisdaten haben wir gezeigt, dass die Qualität der generierten Prozessmodelle im Zuge der Prozesserkennung verbessert werden kann. Um diese Leistung zusätzlich zu verbessern, schlagen wir außerdem einige Stichprobenmethoden vor, um die Größe der Ereignisdaten zu reduzieren. Wir haben einige Experimente mit realen Ereignisdaten durchgeführt, um diese vorgeschlagenen Methoden zu evaluieren. Die Ergebnisse dieser Experimente zeigen, dass wir in den meisten Fällen in der Lage sind, die Leistung der Prozesserkennung zu beschleunigen und gleichzeitig die Qualität der erkannten Prozessmodelle beizubehalten. Für den Teilbereich der Konformitätsüberprüfung existieren mehrere Techniken. Wir haben uns für die am weitesten verbreitete Technik entschieden, die als Alignment bzw. Übereinstimmung bezeichnet wird. Diese Technik ist sehr zeitaufwendig, insbesondere wenn die Anzahl der Aktivitäten und die Länge der Prozessinstanzen zunehmen. Um dieses Problem zu bewältigen, beweisen wir zunächst, dass wir in der Lage sind, das Problem der Übereinstimmungsberechnung auf das Problem der Wortähnlichkeit abzubilden. Hierdurch sind wir in der Lage, Prozessmodelle mit unterschiedlichen Notationen zu betrachten. Wir schlugen die Berechnung von Übereinstimmungen auf Basis von einigen Prozessinstanzen vor bzw. einer Teilmenge anstelle des gesamten Prozessmodells. Die vorgeschlagenen Techniken wurden mit realen Ereignisdaten und Prozessmodellen evaluiert. Es konnte gezeigt werden, dass sich die Performance des Übereinstimmungsprozesses verbessert bei der Verwendung von akkuraten approximierten Werten. Bei der Prozesserweiterung haben wir uns auf vorhersagende Überwachungsalgorithmen konzentriert, die in der Industrie immer mehr Anwendung finden. Die meisten Prognoseverfahren benötigen viel Zeit, um ein Prognosemodell auf großen Ereignisdaten zu trainieren. In realen Szenarien müssen wir diese Methoden mehrmals anwenden, um das Prognosemodell zu verfeinern. Um dieses Problem zu lösen, haben wir mehrere Methoden zur Auswahl von Prozessinstanzen vorgeschlagen, die die Größe der zu trainierenden Ereignisdaten reduzieren. Wir haben diese Methoden auf einige reale Ereignisdaten angewandt und sie für das Trainieren von Vorhersagemodellen hinsichtlich der nächsten Aktivität, der verbliebenden Laufzeit und des Prozessausgangs verwendet. Die Auswertung zeigt, dass wir mithilfe von selektierten Prozessinstanzen, die Qualität der Prognoseverfahren verbessern und dabei ihre Akkuratesse beibehalten können als bei der Verwendung des gesamten zugrundeliegenden Datensatzes.

Einrichtungen

  • Fachgruppe Informatik [120000]
  • Lehrstuhl für Informatik 9 (Process and Data Science) [122510]

Identifikationsnummern

Downloads