Data Mining für Technische Anwendungen

Von Daten zu Wissen

Data Mining bezeichnet den Prozess des automatischen Gewinnens von gültigem, neuartigem, potentiell nützlichem und auch verständlichem Wissen aus großen Datenmengen (nach Fayyad, Piatetsky-Shapiro, Smyth und Uthurusamy 1996). Dabei kommen Techniken aus unterschiedlichen Bereichen wie Statistik, Maschinelles Lernen, Mustererkennung usw. zum Einsatz. Anwendungen von Data Mining finden sich beispielsweise in Bereichen wie Marketing, Medizin, Biochemie, Echtzeitsystemen und vielen anderen. In technischen Anwendungen wird das Wissen häufig aus Sensorsignalen gewonnen, also aus numerischen Daten. Diese sind häufig „unsicher“, z. B. können Messwerte ungenau sein oder sogar fehlen.

Inhalt der Vorlesung

Die Vorlesung „Data Mining für Technische Anwendungen“ stellt zunächst allgemein wichtige Grundlagen im Bereich Data Mining vor. So wird unter anderem allgemein auf den Data Mining Prozess, auf Datenvorverarbeitung und auf grundlegende Algorithmen für Clustering und Klassifikation eingegangen. Im zweiten Teil der Vorlesung liegt der Fokus auf einigen Klassifikatoren, die funktional sehr ähnlich sind, aber dennoch völlig unterschiedlichen Welten entstammen: Radiale-Basisfunktionen-Netze aus dem Bereich der Neuronalen Netze, Support Vector Machines aus dem Bereich der statistischen Lerntheorie und Probabilistische Klassifikatoren, denen wahrscheinlichkeitstheoretische Überlegungen zugrunde liegen. Alle drei sind dem heutigen Stand der Technik im Bereich des Data Mining zuzuordnen und haben sehr unterschiedliche, je nach Art der Anwendung eventuell benötigte Eigenschaften. Abschließend geht die Vorlesung auf die Kombination verschiedener Techniken in Form von Ensembles ein.

Inhalt der Übung

Ziel der Übung ist, dass die Teilnehmer(innen) selbständig Aufgaben aus dem Bereich des Data Mining lösen können. Praktische Rechnerübungen mit dem frei verfügbaren Werkzeug RapidMiner nehmen daher einen großen Raum ein.



Design-Perspective in RapidMiner: Zentrale Darstellung eines Experiments,die alle Prozessschritte / Operatoren graphisch erfasst. Die Verbindungen zw. den Operatoren stellen den Datenfluss des Experiments dar.

Den Abschluss der Vorlesung bildet ein Wettbewerb, bei dem die Teilnehmer(innen) das erworbene Wissen selbständig anwenden können.



Result-Perspective in RapidMiner: Stellt alle Ergebnisse eines Experiments anhand unterschiedlichster Visualisierungsmethoden (Histogramm, Scatterplot, Quantil, Density, ...) dar.

Informationen
  • Ansprechpartner für die Vorlesung sind Prof. Dr. Bernhard Sick und M.Eng. André Gensler.

  • Formale, allgemeine Angaben zur Vorlesung (z. B. Zuordnung zu Anwendungsgebieten, Kreditpunkte, Prüfungsart) sind im Modulhandbuch zu finden.
    Studiengang -> Prüfungsordnung -> Modul

  • Jeweils aktuelle Informationen zur laufenden Vorlesung (z. B. Folien, Literaturhinweise, Prüfungstermine) werden im Moodle der Universität Kassel bereitgestellt.

  • Link zum Vorlesungsverzeichnis