Direkt zum Inhalt

Zitierfähige Version

Unter dieser URL finden Sie dauerhaft die unten aufgeführte Version Ihrer Definition:
Revision von Data Mining vom 25.02.2020 - 13:34

Data Mining

Geprüftes Wissen

GEPRÜFTES WISSEN
Über 100 Experten aus Wissenschaft und Praxis.
Mehr als 8.000 Stichwörter kostenlos Online.
Das Original: Gabler Banklexikon

zuletzt besuchte Definitionen...

    Ausführliche Definition im Online-Lexikon

    1. Begriff: Data Mining bezeichnet den Prozess der Identifikation und Gewinnung neuer, valider und nicht-trivialer Muster oder Informationen. Data Mining wird üblicherweise zur Analyse von umfangreichen operativen und dispositiven Datenbeständen verwendet. Typische Fragestellungen, die über Data Mining beantwortet werden, beziehen sich beispielsweise auf Kundenklassifikationen, Absatzzahlenprognosen, Käufergruppensegmentierung oder die Entdeckung von Abhängigkeiten innerhalb betrachteter Datenbestände, z. B. zur Betrugserkennung. Data Mining wird dem Bereich der Advanced und Predictive Analytics zugeordnet, der neben dem Data Mining auch weitere modellorientierte Systeme umfasst. Data Mining bedient sich insbesondere Ansätzen aus dem Bereich des Machine Learning, bei dem die Analyse-Modelle nicht detailliert von Entwicklern vorgegeben, sondern aus Daten abgeleitet werden.

    2. Merkmale: Hauptmerkmal des Data Mining ist die automatische Mustererkennung in größeren Datenbeständen. Beim Data Mining werden Zusammenhänge zwischen gegebenen Datenobjekten (z. B. Kunde, Produkt), deren Merkmalen (z. B. Kundennummer, Produktbezeichnung) und/oder den konkreten Merkmalsausprägungen aufgedeckt.

    3. Vorgehen: Ein verbreitetes Vorgehensmodell für das Data Mining ist der Cross Industry Standard Process for Data Mining (CRISP-DM). Dieses unterscheidet zwischen sechs Phasen:
    a) Business Understanding: In dieser Phase werden das Ziel und die Anforderungen für das Data Mining definiert und eine Vorgehensweise erarbeitet sowie die zu erreichenden Gütekriterien (z. B. Mindestsupport) festgelegt.
    b) Data Understanding: Um ein Verständnis für die verwendeten Daten zu erlangen, werden diese mit Hilfe deskriptiver Statistik und Visualisierungsverfahren exploriert und in ihrer Qualität geprüft.
    c) Data Preparation: Die Datenvorverarbeitung bereitet die Daten für die eigentliche Analyse auf. Dies bedeutet, dass die Daten normalisiert, gefiltert, korrigiert, ergänzt sowie in eine der Modellierung passende Form transformiert werden.
    d) Modelling: Auf Basis des Data-Mining-Ziels werden in der Modellierungsphase die zu verwendenden Modellierungstechniken beziehungsweise Modelle ausgewählt und deren Parameter kalibriert.
    e) Evaluation: Die aus der Modellierungsphase gewonnenen Modelle werden bezüglich ihrer Qualität und Aussagekraft evaluiert und das Modell, das die Anforderungen an das Data Mining Ziel am besten erreicht und die Gütekriterien erfüllt, ausgewählt.
    f) Deployment: In der letzten Phase werden die Ergebnisse aufbereitet und dokumentiert (z. B. Report). Ist ein dauerhafter Einsatz des erarbeiteten Modells vorgesehen, ist zu bestimmen, ob die Ergebnisse oder das Modell weiterverwendet werden können.
    Dieser Prozess wird in der Regel nicht starr durchlaufen. Je nach erreichter Ergebnisqualität und gewonnenen Erkenntnissen können einzelne Schritte erneut durchgeführt werden.

    4. Typen von Data-Mining-Methoden: Anwendung findet Data Mining in zwei unterschiedlichen Problembereichen: Diese Bereiche sind die Beschreibung und die Prognose. Bei der Beschreibung steht die Strukturierung der vorliegenden Datenobjekte im Vordergrund. Das Ziel einer Prognose ist es, eine Aussage über unbekannte oder zukünftige Merkmalsausprägungen abzuleiten. Für diese beiden Bereiche kann aus einem breiten Spektrum an Methoden zur Deskription, zur Abweichungsanalyse, zur Assoziationsanalyse, zur Segmentierung sowie zur Wirkungs- und Zeitreihenanalyse aufgesetzt werden.
    a) Deskription: Mit Hilfe deskriptiver statistischer Methoden oder Visualisierungsmethoden werden aus einem Datensatz relevante Strukturen abgeleitet.
    b) Abweichungsanalyse: Bestandteil dieser Analyse ist die Erkennung von Datenobjekten, die stark von den restlichen abweichen – entweder, weil es sich um Fehler handelt oder weil sie einzigartige Charakteristika aufweisen. Nach einer Verifizierung können diese Objekte für die weitere Verarbeitung ausgeblendet werden oder gezielt näher untersucht werden. Ein wesentliches Anwendungsgebiet der Abweichungsanalyse ist die Betrugserkennung.
    c) Assoziationsanalyse: Die Assoziationsanalyse ermittelt Abhängigkeiten zwischen Merkmalsausprägungen innerhalb der betrachteten Datenobjekte, ohne diese im Vorfeld miteinander in Verbindung zu bringen. Die Güte einer Assoziationsfindung lässt sich über ein Gütemaß, das heißt die Mindesthäufigkeit eines Kombinationsauftretens, festlegen. Ein Beispiel für die Nutzung von Assoziationsanalysen ist die Warenkorbanalyse.
    d) Segmentierung: Die Segmentierung, auch Clustering genannt, wird angewendet, wenn Objekte anhand von Ähnlichkeitskriterien gebündelt bzw. separiert werden sollen. Die Aufgabe der Segmentierung besteht in der Identifikation von Gruppenzugehörigkeitsmerkmalen sowie die Zuordnung von Objekten zu Gruppen. Ein Beispiel ist die Kundensegmentierung im Marketing.
    e) Klassifikation: Bei der Klassifikation werden die betrachteten Objekte in vordefinierte Klassen eingeordnet. Eine Klassifikation kann somit Einflussfaktoren identifizieren, welche für die Zuordnung eines Objektes zu einer Klasse ausschlaggebend sind und Objekte auf Basis von ermittelten Einflussfaktoren in Klassen einteilen.
    f) Wirkungsprognose und Zeitreihenanalyse: Die Wirkungsprognose stellt einen funktionalen Zusammenhang zwischen als unabhängig gesehenen Merkmalen und abhängigen Merkmalen her, beispielsweise die Steigerung des Umsatzes in Abhängigkeit bestimmter Marketing-Maßnahmen. Ein Sonderfall derartiger Analysen liegt vor, wenn das unabhängige Merkmal die Zeit ist – man spricht in diesem Fall von Zeitreihenanalysen. Ein Beispiel hierfür die Analyse und Prognose des zeitlichen Verlaufs von Börsenkursen.
    Ein methodischer Ansatz, der für alle Typen von Problemen zum Einsatz kommen kann, sind sogenannte Künstliche Neuronale Netze, deren Funktionsweise von derjenigen menschlicher Neuronen inspiriert wurde. Hierbei haben in letzter Zeit vor allem sogenannte Deep-Learning-Verfahren für Aufmerksamkeit gesorgt, bei denen viele Schichten sog. künstlicher Neuronen genutzt werden. Diese bewähren sich insbesondere bei der Analyse komplexer Bild-, Ton- und Videodaten bewähren.

    GEPRÜFTES WISSEN
    Über 100 Experten aus Wissenschaft und Praxis.
    Mehr als 8.000 Stichwörter kostenlos Online.
    Das Original: Gabler Banklexikon

    zuletzt besuchte Definitionen...

      Literaturhinweise SpringerProfessional.de

      Bücher auf springer.com