Data Mining

Data Mining als Teilbereich der KI

Data-Mining ist ein Teilbereich der Künstlichen Intelligenz (KI) in der Informartik. Data-Mining ist ein vereinfachter Begriff für Knowledge Discovery in Databases (KDD). D.h. KDD ist der Versuch aus vorhandenen Datenmassen in Datenbanken Erkenntnisse zu bekommen. Bei nicht als Datenbanken vorliegenden Texten wird dabei zuerst Text Mining betrieben.

Bei Zahlendaten ist dieses nicht anderes als ein numerisches Verfahren, d.h. mathematische Funktionen werden durch Polynome angenähert, also eine kompliziertere Version der linearen Regression.

Bei nicht numerischen Daten versucht Data-Mining ebenfalls die Daten durch eine Funktion zu approproximieren. Diese ist dann allerdings keine analytische Funktion, sondern eine abstrahierte Funktion. Diese abstrahierte Funktion wird als vorhandenes Muster in den Daten bezeichnet. Data Mining ist somit ein Suchen nach Mustern in komplizierten Datensätzen.

Zum Finden der Muster oder Funktionen gibt es verschiedene Verfahren, welche je nach vorhandenen Daten ausgewählt werden müssen. Das Finden des Musters wird bei den KI-Informatikern auch Maschinelles Lernen genannt.

Vorgehensweise

Zuerst werden aus den Datensätzen sogenannte Trainingsdaten ausgewählt. Bei falscher Auswahl der Trainingsdaten kann es zur Überanpassung und somit fehlerhaften Ergebnissen führen. Dann wird eine der Methoden des Data-Mining ausgewählt um die abstrahierte Funktion oder das Muster zu finden, wobei hier das Problem ist die passende Methode auszuwählen. Dafür bedarf es theoretisch die genaue Kenntnis der Methoden. Anschließend wird die gefundene Funktion mit Testdaten, die ebenfalls aus den Datensätzen stammen, überprüft.

Methoden des Data-Mining

Klassifizierung

Bei der Statistical_classification wird versucht in den vorhandenen Daten allgemeinen Strukturen zu finden, so dass Rückschlüsse auf neue Daten gezogen werden können. Methoden der Klassfizierung sind u.a. Nearest Neigbour Methode, Entscheidungsbäume und Neuronale Netze.

K-Nearest Neighbor Methode

Die K-nearest_neighbor_algorithm wird auch als Lazy Learning bezeichnet, d.h. von allem vorhandenen Datensätzen werden K-Datensätzen gesucht, die den neuen Daten am ähnlichsten sind. Dabei werden bei nicht numerischen Daten abstrahierte Abstände verwendet. Die gesuchten Werte des neuen Datensatzes werden dann mit Gewichtung 1/Abstand aus den nächsten K-Datensätzen bestimmt.

Entscheidungsbäume

Beim Decision_tree_learning werden die Daten in einem abstrakten Baum dargestellt, wobei jede Verästelung eine Entscheidung darstellt. Es wird dabei von der Wurzel angefangen und bei jeder Verästelung wird ein Attribut abgefragt und die nächste Verästelung ausgewählt. Diese Prozedur wird so lange fortgesetzt, bis das Baumende erreicht ist. Da es verschieden Möglichkeiten für die Bäume gibt wird per Algorithmus versucht den Kürzesten und Optimalsten (d.h. mit dem kleinsten Fehler) zu finden.

Künstliche Neuronale Netze

Assoziationsregeln

Beim Association_rule_learning werden gemeinsame Vorkommen von Merkmalswerten in Datensätzen gesucht, um ihre gegenseitige Abhängigkeit zu untersuchen. Daraus werden Regeln abgeleitet, die durch die Stärke der Abhängigkeit und die Häufigkeit ihres Vorkommens charakterisiert werden

Clustering

Clustering ist das Einteilen der Datensätze in verschiedene Mengen mit ähnlichen Eigenschaften.

Regression

Die Regression_analysis wird bei numerischen Daten als lineare Regression bezeichnet. In der KI wird dieses Methode auf nicht numerische Daten verallgemeinert.

Projekte im Überwachungsbereich mit Data-Mining

INDECT

Im Rahmen der EU gibt es ein Projekt namens INDECT indem alle Datenbanken, alle durch Überwachungstechnik aufgezeichneten Daten und durch Software Agenten im Netz gefundenen Daten mit Hilfe von Data-Mining geplante Verbrechen a la Minority Report vorhergesehen werden sollen.

Kritik

Von Data Mining wird häufig geglaubt, es diene dazu, Zusammenhänge automatisch zu entdecken, an die bisher noch nicht einmal jemand gedacht hat, und Fragen zu beantworten, die nicht einmal noch jemand gestellt hat (siehe auch Data Mining Mythen ). Dieses ist, wie in den meisten Bereichen der KI, eine Überschätzung der Fähigkeiten. Diese Überschätzung kann dazu führen, dass die Ergebnisse des Data-Minings unhinterfragt als Wahr angesehen werden. Bei falscher zielgruppenorientierter Werbung ist das für den Beworbenen erstmal lustig oder auch nur nervig. Bei der falscher Verdächtigung von der Polizei wird es dann allerdings unangenehmer.

Problematik bei der Anwendung im Polizei-Bereich

Gerade im Sicherheitsbereich, wenn Data-Mining dazu benutzt wird aus polizeiliche Datenbanken neue Erkenntnisse zu gewinnen, kann es dazu führen, dass nicht mehr ergebnissoffen in alle Richtungen ermittelt wird. Bei einem Serientäter kann es so ersten zu Problem für die Allgemeinheit werden, da so der oder die Täterin nicht gefunden wird und zweitens kann es für die eventuell Falschverdächtigten zu den üblichen Nachteilen führen. Ganz problematisch wird es allerdings, wenn geglaubt wird mittels Data Mining Prognosen über zukünftige Straftäter anstellen zu können. Da in INPOL schon Daten über Personen geführt werden, die nach Meinung der Polizei in Zukunft Straftaten begehen werden, ist es nicht unwahrscheinlich das diese Personen in Zukunft (oder jetzt schon) durch Data-Mining ausgewählt werden.

Anschauliche Erläuterung der Gefahren von Data-Mining

In einem FAZ-Artikel über Data-Mining von Frank Rieger wird die Problematik von Data-Minig sehr anschaulich beschrieben:

Die Profile sind nützlich, um uns gezielt zum Kauf von mehr nutzlosem Tand oder interessanteren Büchern zu verleiten, uns effizienter zu verwalten und zukünftiges Verhalten zu prognostizieren. Und um Menschen unter präventive Überwachung zu stellen, deren Profil sich bedenklich dem von Straftätern nähert. Dabei geht es nicht um hundertprozentige Präzision der Vorhersage. Wahrscheinlichkeiten, Neigungen, Tendenzen, Zugehörigkeit zu Kohorten sind die Währungen der algorithmischen Orakel.

Grundsätzliche Kritik an de KI

Einer der ersten und versiertesten Kritiker der Künstlichen Intelligenz Forschung ist Joseph Weizenbaum. Joseph Weizenbaum war einer der Pioniere in der Künstlichen Intelligenz Forschung. Er hat das Programm Eliza entwickelt, welches einen Psychiater symuliert. Seine Intention für das Programm war allerdings nur eine bloße Übung, wie der Computer mit Sprache umgehen kann. Zu seinem Erschrecken wurde das Programm von vielen (auch seinen Kolleg_innen und Mitarbeiter_innen) als ernste Alternative zu einem realen Psychiater angenommen. Dieses Schlüsselerlebnis hat Joseph Weizenbaum zu einem entschiedenen Warner vor den Gefahren der KI gemacht (und dem latenten Größenwahn der Wissenschaftler_innen).

Programme für Data Mining

Es gibt eine Java-Klassen Bibliothek für Data-Mining, die heißt Weka:

Weka Webseite

Das Programm KMIME ist mit dieser Bibliothek geschrieben worden:

KMIME

Weitere Links

Seminararbeit zu Data-Mining

Rote Hilfe Zeitung zu Data Mining

Data-Mining Skript (mathematisch)

-  ⇤ ← Revision 10 vom 2011-01-22 09:48:23 → 
  Größe: 3167
  Autor: anonym
  Kommentar:
+   ← Revision 33 vom 2011-02-07 22:45:47 → ⇥
  Größe: 8500
  Autor: anonym
  Kommentar:
-Gelöschter Text ist auf diese Art markiert.
+Hinzugefügter Text ist auf diese Art markiert.
 Zeile 5:
-== Was ist Daten schürfen ? ==
+== Data Mining als Teilbereich der KI ==
 Zeile 7:
-Data-Mining ein vereinfachter Begriff für Knowledge Discovery in Databases (KDD). D.h. KDD ist der Versuch aus vorhandenen Datenmassen in Datenbanken Erkenntnisse zu bekommen. Bei nicht als Datenbanken vorliegenden Texten wird dabei zuerst [[http://wissensexploration.de/textmining-vs-datamining.php|Text Mining]] betrieben.
+Data-Mining ist ein Teilbereich der Künstlichen Intelligenz (KI) in der Informartik. Data-Mining ist ein vereinfachter Begriff für Knowledge Discovery in Databases (KDD). D.h. KDD ist der Versuch aus vorhandenen Datenmassen in Datenbanken Erkenntnisse zu bekommen. Bei nicht als Datenbanken vorliegenden Texten wird dabei zuerst [[http://wissensexploration.de/textmining-vs-datamining.php|Text Mining]] betrieben.
 Zeile 11:
-Bei normalen Daten versucht die KDD ebenfalls die Daten durch eine Funktion zu approproximieren. Diese ist allerdings keine mathematische Funktion und es ist deswegen noch fehleranfälliger.
Zum Finden der Funktion gibt es verschiedene Verfahren, welche je nach vorhandenen Daten ausgewählt werden müssen. Das Finden der Funktion wird bei den KI-Informatikern [[http://wissensexploration.de/datamining-kdd-machine-learning.php|Maschinelles Lernen]] genannt. Dieser Begriff ist allerdings problematisch, da er zur Überschätzung der Erkenntnisse durch Data-Mining führt. Gerade bei Kriminalbeamten, die in der Regel keine höhere Mathematik studiert haben, kann dieses problematisch werden. Denn es kann dazu führen, dass an einer falschen Spur festgehalten, da das Programm ja den oder die Verdächtige ausgegeben hat (Der Fall [[http://annalist.noblogs.org|Andrej Holm]] dürfte auf fehlerhaftes Nutzen der Data-Mining Programme zurückzuführen sein).
+Bei nicht numerischen Daten versucht Data-Mining ebenfalls die Daten durch eine Funktion zu approproximieren. Diese ist dann allerdings keine analytische Funktion, sondern eine abstrahierte Funktion. Diese abstrahierte Funktion wird als vorhandenes Muster in den Daten bezeichnet. Data Mining ist somit ein Suchen nach Mustern in komplizierten Datensätzen.

Zum Finden der Muster oder Funktionen gibt es verschiedene Verfahren, welche je nach vorhandenen Daten ausgewählt werden müssen. Das Finden des Musters wird bei den KI-Informatikern auch [[http://wissensexploration.de/datamining-kdd-machine-learning.php|Maschinelles Lernen]] genannt. 

== Vorgehensweise ==

Zuerst werden aus den Datensätzen sogenannte Trainingsdaten ausgewählt. Bei falscher Auswahl der Trainingsdaten kann es zur Überanpassung und somit fehlerhaften Ergebnissen führen. 
Dann wird eine der Methoden des Data-Mining ausgewählt um die abstrahierte Funktion oder das Muster zu finden, wobei hier das Problem ist die passende Methode auszuwählen. Dafür bedarf es theoretisch die genaue Kenntnis der Methoden.
Anschließend wird die gefundene Funktion mit Testdaten, die ebenfalls aus den Datensätzen stammen, überprüft.

== Methoden des Data-Mining ==

=== Klassifizierung ===

Bei der WikiPedia:Statistical_classification wird versucht in den vorhandenen Daten allgemeinen Strukturen zu finden, so dass Rückschlüsse auf neue Daten gezogen werden können. Methoden der Klassfizierung sind u.a. Nearest Neigbour Methode, Entscheidungsbäume und Neuronale Netze.

==== K-Nearest Neighbor Methode ====
Die WikiPedia:K-nearest_neighbor_algorithm wird auch als Lazy Learning bezeichnet, d.h. von allem vorhandenen Datensätzen werden K-Datensätzen gesucht, die den neuen Daten am ähnlichsten sind. Dabei werden bei nicht numerischen Daten abstrahierte Abstände verwendet. Die gesuchten Werte des neuen Datensatzes werden dann mit Gewichtung 1/Abstand aus den nächsten K-Datensätzen bestimmt.

==== Entscheidungsbäume ====

Beim WikiPedia:Decision_tree_learning werden die Daten in einem abstrakten Baum dargestellt, wobei jede Verästelung eine Entscheidung darstellt. Es wird dabei von der Wurzel angefangen und  bei jeder Verästelung wird ein Attribut abgefragt und die nächste Verästelung ausgewählt. Diese Prozedur wird so lange fortgesetzt, bis das Baumende erreicht ist. Da es verschieden Möglichkeiten für die Bäume gibt wird per Algorithmus versucht den Kürzesten und Optimalsten (d.h. mit dem kleinsten Fehler) zu finden.

==== Künstliche Neuronale Netze ====

=== Assoziationsregeln ===
Beim WikiPedia:Association_rule_learning werden gemeinsame Vorkommen von Merkmalswerten in Datensätzen gesucht, um ihre gegenseitige Abhängigkeit zu untersuchen. Daraus werden Regeln abgeleitet, die durch die Stärke der Abhängigkeit und die Häufigkeit ihres Vorkommens charakterisiert werden


=== Clustering ===

WikiPedia:Clustering ist das Einteilen der Datensätze in verschiedene Mengen mit ähnlichen Eigenschaften. 

=== Regression ===

Die WikiPedia:Regression_analysis wird bei numerischen Daten als lineare Regression bezeichnet. In der KI wird dieses Methode auf nicht numerische Daten verallgemeinert.

== Projekte im Überwachungsbereich mit Data-Mining ==


=== INDECT ===

Im Rahmen der [[Datenbanken EU|EU]] gibt es ein Projekt namens [[INDECT]] indem alle Datenbanken, alle durch [[Überwachungstechnik]] aufgezeichneten Daten und durch Software Agenten im Netz gefundenen Daten mit Hilfe von Data-Mining geplante Verbrechen a la Minority Report vorhergesehen werden sollen.

== Kritik ==

Von Data Mining wird häufig geglaubt, es diene dazu, Zusammenhänge automatisch zu entdecken, an die bisher noch nicht einmal jemand gedacht hat, und Fragen zu beantworten, die nicht einmal noch jemand gestellt hat (siehe auch [[http://www.twocrows.com/iwk9701.htm|Data Mining Mythen]] ). Dieses ist, wie in den meisten Bereichen der KI, eine Überschätzung der Fähigkeiten. Diese Überschätzung kann dazu führen, dass die Ergebnisse des Data-Minings unhinterfragt als  Wahr angesehen werden. 
Bei falscher zielgruppenorientierter Werbung ist das für den Beworbenen erstmal lustig oder auch nur nervig. Bei der falscher Verdächtigung von der [[Datenbanken der Bundespolizeien|Polizei]] wird es dann allerdings unangenehmer.

=== Problematik bei der Anwendung im Polizei-Bereich ===

Gerade im Sicherheitsbereich, wenn [[Länderübergreifende Software#Data-Mining_Software|Data-Mining]] dazu benutzt wird aus polizeiliche Datenbanken neue Erkenntnisse zu gewinnen, kann es dazu führen, dass nicht mehr ergebnissoffen in alle Richtungen ermittelt wird. Bei einem Serientäter kann es so ersten zu Problem für die Allgemeinheit werden, da so der oder die Täterin nicht gefunden wird und zweitens kann es für die eventuell Falschverdächtigten zu den üblichen Nachteilen führen.
Ganz problematisch wird es allerdings, wenn geglaubt wird mittels Data Mining Prognosen über zukünftige Straftäter anstellen zu können. Da in [[INPOL]] schon Daten über Personen geführt werden, die nach Meinung der Polizei in Zukunft Straftaten begehen werden, ist es nicht unwahrscheinlich das diese Personen in Zukunft (oder jetzt schon) durch  Data-Mining ausgewählt werden.


=== Anschauliche Erläuterung der Gefahren von Data-Mining ===

In einem [[http://www.faz.net/s/Rub117C535CDF414415BB243B181B8B60AE/Doc~E38A2F6DD0A734EB789AAD27EDE6F9A35~ATpl~Ecommon~Scontent.html|FAZ-Artikel über Data-Mining]] von [[http://frank.geekheim.de|Frank Rieger]] wird die Problematik von Data-Minig sehr anschaulich beschrieben:

''Die Profile sind nützlich, um uns gezielt zum Kauf von mehr nutzlosem Tand oder interessanteren Büchern zu verleiten, uns effizienter zu verwalten und zukünftiges Verhalten zu prognostizieren. Und um Menschen unter präventive Überwachung zu stellen, deren Profil sich bedenklich dem von Straftätern nähert. Dabei geht es nicht um hundertprozentige Präzision der Vorhersage. Wahrscheinlichkeiten, Neigungen, Tendenzen, Zugehörigkeit zu Kohorten sind die Währungen der algorithmischen Orakel.''


=== Grundsätzliche Kritik an de KI ===
Einer der ersten und versiertesten Kritiker der Künstlichen Intelligenz Forschung ist Joseph Weizenbaum. Joseph Weizenbaum war einer der Pioniere in der Künstlichen Intelligenz Forschung. Er hat das Programm Eliza entwickelt, welches einen Psychiater symuliert. Seine Intention für das Programm war allerdings nur eine bloße Übung, wie der Computer mit Sprache umgehen kann. Zu seinem Erschrecken wurde das Programm von vielen (auch seinen Kolleg_innen und Mitarbeiter_innen) als ernste Alternative zu einem realen Psychiater angenommen. Dieses Schlüsselerlebnis hat Joseph Weizenbaum zu einem entschiedenen Warner vor den Gefahren der KI gemacht (und dem latenten Größenwahn der Wissenschaftler_innen).

 * [[http://denkwerkzeuge.ch/| ELIZA zum ausprobieren]]
 * [[http://www.heise.de/newsticker/meldung/104672|Telepolis zum Tod von Joseph Weizenbaum]]

== Programme für Data Mining ==

Es gibt eine Java-Klassen Bibliothek für Data-Mining, die heißt Weka:

[[http://www.cs.waikato.ac.nz/ml/weka/|Weka Webseite]]

Das Programm KMIME ist mit dieser Bibliothek geschrieben worden:

[[http://knime.org/|KMIME]]
-Zeile 21:
+Zeile 96:
-== Anschauliche Erläuterung der Gefahren von Data-Mining ==

In einem [[http://www.faz.net/s/Rub117C535CDF414415BB243B181B8B60AE/Doc~E38A2F6DD0A734EB789AAD27EDE6F9A35~ATpl~Ecommon~Scontent.html|FAZ-Artikel über Data-Mining]] von [[http://frank.geekheim.de|Frank Rieger]] wird die Problematik von Data-Minig sehr anschaulich beschrieben:

''Die Profile sind nützlich, um uns gezielt zum Kauf von mehr nutzlosem Tand oder interessanteren Büchern zu verleiten, uns effizienter zu verwalten und zukünftiges Verhalten zu prognostizieren. Und um Menschen unter präventive Überwachung zu stellen, deren Profil sich bedenklich dem von Straftätern nähert. Dabei geht es nicht um hundertprozentige Präzision der Vorhersage. Wahrscheinlichkeiten, Neigungen, Tendenzen, Zugehörigkeit zu Kohorten sind die Währungen der algorithmischen Orakel.''

== Projekte ==
Im Rahmen der [[Datenbanken in Europa|EU]] gibt es ein Projekt namens [[INDECT]] indem alle Datenbanken, alle durch [[Überwachungstechnik]] aufgezeichneten Daten und durch Software Agenten im Netz gefundenen Daten durch Data-Mining geplante Verbrechen a la Minority Report vorhergesehen werden sollen.