[Data Mining] Allgemeine Fragen - Prüfungsrelevant

Vorlesungen, Seminare und Praktika aus dem Bereich Daten- und Informationsmanagement
Lectures, seminars and labs from the area Data and Information Management

[Data Mining] Allgemeine Fragen - Prüfungsrelevant

Beitragvon Cartoon » 25.11.09 13:58

Hallo,

ich stelle mal hier einige Fragen, die in der praktischen Prüfung bei Seidel durchaus vorkommen können. Wenn einer von euch ebenfalls Fragen hat, kann er diese auch hier stellen.

Die Roten stellen, sollen zeigen, wo ich Verständnis Probleme habe. Somit soll eine Diskussion gestartet werden.

Bayes-Klassifikator:

1) Was ist ein Bayes-Klassifikator?
Antwort: Bayes-Klassifikatoren beruhen auf der Bestimmung bedingter Wahrscheinlichkeiten der Attributwerte für die verschiedenen Klassen. Ordnet jedes Objekt der Klasse zu, zu der es mit der größten Wahrscheinlichkeit gehört.

2) Wie sieht die Formel aus?
Antwort: Sei h_i \in H={h_1,...,h_l} eine Menge von Hypothesen. Der optimale Bayse-Klassifikator ordnet einem Objekt o folgende Klasse zu: \sum_{h_i \in H} P(c_j |h_i)P(h_i|o) (1.1)

Die Hypothesen dienen dazu, dass ich mein Objekt durch Vorwissen einer Klasse zu ordnen kann, so gesehen durch A-priori Wissen, kann ich mein Objekt klassifizieren.

Jetzt steht im Buch (Knowledge Discovery in Database) folgendes: Einen wichtigen Spezialfall des optimalen Bayes-Klassifikator erhalten wir, falls immer genau einer der Hypothesen h_i gültig ist, denn dann vereinfacht sich die Entscheidungsregel (1.1) zu argmax_{c_j \in C} P(c_j|o). Diese Regel, stellt die A-posteriori-Wahrscheinlichkeit dar, das o aus c_j stammt. Da der optimale Bayes-Klassifkator jedoch ein A-posteriori-Wahrscheinlichkeit benötigt, müssen wir diese Regel mit der Bayes-Regel umformen zu P(o|c_j)P(c_j).
Jetzt haben wir die gewünschte A-priori Wahrscheinlichkeit P(c_j).

Aber was bedeutet das "wenn immer genau eine der Hypothesen h_i gültig ist? Denn wenn eine Hypothese nicht gültig wäre, dann bräuchten wir auch die ganzen Umformungen von (1.1) heraus nicht zu tätigen.

3) Ist man ohne die Annahme der stochastischen Unabhängigkeit verloren? (Es ist eine Prüfungsfrage, die sich bei der Umformung von P(c_j|o) mit dem Staz von Bayes ergibt. Im Bruch steht dann P(o). Die Wahrscheinlichkeit von P(o) ist unabhängig von den zu klassifizierten Klassen, daher kann P(o) im Bruch weggelassen werden)

Antwort: Nein, denn wenn P(o) nicht stoch. unabh. von den zu klassifzieren Klassen wäre, so könnten wir die P(o) mit der Formel aus (1.1) berechnen.


NNK:


1) Was ist ein Overfitting?
Antwort: Der Effekt des Overfitting tritt auf, wenn der Entscheidungsbaum so weit verfeinert wird, bis jedes Blatt nur noch Trainingsdaten einer Klasse enthält, was aber problematisch ist, wenn die Trainingsdaten Rauschen bzw. Fehler enthalten oder wenn die Trainingsdaten keine repräsentative Stichprobe der Grundgesamtheit bilden. Und wenn das Overfitting eintritt, gibt es zwei Entscheidungsbäume E und E´ mit
- E hat auf der Trainingsmenge eine kleiner Fehlerrate als E´
- E´ hat auf der Grundgesamtheit der Daten eine kleinere Fehlerrate als E

Habe ich das richtig verstanden?: Also wenn ich zusätzliche Trainingsdaten habe, und möchte anhand des Entscheidungsbaum sehen, wie ich diese Trainingsdaten klassifzieren kann, so kann es durchaus vorkommen, dass ich eine falsche Klassifizierung vorliegen habe. Sobald ich eine falsche Klassifizierung vorliegen habe, nennt man das Overfitting?


Assoziationsregeln:


1) Wie kann man die Berechnung von Frequent Itemsets noch verbessern?
Antwort: Da beim Apriori-Algorithmus die Anzahl der zu zählenden Kandidaten-Itemsets groß werden können, weil eine Transaktion mehrere Kandidaten enthalten kann, können wir mit dem FP-Tree und FP-Grwoth die Berechnung der Frequent Itemsets verbessern.

Wie der FP-Tree funktioniert ist mir klar (Divide-and-Conque Ansatz, 3 Schritte, Konditionale Musterbasis erstellen, Aufbau des konditionalen FP-Trees, Rekrusives Mining des FP-Trees).

Was bedeutet aber FP-Growth bzw. wie kann ich mir die Vorgehensweise erklären. Was ich nur zur FP-Grwoht gefunden habe, ist das es eine Mutererweitrung ist. Muss man um den FP-Grwoth zu bestimmen, vorher den FP-Tree erstellt haben oder sind diese beiden Schritt unabhängig voneinander?


Vielen Dank schon mal für die Antworten.
Cartoon
 
Beiträge: 4
Registriert: 22.06.09 11:16

Re: [Data Mining] Allgemeine Fragen - Prüfungsrelevant

Beitragvon seth » 25.11.09 17:58

Cartoon hat geschrieben:1) Was ist ein Overfitting?
Antwort: Der Effekt des Overfitting tritt auf, wenn der Entscheidungsbaum so weit verfeinert wird, bis jedes Blatt nur noch Trainingsdaten einer Klasse enthält, was aber problematisch ist, wenn die Trainingsdaten Rauschen bzw. Fehler enthalten oder wenn die Trainingsdaten keine repräsentative Stichprobe der Grundgesamtheit bilden. Und wenn das Overfitting eintritt, gibt es zwei Entscheidungsbäume E und E´ mit
- E hat auf der Trainingsmenge eine kleiner Fehlerrate als E´
- E´ hat auf der Grundgesamtheit der Daten eine kleinere Fehlerrate als E

Habe ich das richtig verstanden?: Also wenn ich zusätzliche Trainingsdaten habe, und möchte anhand des Entscheidungsbaum sehen, wie ich diese Trainingsdaten klassifzieren kann, so kann es durchaus vorkommen, dass ich eine falsche Klassifizierung vorliegen habe. Sobald ich eine falsche Klassifizierung vorliegen habe, nennt man das Overfitting?


Overfitting ist glaube ich eher ein schleichender Prozess (siehe Grafik bei Wikipedia).

Es geht nicht darum, dass du etwas falsch klassifizierst, sondern darum dass du auf deinen Trainingsdaten besser wirst um den Preis auf der Grundgesamtheit schlechter zu werden. Das ist schwer zu überprüfen weil die Grundgesamtheit dir nicht bekannt ist. Vielleicht ist das verständlich: "Wirst du während des trainings besser auf den Trainingsdaten und schlechter auf den Testdaten, beginnst du zu overfitten."
7.4.2008 AGo: Benutzer ist gebannt.
seth
 
Beiträge: 239
Registriert: 16.09.05 10:40
Wohnort: AC


Zurück zu Daten- und Informationsmanagement / Data and Information Management