Clusteranalyse < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Aufgabe | Geeigneter Algorithmus für eine "hierarische " Clusteranalyse ... |
Hallo zusammen,
ich bin neu in diesem Forum und habe eine Frage im Bereich der Statistik. Meine Aufgabe in der Uni ist es eine Clusteranalyse durchzuführen bei der ich nun eine Algorithmus programmieren soll. Hier die Anforderungen an den Algorithmus:
- Bildung von 3 oder 4 Clustern (muss vorher festgelegt werden)
- In einem (x/y) Diagramm werden jeweils an den Achsen Kennzahlen verwendet
- Kennzahlen gehen von 0 - 100%, je höher desto besser ist das Ergebnis
- es soll mit Bezug auf das Ergebnis Cluster gebildet werden (Bsp.3 Cluster: schlecht-mittel-gut)
Der Algorithmus solo nun quasi nach Rangfolge bzw. Ergebnis 3 Cluster ermitteln.
Beispiel:
C1(Schlechtes Cluster): K1: 10%; K2: 12%
C2(Mittleres Cluster): K1: 50%; K2: 55%
C3(Gutes Cluster): K1:83%; K2: 85%
Wie würdet ihr vorgehen bzw. welche Art von Algorithmus würde sich hier anbieten? Mir ist nicht ganz klar wie der Algorithmus die Unterscheidung von schlechten, mittleren und guten Cluster definieren soll.
Es müsste ja eigentlich irgendwie in die Richtung von Hierarchischen Methoden gehen. Wobei die Festlegung der Cluster (3) z.B. beim k-means Algorithmus möglich ist.
Falls einer von euch sich mit diesem Thema schonmal auseinander gesetzt hat würde ich mich über Ideen sehr freuen.
Vielen dank und schönen Tag noch!
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
|
|
|
|
Hallo und willkommen bei uns,
es ist schwierig heraus zufinden, was die eigentliche Aufgabe ist und wo deine Probleme stecken.> Geeigneter Algorithmus für eine "hierarische "
> Clusteranalyse ...
> Hallo zusammen,
>
> ich bin neu in diesem Forum und habe eine Frage im Bereich
> der Statistik. Meine Aufgabe in der Uni ist es eine
> Clusteranalyse durchzuführen bei der ich nun eine
> Algorithmus programmieren soll. Hier die Anforderungen an
> den Algorithmus:
>
> - Bildung von 3 oder 4 Clustern (muss vorher festgelegt
> werden)
Das muss bei den (meisten) Clusteralgorithmen vorher festgelegt werden.
> - In einem (x/y) Diagramm werden jeweils an den Achsen
> Kennzahlen verwendet
Ja und vorher kennst du die Kennzahlen? Überhaupt, wie liegen deine Daten vor?
> - Kennzahlen gehen von 0 - 100%, je höher desto besser
> ist das Ergebnis
> - es soll mit Bezug auf das Ergebnis Cluster gebildet
> werden (Bsp.3 Cluster: schlecht-mittel-gut)
Das ist ja das Problem. Solche Clusteralgorithmen sind meistens unsupervised learning Algorithmen, so ein Feedback deiner Kennzahlen kann man da nicht gewinnbringend natürlich einbringen. Nimmst du irgendeine Kostenfunktion, die beim k-means Algo den durchschnittlichen Abstand nimmt, so wird eine größere anzahl von Clustern natürlich besser dastehen.
>
> Der Algorithmus solo nun quasi nach Rangfolge bzw. Ergebnis
> 3 Cluster ermitteln.
>
> Beispiel:
> C1(Schlechtes Cluster): K1: 10%; K2: 12%
> C2(Mittleres Cluster): K1: 50%; K2: 55%
> C3(Gutes Cluster): K1:83%; K2: 85%
>
....
>
> Es müsste ja eigentlich irgendwie in die Richtung von
> Hierarchischen Methoden gehen. Wobei die Festlegung der
> Cluster (3) z.B. beim k-means Algorithmus möglich ist.
Solche hierarchische Clusterideen, wie agglomeratives Clustering und divisives Clustering, clustern sinnvollerweise deine Daten in mehrere Cluster als 3 oder 4.
>
> Falls einer von euch sich mit diesem Thema schonmal
> auseinander gesetzt hat würde ich mich über Ideen sehr
> freuen.
>
> Vielen dank und schönen Tag noch!
>
> Ich habe diese Frage in keinem Forum auf anderen
> Internetseiten gestellt.
>
So wie ich es momentan verstehe suchst du Cluster und das Ergebnis deines Clusteralgorithmus wird per "Kennzahl" bewertet?
-Oder-
Oder aber sind die Kennzahlen deine Daten und du clusterst nur die Kennzahlen?
Beim letzten Fall hast du eine Punktwolke von Daten (Kennzahlen).
> Wie würdet ihr vorgehen bzw. welche Art von Algorithmus
> würde sich hier anbieten? Mir ist nicht ganz klar wie der
> Algorithmus die Unterscheidung von schlechten, mittleren
> und guten Cluster definieren soll.
Das macht ja der Clusteralgorithmus automatisch. Wenn du ihm vorgibst 3 Cluster zu finden, dann wird er auch irgendwelche 3 Cluster finden. Du kannst natürlich bei der Wahl der Start-Zentren für den k-means Algorithmus versuchen den Cluster-Algo zu drängen deine Kennzahlen in die 3 Klassen zu Clustern.
Das Ergebnis lässt sich aber im Allgemeinen nicht forcieren oder vorhersagen, da das meistens immer EM-Algorithmen sind, die eine lokale Konvergenz haben.
Aber erzähl erst einmal wie die Daten (als Toy-Beispiel) aussehen. Vielleicht finden sich da auch andere Algorithmen.
Gruß
wieschoo
|
|
|
|