Chi-Quadrat-Test / Korrelation < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 10:29 Do 09.06.2016 | Autor: | Marcel08 |
Aufgabe | Es liegen vor:
- eine abhängige Variable mit nominalem Messniveau
- eine unabhängige Variable mit metrischem Messniveau
Es sollen nun in SPSS durchgeführt werden:
- Ein Chi-Quadrat-Test
- Eine Korrelationsanalyse
- Eine Regressionsanalyse (linear & mit Kurvenanpassung) |
Hallo Statistik-Freunde,
die vorliegende Aufgabe würde ich gerne in SPSS lösen und interpretieren. Meine Fragen dazu lauten:
1.) Kann aufgrund der stark unterschiedlichen Messniveaus der beiden Variablen überhaupt ein Chi-Quadrat-Test so ohne weiteres durchgeführt werden?
2.) Wie bzw. mit welchem Zusammenhangsmaß führe ich im vorliegenden Fall eine Korrelationsanalyse durch?
In der Literatur finde ich für solche Mischformen einerseits das sogenannte [mm] "\eta". [/mm] Dieses Zusammenhangsmaß setzt offenbar jedoch eine nominale, unabhängige sowie eine metrische, abhängige Variable voraus. Im vorliegenden Fall ist es jedoch genau umgekehrt. Kann man dieses Maß dennoch verwenden?
Außerdem habe ich in der Literatur gelesen, dass bei zwei Variablen mit unterschiedlichem Messniveau diejenige Variable mit dem niedrigeren Messniveau das zu verwendende Messniveau bestimmt. Insofern betrachte ich also in Frage kommende Zusammenhangsmaße für das nominale Messniveau:
- Phi
- Cramers V
- Kontingenzkoeffizient
Was "Phi" angeht so ist dieses Maß wohl nur bei 2*2-Tabellen anwendbar. Da dies auf meine konkrete Aufgabe jedoch nicht zutrifft, muss ich auch dieses Maß ausschließen. Bezüglich der verbleibenden Maße finde ich nun keine weiteren "Selektionskriterien". Welches Maß muss nun verwendet werden und wie kann ich dann das resultierende Ergebnis deuten? Ich habe dazu gelesen, dass Zusammenhangsmaße des nominalen Messniveaus lediglich eine Aussage bezüglich der Stärke des Zusammenhangs liefern, nicht jedoch was die Richtung des Zusammenhangs angeht. Wie hoch muss der resultierende Wert sein, damit man überhaupt von einem statistischen Zusammenhang reden kann?
|
|
|
|
Hallo Marcel,
für den Chi-Quadrat-Test brauchst Du Anzahlen, die zu Kategorien gehören. Du müsstest also die metrische Variable in Kategorien aufteilen. Und dann den Chi-Quadrat-Test ganz normal durchführen.
Für die Korrelationsanalyse sind Spearman und Pearson am üblichsten:
http://novustat.com/statistik-glossar.html
Viele Grüße,
Erik
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 16:32 Sa 11.06.2016 | Autor: | Marcel08 |
Hallo Erik,
> Hallo Marcel,
> für den Chi-Quadrat-Test brauchst Du Anzahlen, die zu
> Kategorien gehören. Du müsstest also die metrische
> Variable in Kategorien aufteilen. Und dann den
> Chi-Quadrat-Test ganz normal durchführen.
vielen Dank für deine Antwort. Ich habe deinen Gedanken aufgenommen, etwas recherchiert und sogar etwas auf der Seite 125 ganz oben gefunden. Es stellt sich dann die Frage, nach welchen Kriterien man die Klassenbildung und -einteilung vornimmt. Im Netz habe ich gelesen, dass man dies mit der sogenannten "Regel von Sturges" vornehmen kann. Würde das auch in diesem Fall passen?
> Für die Korrelationsanalyse sind Spearman und Pearson am
> üblichsten:
In der obigen Quelle steht, dass man die Korrelation nach der Klassenbildung mit "Cramers V" messen würde. Dies ist die Klasse von Zusammenhangsmaßen, zu der auch der "Kontingenzkoeffizient" gehört. Das finde ich zudem auch hier in der Tabelle unter 2.5. Die von dir vorgeschlagenen Korrelationskoeffizienten gehören einer anderen Klasse an. Nach wie vor bin ich verwirrt, was die Auswahl des korrekten Zusammenhangsmaßes angeht. Kannst du mir nochmal weiterhelfen?
> http://novustat.com/statistik-glossar.html
> Viele Grüße,
> Erik
Viele Grüße,
Marcel
|
|
|
|
|
Hallo Marcel,
die Einteilung in Gruppen für den Chi-Quadrat-Test muss auf jeden Fall fachlich Sinn machen. Die Regel von Sturges kann Sinn machen, muss es aber nicht. Ich weiß ja nicht, welche Art von Daten Du auswertest.
Was heißt "Korrelation nach der Klassenbildung"? Die Klassenbildung machen wir für den Chi-Quadrat-Test, weil dieser Kategorien als Eingabe braucht.
Für die Korrelations- und Regressionsanalyse solltest Du besser die Originaldaten verwenden. Je höher das Skalenniveau Deiner Daten umso besser. Metrisch ist also besser als die Klassen. Dann kannst Du auch Spearman oder Pearson verwenden.
Viele Grüße, Erik
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 12:23 Mo 13.06.2016 | Autor: | Marcel08 |
Hallo,
> Hallo Marcel,
> die Einteilung in Gruppen für den Chi-Quadrat-Test muss
> auf jeden Fall fachlich Sinn machen. Die Regel von Sturges
> kann Sinn machen, muss es aber nicht. Ich weiß ja nicht,
> welche Art von Daten Du auswertest.
meine unabhängige Variable steht für das Haushaltseinkommen und die abhängige Variable für die extern eingeschätzte, gesellschaftliche Schichtzugehörigkeit. Die Einteilung der metrischen Variable in Klassen habe ich soweit vorgenommen.
> Was heißt "Korrelation nach der Klassenbildung"? Die
> Klassenbildung machen wir für den Chi-Quadrat-Test, weil
> dieser Kategorien als Eingabe braucht.
> Für die Korrelations- und Regressionsanalyse solltest Du
> besser die Originaldaten verwenden. Je höher das
> Skalenniveau Deiner Daten umso besser. Metrisch ist also
> besser als die Klassen.
> Dann kannst Du auch Spearman oder
> Pearson verwenden.
In der Literatur habe ich dazu gelesen, dass das niedrigste Messniveau grundsätzlich den zu verwendenden Koeffizienten bestimmt. Da wir in diesem Fall den Zusammenhang zwischen einer nominalen und einer metrischen Variablen messen wollen, würde man demnach auf den sogenannen "Kontingenzkoeffizienten (für nominale Daten)" zurückgreifen.
Spearman bzw. Pearson sind nun aber Zusammenhangsmaße für ordinal- bzw. intervallskalierte Daten. Darf man diese hier auch dann verwenden, wenn eine meiner Variablen ein noch niedrigeres Messniveau aufweist? Sollte man daher nicht eher Cramers V bzw. den Kontingenzkoeffizienten verwenden?
> Viele Grüße, Erik
Außerdem verstehe ich bisher noch nicht, wie ich eine lineare Regression durchführen kann, wenn eine meiner Variablen nominal skaliert ist. Benötigt man für eine lineare Regression nicht zwei metrisch skalierte Variablen? Die gleiche Frage hätte ich im Prinzip auch im Hinblick auf die Regression mit Kurvenanpassung.
In der Literatur stößt man bei der Recherche nach diesem Problem auf Begriffe wie "Dummy-Variablen" bzw. "Logistische Regression". Aber irgendwie finde ich keinen Beitrag, der sich konkret mit meiner Problemstellung beschäftigt.
Nochmals vielen Dank und viele Grüße
Marcel
|
|
|
|
|
Hallo Marcel,
für das Haushaltseinkommen kann die Sturges-Regel Sinn machen.
Du hattest doch selbst auf ein Buchkapitel verlinkt mit einer hübschen Tabelle, in der Deine Fragen beantwortet werden. Dort war für jede Kombination von Skalen für abhängige und unabhängige Variablen angegeben, welche Regressionsanalyse jeweils möglich ist bei gemischten Skalen! Allerdings hatte ich mich da wohl verguckt. Du hast eine nominale Metrik, keine ordinale. Es bleiben also tatsächlich nur noch Kontingenzkoeffizient und Kramers V.
Eine Regressionsanalyse macht für nominale Werte tatsächlich keinen Sinn, eher für ordinale. Aber ist die Schichtzugehörigkeit nicht eher ordinal? Sie haben ja eine Reihenfolge, die eine Schicht liegt "höher" als die andere und die Regressionsanalyse ergibt dann Antworten auf Fragen wie "Gehören Menschen mit höherem Einkommen auch zu einer höheren Schicht?" oder "Verdienen Menschan aus höheren Schichten mehr?"
Viele Grüße,
Erik
|
|
|
|
|
> Hallo Marcel,
> für das Haushaltseinkommen kann die Sturges-Regel Sinn
> machen.
> Du hattest doch selbst auf ein Buchkapitel verlinkt mit
> einer hübschen Tabelle, in der Deine Fragen beantwortet
> werden. Dort war für jede Kombination von Skalen für
> abhängige und unabhängige Variablen angegeben, welche
> Regressionsanalyse jeweils möglich ist bei gemischten
> Skalen!
Das stimmt. Da war ich vielleicht etwas unsicher.
> Allerdings hatte ich mich da wohl verguckt. Du hast
> eine nominale Metrik, keine ordinale. Es bleiben also
> tatsächlich nur noch Kontingenzkoeffizient und Kramers V.
> Eine Regressionsanalyse macht für nominale Werte
> tatsächlich keinen Sinn, eher für ordinale. Aber ist die
> Schichtzugehörigkeit nicht eher ordinal?
Das kann man durchaus so sehen. Allerdings verwende ich einen mir zur Verfügung gestellten Datensatz. Die Messniveaus der einzelnen Variablen sind also von extern vorgegeben.
> Sie haben ja eine
> Reihenfolge, die eine Schicht liegt "höher" als die andere
> und die Regressionsanalyse ergibt dann Antworten auf Fragen
> wie "Gehören Menschen mit höherem Einkommen auch zu einer
> höheren Schicht?" oder "Verdienen Menschan aus höheren
> Schichten mehr?"
Ich habe mir jetzt nochmal einige Fachbücher zu dem Thema besorgt. Nach deren Durchsicht habe ich mich dazu entschieden, eine multinomiale Regression als ein Verfahren der logistischen Regression zu verwenden. Dabei verwende ich das kategorisierte Haushaltseinkommen (nominal) als unabhängige Variable und die Schichtzugehörigkeit (nominal) als abhängige Variable.
Sofern ich alles richtig gemacht habe, kann man dann beispielsweise folgende Interprationen angeben:
- In der Einkommensklasse der "Geringverdiener" ist z.B. die Wahrscheinlichkeit, eher der Unterschicht anzugehören, etwa x Mal so hoch, wie der Oberschicht anzugehören.
Ein Faktor von rund 18 ist in diesem konkreten Beispiel zumindest nicht ganz unplausibel.
oder
beispielsweise liegt die Wahrscheinlichkeit für eine Person der Einkommensklasse "Geringverdiener" ...
- der Unterschicht anzugehören bei a%.
- der Arbeiterschicht anzugehören bei b%.
- der Mittelschicht anzugehören bei c%.
- der oberen Mittelschicht anzugehören bei d%.
- der Oberschicht anzugehören bei e%.
Natürlich muss dabei die Summe der Einzelwahrscheinlichkeiten 1 sein. Plausibel erscheint mir dabei durchaus, dass sich die mit Abstand höchsten Wahrscheinlichkeiten für die Arbeiterschicht (rund 48%) und für die Mittelschicht (rund 45%) ergeben.
Ist es zumindest regelkonform, hier eine multinomiale Regression anzuwenden?
> Viele Grüße,
> Erik
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 10:20 So 19.06.2016 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 15:21 So 19.06.2016 | Autor: | ErikErik |
Hallo Marcel,
eine multinomiale Regression macht in diesem Fall Sinn, da es ja zwei nominale Skalen sind. Ich sehe aber zwei Probleme:
1.) Warum muss es eine nominale Skala sein? Wie gesagt kann man sie beide auch als ordinal sehen, weil es eine gewisse Reihenfolge gibt. Je höher das Skalenniveau, umso besser im Allgemeinen.
2.) Deine Auswertung macht so Sinn. Nur würde ich bei der Gültigkeitsdiskussion auch noch diskutieren, wie die Einschätzung der Schichtzugehörigkeit erfolgt ist. Wenn es eine Selbsteinschätzung ist, wäre die Interpretation doch eher: "Wenn jemand Geringverdiener ist, ordnet er sich selbst eher der Unterschicht zu." Ich persönlich denke, dsas man ziemlich arrogant sein muss, um sich als Geringverdiener trotzdem zur Oberschicht zu zählen.
Viele Grüße, Erik
|
|
|
|