Empirisches Arbeiten und Empirisches Arbeiten und methodisch

Empirisches Arbeiten und Empirisches Arbeiten und methodisch

UNIVERSITÄT DES SAARLANDES Fachrichtung g Psychologie y g der Fakultät für Empirische p Humanwissenschaften Dr. Markus Pospeschill Empirisches Arbei...

582KB Sizes 0 Downloads 5 Views

Recommend Documents

Wissenschaftliches Arbeiten und Zitieren
Wörtliche Zitate werden ohne jede Änderung aus der Informationsquelle ... jahr. Absatzformat: Hängend. • Die Angabe

Systemisch Arbeiten und Beraten - ISB
Die Anmeldung ist schriftlich mit gleichzeitiger Überweisung von € 700.- auf das Konto der. Hypo Innsbruck-Pradl, Kon

Nominierte Arbeiten und Kooperationsprojekt 2014
Brüggeman, Sean Nicolas. Technische Universität München. Master ... Towards a Holistic Understanding of Price. Manage

Wohnen und Arbeiten - Hörmann
02.09.2004 - Fünf-Sterne-Hotels „The Ritz-Carlton“ in Berlin, entworfen von Hilmer & Sattler und Albrecht Gesellsch

und Elektrotechnische Arbeiten - Stadt Friedrichshafen
04.10.2017 - Schwenkstrahlreinigers, 3 Messstrecken davon eine mit Drosseleinrichtung, 2 Schieber, 5. VA-Abdeckungen sam

Nominierte Arbeiten und Kooperationsprojekte 2017
Karl, David. Prof. Dr. Eric Sucky. Otto-Friedrich-Universität Bamberg. Master. Abstract [email protected] Beyond the

Handreichung zum wissenschaftlichen Arbeiten - und
Diese Angaben folgen der gängigen Struktur deutschsprachiger Quellen. ELLIN, N. [Hg.] (1999): Postmodern Urbanism. 2. A

Reisen und arbeiten kombienieren Webtext
Reisen und arbeiten kombinieren ist eine schöne Art, ein Land zu entdecken und dabei auch das Portemonnaie etwas zu sch

Empirisches Downscaling - Überblick und zwei - Hans von Storch
1999; Charles et al. 1999) ..... Chelliah, W. Ebisuzaki, W. Higgins, J. Janowiak, K.C. Mo, C. Ropelewski, J. Wang, A. Le

Medienmitteilung Raiffeisen und Vontobel arbeiten auch nach
St. Gallen/Zürich, 9. Februar 2016. Raiffeisen und Vontobel werden nach Auslaufen des beste- henden Kooperationsvertrag

UNIVERSITÄT DES SAARLANDES Fachrichtung g Psychologie y g der Fakultät für Empirische p Humanwissenschaften

Dr. Markus Pospeschill

Empirisches Arbeiten und Empirisches Arbeiten und  methodisch‐‐statistische Beratung methodisch GradUS‐‐Veranstaltung im Wintersemester 2009/10 GradUS

Teil 4  Teil 4 –– Skalierung a. Reliabilität und Validität von Messungen g b. Merkmale einer Ratingskala c. Eindimensionale Skalierung d. Mehrdimensionale Skalierung

Road Map 1

EMPIRISCHES ARBEITEN

2 3

EMPIRISCHER FORSCHUNGS-

GRUNDLAGEN

5

MESSEN

SKALIEREN

SKALA

RELIABILITÄT

SKALENTYPEN

VALIDITÄT

PROZESS

PROBLEMPRÄZISIERUNG

METHODE

EMPIRIE

DEFINITION VON BEGRIFFEN

HYPOTHESE UND THEORIE

VERFAHREN

NICHT ZUFALLSGESTEUERTE AUSWAHLVERFAHREN

UNTERSUCHUNGSDESIGNS

KLEINE VS. GROSSE STICHPROBEN

ZUFALLSGESTEUERTE AUSWAHLVERFAHREN

INDIKATOREN

10

OPERATIONA-

.0 14

01

0

EINDIMEN-

KLUMPEN- UND MEHRSTUFIGE

SIONALE SKALIERUNG

STICHPROBEN

MEHRDIMEN-

FESTLEGUNG

SIONALE SKALIERUNG

STICHPROBEN-

Dr. Markus Pospeschill: Empirisches Arbeiten

0 01

LISIERUNG

2 1.

2 1. .0

07.01.2010

20

RATINGSKALA

AUSWAHL-

21

0

. 01 7.

6

4

DES UMFANGS

1/2

a. Reliabilität und Validität von Messungen Vorbemerkungen: • Sehr häufig wird unter Skala Skala ein Messinstrument  (vornehmlich zur Erfassung psychologischer Konstrukte)  verstanden. • Die dort enthaltenen Indikatoren werden als Items Die dort enthaltenen Indikatoren werden als Items (im  (im experimentalpsychologischen Kontext: Stimulus Stimulus) bezeichnet. • Jedem Item wird eine Zahl zugeordnet: Itemwert Jedem Item wird eine Zahl zugeordnet: Itemwert. Itemwert • Aus Itemwerten werden Skalenwerte Skalenwerte errechnet, der die  Position eines Befragten auf einem Kontinuum Kontinuum markiert. • Die Menge von Items Menge von Items ist also hier die Skala Skala.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/3

a. Reliabilität und Validität von Messungen •





Skalierungsverfahren sind Techniken und Vorgehensweisen,  mit Hilfe derer Skalen erzeugt werden (z.B. Ratingskalen zur  Messung von Einstellungen, Überzeugungen oder  Persönlichkeitskonzepten). Skalierungsverfahren besitzen dabei keine messtheoretische  Skalierungsverfahren besitzen dabei keine messtheoretische  keine messtheoretische Basis (im Sinne der axiomatischen Messtheorie), d.h. es wird  weder ein exakter Nachweis hinsichtlich der Messbarkeit weder ein exakter Nachweis hinsichtlich der Messbarkeit  der zu untersuchenden Eigenschaft noch des resultierenden  Skalenniveaus geführt (dies ist nicht zu verwechseln mit der  klassischen oder probabilistischen Testtheorie). Für letzteres wird einfach Intervallskalenniveau Intervallskalenniveau unterstellt,  um die wichtigsten statistischen Verfahren anwenden zu um die wichtigsten statistischen Verfahren anwenden zu  können (dies impliziert allerdings einige Voraussetzungen,  die nicht immer gegeben sind). g g )

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/4

a. Reliabilität und Validität von Messungen Skalierungsverfahren lassen sich nach verschiedenen  Gesichtspunkten klassifizieren: 1. Dimensionalität Dimensionalität: • Eindimensionale und mehrdimensionale Verfahren Eindimensionale und mehrdimensionale Verfahren 2. Algorithmus Algorithmus: • Deterministische und probabilistische Deterministische und probabilistische Verfahren 3. Funktion Funktion: • Personen‐orientierte Skalierung (Subjekt) • Indikator‐orientierte Skalierung (Reiz) • Urteiler‐Indikator‐Skalierung (Reaktion)

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/5

a. Reliabilität und Validität von Messungen • •

• • •

Die Reliabilität Reliabilität (Messgenauigkeit) ist keine dichotome,  sondern eine graduell abgestufte Eigenschaft und wird  daher in Graden angegeben. Die Reliabilität Rel eines Messinstrumentes ist nach der  Klassischen Testtheorie definiert als das Verhältnis der  Klassischen Testtheorie definiert als das Verhältnis der  Verhältnis der Varianz der wahren Messwerte zur Varianz der  beobachteten Messwerte. beobachteten Messwerte. beobachteten Messwerte Messwerte Liegt kein Messfehler vor, ist Rel = 1. Produziert eine Messung nur Messfehler, ist Rel = 0. Die Wurzel aus Rel (Index der Reliabilität Index der Reliabilität) entspricht der  Korrelation zwischen den wahren und den beobachteten  Werten Eine hohe Korrelation deutet auf ein reliables Werten. Eine hohe Korrelation deutet auf ein reliables  (zuverlässiges) Messinstrument hin.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/6

a. Reliabilität und Validität von Messungen Die drei wichtigsten Methoden zur Bestimmung der Reliabilität  sind: 1. die Test Test‐‐Retest Retest‐‐Methode Methode, 2. die Paralleltestmethode Paralleltestmethode und 3 die Konsistenzanalyse 3. die Konsistenzanalyse. Konsistenzanalyse Alle Methoden erfassen jeweils verschiedene Ursachen für die  Alle Methoden erfassen jeweils verschiedene Ursachen für die Variation von Messwerten bei wiederholten Messungen. Damit können drei verschiedene Reliabilitäten für ein und  dasselbe Messinstrument resultieren, d.h. es gibt – streng  genommen – nicht die Reliabilität eines Messinstrumentes. Die Bestimmung von Reliabilitäten ist auch für experimental Die Bestimmung von Reliabilitäten ist auch für experimental‐ und nicht nur für differentialpsychologische Forschung  entscheidend. 07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/7

INDEX DER RELIABILITÄT

korreliert

WAHRE VARIANZ

© Dr. Markus Pospeschill Fachrichtung Psychologie Universität des Saarlandes

GESAMTVARIANZ

als Wurzel

im Zähler

Reliabilität

korreliert

rtt=1

im Nenner

RELIABILITÄT

ist niedrig

ist abhängig vom

MESSFEHLER

ist hoch rtt=0

kann bestimmt werden nach

TEST-RETESTMETHODE

PARALLELTESTMETHODE

TESTHALBIERUNGSMETHODE

KONSISTENZANALYSE

erfordert

erfordert

erfordert

erfordert

WIEDERHOLTE ANWENDUNG

PARALLELTEST

ZWEI TESTHÄLFTEN

ITEM ALS UNABHÄNGIGE MESSWIEDERHOLUNG

ZEITLICHE STABILITÄT

GLEICHE DIMENSIONEN

GLEICHER TEST

DIESELBE DIMENSION

rtt ≥ 0,8

07.01.2010

rtt ≥ 0,9

Dr. Markus Pospeschill: Empirisches Arbeiten

4/8

on Definitio

erungen Differenzie

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/9

a. Reliabilität und Validität von Messungen • •

• •

Ein Messinstrument ist dann valide valide, wenn es das misst, was  es messen soll bzw. zu messen vorgibt. Für die Validität eines Messinstrumentes ist es notwendig  (aber nicht hinreichend), dass unterschiedliche Messwerte  auch unterschiedliche Merkmalsausprägungen reflektieren auch unterschiedliche Merkmalsausprägungen reflektieren  und nicht nur Messfehler produzieren und das Messwerte  unabhängig von umgebenden Variablen (Durchführungs‐ unabhängig von umgebenden Variablen (Durchführungs und Auswertungsbedingungen) zustande kommen. Eine perfekte Validität perfekte Validität liegt vor, wenn kein Messfehler  auftritt. Auch die Validität ist keine dichotome Eigenschaft, sondern  eine kontinuierliche Größe eine kontinuierliche Größe.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/10

a. Reliabilität und Validität von Messungen •



• •

Messungen können durchaus reliabel sein (d.h. wiederholte  Messungen liefern nahezu gleiche Resultate), aber nicht  valide (d.h. das Verfahren misst etwas anderes, als es  messen sollen). Ebenso kann ein Instrument prinzipiell valide“, aber nicht  Ebenso kann ein Instrument prinzipiell „valide aber nicht reliabel sein. Allerdings gilt hier, dass bei nicht gegebener  Validität, die Gütekriterien Reliabilität und Objektivität nicht Validität, die Gütekriterien Reliabilität und Objektivität nicht  mehr von Belang sind. Die Validität kann nicht größer sein als die Reliabilität (wohl  aber umgekehrt). Reliabilität ist somit eine notwendige aber keine Reliabilität ist somit eine notwendige, aber keine  hinreichende Bedingung für Validität. 

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/11

a. Reliabilität und Validität von Messungen •



Entscheidend für die Validität ist, das sie nur im Vergleich  mit Messwerten oder Messinstrumenten beurteilt werden  kann, die mit anderen Instrumenten erzielt wurden, d.h. die die Validität schlechthin gibt es nicht, sondern immer nur  verbunden mit einem bestimmten Zweck oder einer verbunden mit einem bestimmten Zweck oder einer  bestimmten Zielsetzung. Auch hier gibt es drei wesentliche Formen: Auch hier gibt es drei wesentliche Formen:

1. die Inhaltsvalidität Inhaltsvalidität 2. die Kriteriumsvalidität Kriteriumsvalidität und 3. die Konstruktvalidität Konstruktvalidität. (vgl. die Differenzierung logischer und empirischer Validität als Teil der  Inhaltsvalidität aus dem Vorlesungsteil „Empirischer Forschungsprozess“) 07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/12

Validität

UNTERSCHIEDLICHE MERKMALSAUSPRÄGUNGEN reflektieren

TESTVERFAHREN

UNTERSCHIEDLICHE MESSUNGEN

wird ermittelt anhand von Daten anderer

ist abhängig

RELIABILITÄT

setzt notwendigerweise voraus

© Dr. Markus Pospeschill Fachrichtung Psychologie Universität des Saarlandes MESSUNG DESSEN. WAS ES MESSEN SOLL

ist abhängig

VALIDITÄT

ist abhängig vom

bei geringem

ist niedrig

VALIDITÄT „hoch“

MESSFEHLER

ist hoch VALIDITÄT „niedrig“

kann bestimmt werden nach

INHALTSVALIDITÄT

KRITERIUMSVALIDITÄT

KONSTRUKTVALIDITÄT

erfordert

unterscheidet

unterscheidet

GENAUE DEFINITION DER BEGRIFFE

PRÄDIKTIVE VALIDITÄT

KONVERGENTE VALIDITÄT

erfordert

KONFIRMATORISCHE FAKTORENANALYSE

erfordert

ANGEMESSENE OPERATIONALISIERUNG

KONKURRENTE VALIDITÄT

INHALTLICHE ANALYSE ALLER ITEMS

ZUSAMMENHÄNGE ZU ANDEREN INSTRUMENTEN

DISKRIMINANTE VALIDITÄT erfordert

erfordert LATENTE VARIABLEN

erfordert

07.01.2010

überprüfbar durch

erfordert

BESTÄTIGUNG VON PROGNOSEN

AUSTAUSCHBARKEIT VON INDIKATOREN

KORRELATION ZWISCHEN MESSWERTEN

MESSUNG ANDERER SACHVERHALTE

Dr. Markus Pospeschill: Empirisches Arbeiten

4/13

Pospeschiill (2010). TTesttheorie und Testko onstruktion n. Kap. 2 4/14 Dr. Markus Pospeschill: Empirisches Arbeiten 07.01.2010

b. Merkmale einer Ratingskala (STATES) EICHSTICHPROBE

ZEITLICH STABILE MERKMALE (TRAITS)

„„FRAGEBOGEN“

für die Normierung

APPARATIVER (COMPUTERBASIERTER) TEST

ANALYSESTICHPROBE MULTIDIMENfür die Erprobung OBJEKTIVER PERSÖNLICHKEITS-

UNIDIMENSIONALE MERKMALE

TEST

QUALITATIVE (KATEGORIALE) MERKMALE

können sein

QUANTITATIVE (GRADUELLE) MERKMALE

ERHEBUNGSMERKMALE

PAPER- UND PENCIL-TEST

PROJEKTIVER TEST

SIONALE MERKMALE

PERSÖNLICHKEITSTEST

kann sein

FÄHIGKEITS- UND LEISTUNGSTEST

PERSONENKREIS (FÜR WEN?)

TESTFORM (SPEED-/POWERTEST)

EINSATZBEREICHE (WO?)

TESTDAUER (ZEIT DER BEARBEITUNG)

ANWENDUNG (WOFÜR?)

TESTLÄNGE (ANZAHL ITEMS)

legt g fest

TESTART

GELTUNGSBEREICH

sind

TESTEIGENSCHAFTEN

erfordert Festlegung

Pospeschill & Spinath h (2009). Pssychol. Diaggnostik. Kaap. 2

ZEITLICH VERÄNDERLICHE MERKMALE

erfordert Festlegung TESTKONSTRUKTION

07.01.2010

Planung und Entwicklung

Dr. Markus Pospeschill: Empirisches Arbeiten

Testkonstruktion* 2009

2/15

b. Merkmale einer Ratingskala unterteilen sich in

unterteilen sich in untergliedern sich in

FREIES/OFFENES ANTWORTFORMAT

SONDERFORMEN VON ANTWORT-

GEBUNDENES ANTWORTFORMAT

liegt vor bei liegt vor bei liegt vor bei

FORMATEN

liegt vor bei liegt g vor bei

ORDNUNGS-

BEURTEILUNGS-

AUFGABEN

AUFGABEN

die mittels einer diskret abgestuften Skala beantwortet werden

ERGÄNZUNGSAUFGABEN

AUSWAHL-

KURZAUFSATZ-

AUFGABEN

AUFGABEN

mit Schlüsselwort am Ende des Satzes

verwenden u.a.

PROJEKTIVE VERFAHREN

bei denen mehrere Elemente in eine sinnvolle Reihenfolge gebracht werden

mit Schlüsselwort im laufenden Text

OFFENE FRAGEN

verwenden u.a.

bei denen zwei Elemente einander zugeordnet werden

LÜCKENTEXT

verwenden u.a.

die mittels einer kontinuierlichen Skala beantwortet werden

mit zwei vorgegebenen A t Antwortalternativen t lt ti

ZUORDNUNGS-

UMORDNUNGS-

AUFGABEN

AUFGABEN

DICHOTOME AUFGABEN

AUFGABEN

ANALOGSKALIERTE AUFGABEN

MEHRFACHWAHLAUFGABEN

verwenden u.a. verwenden u.a.

verwenden u.a. verwenden auch andere

LEISTUNGSTEST

07.01.2010

mit mehreren vorgegebenen Antwortalternativen

RATINGSKALIERTE

verwenden u.a.

verwenden u.a.

Pospeschiill (2010). TTesttheorie und Testko onstruktion n. Kap. 2

AUFGABENTYPEN

PERSÖNLICHKEITS-

Dr. Markus Pospeschill: Empirisches Arbeiten

TEST

2/16

b. Merkmale einer Ratingskala •

• • •

Für den Begriff der Ratingskala Ratingskala gibt es im deutschsprachigen  Raum keine einheitliche Bezeichnung. Als Synonyme sind  Schätzskala, Rangordnungsskala, Einschätzskala oder  Einstufungsskala verwendet. Übergeordnet wird auch von Beurteilungsskala gesprochen;  Übergeordnet wird auch von Beurteilungsskala gesprochen; dazu gehören dann auch analoge Skalen. Ratingverfahren sind sowohl bei der Selbsteinstufung als  Ratingverfahren sind sowohl bei der Selbsteinstufung als auch bei der Fremdeinstufung Fremdeinstufung verwendbar. Die Ratingtechnik wird u. a. bei der Einstellungs‐, Meinungs‐ und Imagemessung, bei der Beurteilung von Personal, der  Kooperationsfähigkeit, der Attraktivität oder bei der  Persönlichkeitsmessung verwendet Persönlichkeitsmessung verwendet.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

2/17

b. Merkmale einer Ratingskala • •



Im Gegensatz zu den mehrdimensionalen mehrdimensionalen sind Ratingskalen  den eindimensionalen eindimensionalen Skalierungstechniken zuzuordnen.  Während bei den letzteren versucht wird, Personen oder  Objekte, auf einem latenten Kontinuum latenten Kontinuum (d.h. auf der  (reellen) Zahlengeraden die als Eigenschaftsdimension (reellen) Zahlengeraden, die als Eigenschaftsdimension  verstanden wird) zu positionieren, wird bei den ersteren  eine solche Positionierung in einem mehrdimensionalen  eine solche Positionierung in einem mehrdimensionalen  mehrdimensionalen Raum versucht.  Aussagen, die sich auf latente Variablen beziehen, setzen in  der Regel jedoch nicht voraus, dass sich diese nur als  ganzzahliges Vielfaches einer Einheit verstehen lassen  müssen Deshalb fasst man sie generell als kontinuierlich auf,  müssen. Deshalb fasst man sie generell als kontinuierlich auf woraus sich die Bezeichnung latentes Kontinuum erklärt.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/18

b. Merkmale einer Ratingskala •





Wenn von Eindimensionalität Eindimensionalität die Rede ist, stellt dies eine  Idealisierung dar, da die Reaktion eines Probanden auf eine  Ratingskala in der Regel von mehreren Dimensionen (d.h.  Eigenschaften oder Merkmalen) beeinflusst wird. Realistischerweise wird man deshalb davon ausgehen Realistischerweise wird man deshalb davon ausgehen  müssen, dass man bestenfalls nur Ratingskalen konstruieren  kann, die auf die zu untersuchende Eigenschaft mehr kann, die auf die zu untersuchende Eigenschaft mehr  ansprechen als auf andere Eigenschaften. Mit Ratingskalen sollen die Ausprägungen Ausprägungen bzw. der jeweilige  Grad der Ausprägung eines Merkmals (auch Item, Stimulus,  Reiz genannt) festgestellt werden.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/19

b. Merkmale einer Ratingskala •

• •



Bei Verwendung einer Ratingskala werden Probanden  gebeten, einen Stimulus gemäß ihrem subjektiven Urteil  einer Anzahl fest vorgegebener Kategorien bzw einem einer Anzahl fest vorgegebener Kategorien bzw. einem  Kontinuum zuzuordnen.  Die Kategorien müssen eindeutig geordnet sein, in der Regel  g gg , g werden sie verbal beschrieben und/oder durch Zahlen  charakterisiert.  Ratingskalen lassen sich bezüglich ihrer äußeren Form in  numerische und grafische grafische Ratingskalen unterscheiden bzw.  numerische‐‐grafische Kombinationen, wobei zusätzlich  numerische Kombinationen wobei zusätzlich verbale Charakterisierungen einzelner oder aller Kategorien  hinzukommen können. Hinsichtlich der begrifflichen Markierungen werden bipolare bipolare (mit beiden gegensätzlichen Begriffen) und unipolare unipolare Ratingskalen unterschieden.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/20

b. Merkmale einer Ratingskala Bei der Konstruktion von Ratingskalen sind acht Probleme zu  berücksichtigen (vgl. Pospeschill, 2010): 1. Welches ist die optimale Anzahl optimale Anzahl von Kategorien? 2 Soll eine gerade oder eine ungerade Anzahl von Kategorien 2. Soll eine gerade oder eine ungerade Anzahl von Kategorien Anzahl von Kategorien vorgesehen werden? 3. Soll eine Ausweichkategorie Soll eine Ausweichkategorie vorgesehen werden? vorgesehen werden? 4. Soll eine balancierte oder eine unbalancierte Skala balancierte oder eine unbalancierte Skala verwendet werden? 5. Wie sollen Ratingskalen verankert verankert werden? 6. Welche optische Form optische Form soll gewählt werden? 7 Welches Skalenniveau 7. Welches Skalenniveau haben Ratingskalen? haben Ratingskalen? 8. Wie ist die Reliabilität Reliabilität und Validität Validität von Ratingskalen zu  beurteilen? 07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/21

b. Merkmale einer Ratingskala 1. Welches ist die optimale Anzahl von Kategorien? • Das „Optimum“ für die Anzahl von Kategorien bei  Ratingskalen ist wesentlich von der Diskriminationsfähigkeit Diskriminationsfähigkeit der Probanden (Intelligenz, Bildung, Vertrautheit mit  Sachverhalt) und der Differenzierbarkeit des Sachverhalts  Sachverhalt) und der Differenzierbarkeit des Sachverhalts abhängig. Generell kann eine zu grobe bzw. zu feine  Unterteilung einer Ratingskala zu einem Informationsverlust Unterteilung einer Ratingskala zu einem Informationsverlust  bzw. zu Scheininformationen führen. • Weiter hängt die Wahl der Kategorienzahl von der  Differenziertheit des zu messenden Sachverhaltes ab. • Schließlich spielt die Art der Datenerhebung Art der Datenerhebung eine  wesentliche Rolle (z B schriftlich gegenüber telefonisch) wesentliche Rolle (z.B. schriftlich gegenüber telefonisch).

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/22

b. Merkmale einer Ratingskala • •



Grob werden bei einer einzigen Ratingskala 9 92 Kategorien  empfohlen, bei Itembatterien 52 Skaleneinheiten. Dass bei nur einer einzigen Ratingskala die Kategorienzahl  größer sein muss als bei einer Item‐Batterie, folgt daraus,  dass die Weiterverarbeitung mehrerer Itemwerte zu einem  dass die Weiterverarbeitung mehrerer Itemwerte zu einem Globalwert (etwa in Form eines Mittelwertes) den  Wertebereich der Skalierung insgesamt automatisch erhöht. Wertebereich der Skalierung insgesamt automatisch erhöht.  Diese Überlegung ist insofern von Bedeutung, weil man aus  auswertungstechnischen Gründen gerne intervallskalierte  Skalenwerte annimmt. Dies erscheint eher möglich zu sein,  wenn die potenziellen Skalenwerte das Merkmals‐ oder  Einstellungskontinuum möglichst dicht abdecken Allerdings Einstellungskontinuum möglichst dicht abdecken. Allerdings  ist dies noch keine Garantie für intervallskalierte  g Ratingskalen.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/23

b. Merkmale einer Ratingskala 2. Soll eine gerade oder eine ungerade Anzahl von Kategorien  vorgesehen werden? 3. Soll eine Ausweichkategorie vorgesehen werden? • Ratingskalen, die eine ungeradzahlige Anzahl von Kategorien  aufweisen verfügen zwangsläufig über einen Mittelpunkt aufweisen, verfügen zwangsläufig über einen Mittelpunkt,  der verschieden und nicht immer eindeutig interpretierbar  ist (nicht ist (nicht nicht‐‐forciertes Rating nicht forciertes forciertes Rating).  Rating Rating). • Er kann als neutrale Position neutrale Position (‚weder noch‘, ‚unentschieden‘)  aufgefasst werden, Unwissenheit ausdrücken aber auch  lediglich bei Wahl auf Bequemlichkeit zurückzuführen sein. •

Deshalb ist bei ungeradzahligen Kategorien anzuraten, zusätzlich eine  Ausweichkategorie vorzusehen, die optisch von den übrigen Kategorien  vorzusehen, die optisch von den übrigen Kategorien getrennt und verbal mit ‚weiß nicht‘, ‚nicht anwendbar‘ o.ä. etikettiert  wird.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/24

b. Merkmale einer Ratingskala • •



Bei geradzahligen Kategorien wird der Proband zu einem  Urteil gezwungen; es besteht also keine Möglichkeit,  Nichtwissen o.ä. kundzutun (forciertes Rating forciertes Rating). Der Vorteil forcierter Ratings ist darin zu sehen, dass sie  zwar einerseits ein lückenloses Datenmaterial versprechen zwar einerseits ein lückenloses Datenmaterial versprechen,  andererseits zwingen sie einzelne Probanden, Urteile  abzugeben, die ihr Wissen, ihren Informationsstand usw. abzugeben, die ihr Wissen, ihren Informationsstand usw.  überschreiten, was die Gefahr einer Verzerrung des  gesamten Datenmaterials bedeuten kann. Nicht‐forcierte Ratingskalen mit einer ungeraden  Kategorienzahl bieten die Möglichkeit, echt neutrale  Positionen (wie weder noch‘ oder ‚unentschieden Positionen (wie ‚weder‐noch oder unentschieden‘)) von  von pseudo‐neutralen (wie ‚weiß nicht‘, ‚trifft nicht zu‘, ‚Stimulus  ist unbekannt‘ ) zu unterscheiden. )

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/25

b. Merkmale einer Ratingskala 4. Soll eine balancierte oder eine unbalancierte Skala  verwendet werden? • Bei einer balancierten balancierten Ratingskala ist die Anzahl der  positiven und negativen Kategorien gleich, während sie bei  einer unbalancierten Skala ungleich sind.  einer unbalancierten Skala ungleich sind • Im Allgemeinen sind balancierte Skalen vorzuziehen. Gibt es  aber Annahmen über den vorwiegenden Bereich der Urteile aber Annahmen über den vorwiegenden Bereich der Urteile  und sollen diese feiner abgestuft werden, sind unbalancierte  Skalen durchaus adäquat. Beispiel: Balanciert □ sehr gut □ gut □ weder noch □ schlecht □ sehr schlecht sehr schlecht 07.01.2010

Unbalanciert □ sehr gut □ gut □ halbwegs gut □ gerade noch akzeptabel □ schlecht Dr. Markus Pospeschill: Empirisches Arbeiten

4/26

b. Merkmale einer Ratingskala 5. Wie sollen Ratingskalen verankert werden? • Unter Verankerung Verankerung einer Rating‐Skala soll die Definition der  Skalenendpunkte sowie der einzelnen Skalenstufen, d.h. der  einzelnen Kategorien, verstanden werden. Sie betrifft vor  allem graphische Ratingskalen allem graphische Ratingskalen. •

Numerische Verankerung liegt dann vor, wenn alle oder bestimmte  Kategorien mit Zahlen bezeichnet werden, während bei der verbalen  verbalen  Verankerung diese mit Worten oder Sätzen erfolgt. Die Skalenendpunkte  sind prinzipiell verbal zu verankern, hingegen können die anderen  Kategorien entweder teilweise oder ganz numerisch oder verbal oder  sowohl numerisch als auch verbal verankert sein.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/27

b. Merkmale einer Ratingskala •

• • •

Problematisch bei einer numerischen und/oder verbalen  Verankerung von Rating‐Skalen ist die Frage der Äquidistanz Äquidistanz der Kategorien, da nicht ohne weiteres sichergestellt ist,  dass Probanden die einzelnen Kategorien als gleichabständig  empfinden.  empfinden Dass die zugeordneten Zahlen gleiche Abstände aufweisen,  darf darüber nicht hinwegtäuschen. darf darüber nicht hinwegtäuschen. Äquidistante Skaleneinheiten sind jedoch eine  Voraussetzung, um mit Ratingskalen erzielte Messwerte als  intervallskaliert betrachten zu können.  Ein spezielles Problem taucht bei bipolaren Skalen auf, wie sie z.B. beim  Semantischen Differential Verwendung finden. Die formulierten Gegensatzpaare  müssen von den Probanden auch semantisch als solche empfunden werden,  sonst liegen ungleiche Abstände zum (neutralen) Mittelpunkt der Skala vor, was  zu nicht äquidistanten Skalenkategorien führt.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/28

b. Merkmale einer Ratingskala 6. Welche optische Form soll gewählt werden? • Ratingskalen können horizontal oder vertikal präsentiert  werden.  • Ratingskalen können verbunden oder getrennt dargestellt  werden. werden • Bei getrennten Skalen sind die Kategorien eindeutig  festgelegt.  festgelegt. • Bei verbundenen Skalen zeigt die Erfahrung, dass Probanden  nicht selten ihre Kreuze zwischen den Kategorien anbringen,  was zu nicht eindeutig interpretierbaren Urteilen führt.  Allerdings vermitteln sie mehr den Eindruck der  Zusammengehörigkeit der Skala Zusammengehörigkeit der Skala.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/29

b. Merkmale einer Ratingskala 7. Welches Skalenniveau haben Ratingskalen? • Es gibt keine Generalisierung des Skalentyps von  Ratingskalen für alle Situationen. • Die Ratingtechnik ist eine Einzelreiz‐Methode; entsprechend  lässt sich der Skalentyp nicht direkt bestimmen lässt sich der Skalentyp nicht direkt bestimmen. • Bei jeder Messung interagieren das zu messende Merkmal,  die beteiligten Probanden und das Messinstrument. die beteiligten Probanden und das Messinstrument.  • Ein Nachweis der Realisation eines bestimmten Messniveaus  kann immer nur einen sehr eingeschränkten  Geltungsbereich besitzen. Zulässig ist dabei lediglich der  Schluss, dass ein Messinstrument in der Lage ist, ein  bestimmtes Skalenniveau zu erreichen bestimmtes Skalenniveau zu erreichen.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/30

b. Merkmale einer Ratingskala 8. Wie ist die Reliabilität und Validität von Ratingskalen zu  beurteilen? • Hauptsächlich werden zwei Methoden der  Reliabilitätsbestimmung verwendet, die Test Test‐‐Retest Retest‐‐ Methode sowie die Inter sowie die Inter‐ Inter‐Rater Rater‐‐Methode Methode, wobei die letztere  wobei die letztere – sie beurteilt die Übereinstimmung/Konkordanz  verschiedener Urteiler – bei der Einstufung desselben  verschiedener Urteiler bei der Einstufung desselben Stimulus präferiert wird.  • Typisch scheint ein Inter‐Rater‐Reliabilitätskoeffizient von  0,55 zu sein.  • Praktisch ist es aber nicht möglich, von einer generellen  Reliabilität von Ratingskalen zu sprechen Reliabilität von Ratingskalen zu sprechen.  • Validitätskoeffizienten liegen im Intervall 0,00  0,00 –– 0,50 0,50. 07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/31

b. Merkmale einer Ratingskala Typische Fehlerquellen, welche die Reliabilität einschränken  können sind: • Beim Halo Halo‐‐Effekt werden positive oder negative  Gesamturteile unbesehen oder unbemerkt auf die  Bewertung einzelner Eigenschaften übertragen Bewertung einzelner Eigenschaften übertragen.  • Der Milde Milde‐‐Effekt ist durch ein Vermeiden von  Extremantworten und eine Tendenz Extremantworten und eine Tendenz zur Mitte Tendenz zur Mitte zur Mitte gekennzeichnet. (<‐> Härte Härte‐‐Effekt tritt seltener auf). • Der Normanpassungs Normanpassungs‐‐Effekt (soziale Erwünschtheit) besteht  darin, dass Eigenschaften oder Meinungen, die in der  Gesellschaft als positiv eingestuft werden, beim Rating  ebenfalls bevorzugt als positiv deklariert werden Analoges ebenfalls bevorzugt als positiv deklariert werden. Analoges  gilt für negativ bewertete Eigenschaften oder Meinungen. 07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/32

b. Merkmale einer Ratingskala Strategien zum Umgang mit sozialer Erwünschtheit: •

• •

Verhindern Verhindern. z.B. durch eine entsprechend formulierte Instruktion  (ehrlich und gewissenhaft zu antworten oder durch den Hinweis,  das Täuschungsversuche aufgedeckt werden können), durch  ausbalancierte Antwortalternativen oder objektive ausbalancierte Antwortalternativen oder objektive  Persönlichkeitstests; Kontrollieren. z.B. durch Verwendung von Kontroll‐ oder  Kontrollieren V lidi ä k l Validitätsskalen oder Abgleich zu fake‐good d Ab l i h f k d Instruktion;  I ki Ignorieren. Skalen zur sozialen Erwünschtheit erfassen  Ignorieren verschiedene Aspekte von Persönlichkeit mit. So korreliert soziale  p Erwünschtheit positiv mit den Persönlichkeitskonstrukten  »emotionale Stabilität« und »Gewissenhaftigkeit«. Darüber  hinaus zeigt sich dass mit dem Grad sozial erwünschten hinaus zeigt sich, dass mit dem Grad sozial erwünschten  Verhaltens der Ausbildungserfolg zunimmt. 

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/33

c. Eindimensionale Skalierung Einfache eindimensionale Skalierungsverfahren sind:  1. Paarvergleiche 2. Q‐Sort Sort‐‐Verfahren 3 Methode der konstanten Summen 3. Methode der konstanten Summen Komplexere eindimensionale Skalierungsverfahren sind: Komplexere eindimensionale Skalierungsverfahren sind: 4. 5. 6. 7 7.

Likert‐ Likert‐Skalierung Thurstone‐Skalierung (Thema in der Kognitiven Psychologie) Guttman‐Skalierung (Thema in der Psychodiagnostik) Rasch Skalierung (Thema in der Psychodiagnostik) Rasch‐Skalierung (Thema in der Psychodiagnostik)

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/34

d. Mehrdimensionale Skalierung 1. Semantisches Differential • Beim Semantischen Differential Semantischen Differential (kurz: SD, Polaritätenprofil,  Eindrucksdifferential) handelt es sich um ein einfach zu  handhabendes Skalierungsverfahren, das in der Praxis sehr  häufig verwendet wird häufig verwendet wird.  • Das SD besteht aus einer Anzahl von bipolaren, graphischen  Ratingskalen mit meistens 7 Kategorien. Ratingskalen mit meistens 7 Kategorien. • Die beiden Pole sind mit gegensätzlichen Adjektiven oder  Substantiven besetzt.  • Die Beurteiler werden aufgefordert, vorgelegte Begriffe  (Objekte wie Gegenstände, Produkte, Ereignisse, Personen  usw ) auf diesen Skalen einzustufen usw.) auf diesen Skalen einzustufen.

07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/35

d. Mehrdimensionale Skalierung 2. Multidimensionale Skalierung • Bei der multidimensionalen Skalierung multidimensionalen Skalierung (MDS) werden  Reaktionen (wie Wahrnehmung oder Beurteilung) von  Probanden auf bestimmte vorgegebene Stimuli (oder  Objekte) erhoben Objekte) erhoben.  • Dabei stellt man sich den Wahrnehmungs‐ bzw.  Beurteilungsprozess als eine Abbildung der Stimuli in einem Beurteilungsprozess als eine Abbildung der Stimuli in einem  mehrdimensionalen Raum vor.  • Damit kann man zum einen erkennen, welche Stimuli von  den Probanden als dicht beieinander liegend eingeschätzt  werden, zum anderen aber versuchen, Informationen über  die Achsen dieses Raumes zu gewinnen die Eigenschaften die Achsen dieses Raumes zu gewinnen, die Eigenschaften  repräsentieren, welche die Probanden bei ihren Reaktionen  auf die Stimuli zugrunde legen. g g 07.01.2010

Dr. Markus Pospeschill: Empirisches Arbeiten

4/36