Vedlegg: Om korrespondanseanalyse

Korrespondanseanalyse[49] er en statistisk teknikk for å hente fram eventuelle strukturer som måtte finnes i en kompleks datamatrise og presentere strukturene visuelt i et punktdiagram. Utgangspunktet for analysene er en krysstabell over faktiske fordelinger av ulike statistiske elementer. Det kan enten dreie seg om ulike enheter og kjennetegn ved disse, med andre ord om enheter og verdiene til de variablene som kjennetegner enhetene, for eksempel alle professorer i Norge på et gitt tidspunkt radvis i tabellen og kolonnevis om hver enkelt av dem er kvinne, mann, historiker, medlem av bedriftsstyrer eller har inntekt over 500 000 kr. osv. Det kan også dreie seg om ulike verdier begge veier i tabellen, for eksempel ulike farger radvis og kolonnevis ulike assosiasjoner intervjupersoner har til de ulike fargene.

Disse eksemplene viser tre viktige sider ved korrespondanseanalysen: For det første skilles dett ikke mellom ”enheter” og ”variabelverdier”. Hver statistisk enhet, beskrives underveis i analysen som profiler, radvis og kolonnevis. For det annet forutsettes det intet målenivå, alle elementene behandles som kategorier, enten det er historiker eller inntekt. For det tredje ordnes opplysningene ”flatt” i forhold til en multivariat tabellanalyse. Denne ordner som kjent for eksempel tre uavhengige variabler ved å ta hensyn til kombinasjonene av alle verdiene på de uavhengige variablene, for eksempel ved å dele inn i kvinner eller menn i hver av tre utdanningsnivå og deretter igjen om de kommer fra universitetsby eller annen by/tettsted, slik at man legger grunnlag for å avgjøre hvilken uavhengig variabel som har størst betydning for variasjonen i den uavhengige variabelen, for eksempel tiltaksvilje. Når korrespondanseanalysen tar utgangspunkt i en krysstabell der alle kategoriene er ordnet rad- eller kollonevis, betyr det at denne teknikken ikke kan finne fram til hva som betyr mest.

Ut fra marginalfordelingene i en slik krysstabell produserer korrespondanseanalysen en hypotetisk tabell hvor alle de statistiske enhetene er tilfeldig fordelt, det vil si at de har den samme fordelingen som gjennomsnittet. Deretter produseres en tabell over avvikene mellom de observerte frekvensene og de hypotetiske tilfeldige frekvensene. Disse avvikene beregnes som kji-kvadrat avstander mellom de profilene som kjennetegner hver enkelt kategori, som i et diagram vises som et punkt. De profilene som ligner hverandre, blir avmerket som punkter nær hverandre, mens de som er forskjellige, avmerkes langt fra hverandre, som polariteter[50]. Kategoriene som likner gjennomsnittet, og altså har en profil som likner marginalfordelingene, er plassert nær origo. Fordi strukturen i slike tabeller er kompleks, vil alle punktene som representerer alle profilene til sammen utgjøre en punktsky eller et flerdimensjonalt rom. For å oppnå et visuelt bilde av strukturen i materialet, produserer teknikken det antallet tabeller som er nødvendig for å beskrive all variasjon i materialet. Den første tabellen som vises som den første dimensjonen er den som representerer den beste tilpasningen av de faktiske fordelingenes avvik fra statistisk uavhengighet. Den neste viser den nest beste tilpasningen til den resterende informasjonen osv. Den sosiologiske betydningen av dette er at strukturen som utgjøres av de sterkeste avvikene blir best representert ved de to første aksene i det første diagrammet. Senere akser representerer svakere avvik. De siste faktorene representerer kun slike avvik som er umulige å fortolke (Bourdieu 1988).

Ved siden av å konstruere strukturene i relasjonene vurderer korrespondanseanalysen vekten av de ulike radenes og kolonnenes bidrag til dannelsen av aksene, de absolutte bidrag. En fordel med denne metoden, men som også kan føre til misforståelser, er at alle frekvensene vektes. Fordelen med dette er at små gruppers særtrekk framstår som like betydningsfulle som store grupper, de forsvinner ikke på grunn av sin ubetydelighet, tallmessig sett. Ulempen er at dette kan forlede leseren til å tro at dette særtrekket har stor betydning. Et eksempel på dette er at kategorien ”forbigått” er plassert nær kategorien ”kvinne” i figur 3. Det betyr ikke at kvinner ofte svarer at kjønnsskjevhet skyldes at kvinnelige søkere forbigås, men at i forhold til andre posisjoner i materialet, svarer kvinner relativt ofte slik.

[49] Der intet annet er angitt, bygger framstillingen på Broady (1990: 479-534).[]

50 Polaritet kan også kalles ”motsatt stilling” eller motsetning, og viser til en relasjon mellom kategoriene som er slik at det som karakteriserer den første polen i relasjonen er nettopp det som ikke karakteriserer den andre polen og tvert om.

Opp Forrige Tittelside Innhold

Publisert 25. nov. 2010 13:52