korrelasjon

Hva er korrelasjon:

Korrelasjon betyr likhet eller forhold mellom to ting, mennesker eller ideer . Det er en likhet eller ekvivalens som eksisterer mellom to forskjellige hypoteser, situasjoner eller objekter.

I forhold til statistikk og matematikk refererer korrelasjon til et mål mellom to eller flere relaterte variabler.

Begrepet korrelasjon er et feminint substantiv som stammer fra det latinske correlatiōne.

Ordet korrelasjon kan erstattes av synonymer som: relasjon, ligning, nexus, korrespondanse, analogi og tilkobling.

Korrelasjonskoeffisient

I statistikken måles Pearson korrelasjonskoeffisienten (r), som også kalles korrelasjonskoeffisienten for produkt-momentet, forholdet mellom to variabler innenfor samme metriske skala.

Funksjonen til korrelasjonskoeffisienten er å bestemme intensiteten av forholdet som eksisterer mellom kjente datasett eller informasjon.

Verdien av korrelasjonskoeffisienten kan variere mellom -1 og 1, og det oppnådde resultat definerer om korrelasjonen er negativ eller positiv.

For å tolke koeffisienten er det nødvendig å vite at 1 betyr at korrelasjonen mellom variablene er perfekt positiv og -1 betyr at den er perfekt negativ . Hvis koeffisienten er lik 0 betyr det at variablene ikke er avhengige av hverandre.

I statistikken er det også Spearmans korrelasjonskoeffisient, som bærer dette navnet til ære for statistikeren Charles Spearman. Funksjonen til denne koeffisienten er å måle intensiteten av forholdet mellom to variabler, uansett om de er lineære eller ikke.

Spearman-korrelasjonen tjener til å vurdere om intensiteten av forholdet mellom de to analyserte variablene kan måles med en monotont funksjon (matematisk funksjon som bevarer eller inverterer opprinnelig ordrelasjon).

Beregning av Pearson korrelasjonskoeffisienten

Metode 1) Beregning av Pearson korrelasjonskoeffisient ved bruk av kovarians og standardavvik.

hvor

S _XY er kovarians;

S _x og S _y representerer standardavviket av henholdsvis variablene x og y.

I dette tilfellet innebærer beregningen først å finne kovariansen mellom variablene, og standardavviket for hver av dem. Deretter deles kovarians ved multiplikasjon av standardavvik.

Ofte gir setningen enten standardavvikene til variablene, eller kovariansen mellom dem, bare ved å bruke formelen.

Metode 2) Beregning av Pearson korrelasjonskoeffisient med rå data (uten kovarians eller standardavvik).

Med denne metoden er den mest direkte formelen som følger:

For eksempel, forutsatt at vi har data med n = 6 observasjoner av to variabler: glukose nivå (y) og alder (x), følger beregningen følgende trinn:

Trinn 1) Konstruer tabellen med eksisterende data: i, x, y, og legg til tomme kolonner for xy, x² og y²:

Trinn 2: Multipliser x og y for å fylle "xy" kolonnen. For eksempel, i linje 1 vil vi ha: x1y1 = 43 × 99 = 4257.

Trinn 3: Hev verdiene til kolonne x, og lag resultatene i kolonne x². For eksempel, i første linje vil vi ha x ₁ 2 = 43 × 43 = 1849.

Trinn 4: Gjør det samme som i Trinn 3, nå bruker du y-kolonnen og registrerer firkanten av verdiene i y²-kolonnen. For eksempel, i første linje vil vi ha: y ₁ 2 = 99 × 99 = 9801.

Trinn 5: Hent summen av alle kolonnene og legg resultatet i kolonnefoten. For eksempel er summen av Age X-kolonnen lik 43 + 21 + 25 + 42 + 57 + 59 = 247.

Trinn 6: Bruk formelen ovenfor til å oppnå korrelasjonskoeffisienten:

Dermed har vi:

Spearmans korrelasjonskoeffisient

Beregningen av Spearmans korrelasjonskoeffisient er noe annerledes. For dette må vi organisere våre data i følgende tabell:

1. Etter å ha gitt 2 par data, må vi presentere dem i tabellen. For eksempel:

2. I kolonne "Rangering A" vil vi klassifisere observasjonene som er i "Dato A" på en voksende måte, med "1" som den laveste verdien i kolonnen, en (totalt antall observasjoner), høyeste verdi i kolonne "Dato A ". I vårt eksempel er det:

3. Vi gjør det samme for å få kolonnen "Rangering B", nå ved å bruke observasjonene i kolonne "Data B":

4. I kolonne "d" setter vi forskjellen mellom de to Rankings (A - B). Her betyr ikke signalet noe.

5. Løft hver av verdiene i kolonne "d" og skriv inn i kolonne d²:

6. Legg til alle dataene fra kolonne "d²". Denne verdien er Σd². I vårt eksempel Σd² = 0 + 1 + 0 + 1 = 2

7. Nå bruker vi Spearmans formel:

I vårt tilfelle er n lik 4, da vi ser på antall rader med data (som tilsvarer antall observasjoner).

8. Endelig erstatter vi dataene i forrige formel:

Lineær regresjon

Lineær regresjon er en formel som brukes til å estimere den mulige verdien av en variabel (y) når verdiene til andre variabler (x) er kjent. Verdien av "x" er den uavhengige eller forklarende variabelen, og "y" er den avhengige variabelen eller responsen.

Linjær regresjon brukes til å verifisere hvordan verdien av "y" kan variere som en funksjon av variabel "x". Linjen som inneholder verdiene for variansjekontrollen kalles den lineære regresjonslinjen.

Hvis den forklarende variabelen "x" har en enkelt verdi, vil regresjonen bli kalt enkel lineær regresjon .