korrelation

Vad är korrelation:

Korrelation betyder en likhet eller relation mellan två saker, människor eller idéer . Det är en likhet eller ekvivalens som finns mellan två olika hypoteser, situationer eller objekt.

Inom statistik och matematik hänvisar korrelation till en åtgärd mellan två eller flera relaterade variabler.

Termen korrelation är ett feminint substantiv som härstammar från latinska correlatiōne.

Ordet korrelation kan ersättas av synonymer som: relation, ekvation, nexus, korrespondens, analogi och anslutning.

Korrelationskoefficient

I statistiken mäter Pearson-korrelationskoefficienten (r), som också kallas korrelationskoefficienten för produkt-moment, förhållandet mellan två variabler inom samma mätskala.

Korrelationskoefficientens funktion är att bestämma intensiteten hos förhållandet som finns mellan kända datasätt eller information.

Värdet av korrelationskoefficienten kan variera mellan -1 och 1 och det erhållna resultatet definierar huruvida korrelationen är negativ eller positiv.

För att tolka koefficienten är det nödvändigt att veta att 1 betyder att korrelationen mellan variablerna är perfekt positiv och -1 betyder att den är perfekt negativ . Om koefficienten är lika med 0 betyder det att variablerna inte är beroende av varandra.

I statistiken finns också Spearmans korrelationskoefficient, som bär detta namn till heders för statistikern Charles Spearman. Funktionen av denna koefficient är att mäta intensiteten i förhållandet mellan två variabler, oavsett om de är linjära eller inte.

Spearman-korrelationen tjänar till att utvärdera om intensiteten i förhållandet mellan de två analyserade variablerna kan mätas med en monoton funktion (matematisk funktion som bevarar eller inverterar den ursprungliga ordningsrelationen).

Beräkning av Pearson korrelationskoefficienten

Metod 1) Beräkning av Pearson korrelationskoefficienten med användning av kovarians och standardavvikelse.

var

S _XY är kovarians;

S _x och S _y representerar standardavvikelsen för variablerna x och y.

I detta fall innebär beräkningen att man först hitta kovariansen mellan variablerna och standardavvikelsen för var och en av dem. Därefter delas kovariansen med multiplikationen av standardavvikelser.

Ofta tillhandahåller uttalandet antingen standardavvikelserna för variablerna, eller kovariansen mellan dem, bara genom att använda formeln.

Metod 2) Beräkning av Pearson korrelationskoefficienten med rådata (utan kovarians eller standardavvikelse).

Med den här metoden är den mest direkta formeln som följer:

Till exempel, förutsatt att vi har data med n = 6 observationer av två variabler: glukosnivå (y) och ålder (x), följer beräkningen följande steg:

Steg 1) Konstruera tabellen med befintliga data: i, x, y och lägg till tomma kolumner för xy, x² och y²:

Steg 2: Multiplicera x och y för att fylla i kolumnen "xy". Till exempel, i rad 1 kommer vi att ha: x1y1 = 43 × 99 = 4257.

Steg 3: Höj värdena på kolumn x och registrera resultaten i kolumn x². Till exempel i första raden kommer vi att ha x ₁ 2 = 43 × 43 = 1849.

Steg 4: Gör detsamma som i steg 3, nu använder du y-kolumnen och registrerar kvadraten av dina värden i y²-kolumnen. Till exempel i den första raden kommer vi att ha: y ₁ 2 = 99 × 99 = 9801.

Steg 5: Hämta summan av alla kolumnnummer och placera resultatet i kolumnfotfoten. Till exempel är summan av Age X-kolumnen lika med 43 + 21 + 25 + 42 + 57 + 59 = 247.

Steg 6: Använd ovanstående formel för att erhålla korrelationskoefficienten:

Således har vi:

Spearmans korrelationskoefficient

Beräkningen av Spearmans korrelationskoefficient är något annorlunda. För detta behöver vi organisera våra data i följande tabell:

1. Efter att ha angivit 2 par data måste vi presentera dem i tabellen. Till exempel:

2. I kolumnen "Ranking A" klassificerar vi observationerna som är i "Date A" på ett växande sätt, med "1" det lägsta värdet i kolumnen, en (totalt antal observationer), det högsta värdet i kolumn "Datum A ". I vårt exempel är det:

3. Vi gör detsamma för att få kolumnen "Ranking B", nu med observationerna i kolumnen "Data B":

4. I kolumn "d" sätter vi skillnaden mellan de två rankningarna (A - B). Här spelar signalen ingen roll.

5. Höj varje av värdena i kolumn "d" och spela in i kolumn d2:

6. Lägg till alla data från kolumn "d²". Detta värde är Σd². I vårt exempel Σd² = 0 + 1 + 0 + 1 = 2

7. Nu använder vi Spearmans formel:

I vårt fall är n lika med 4, eftersom vi tittar på antalet rader av data (vilket motsvarar antalet observationer).

8. Slutligen ersätter vi uppgifterna i föregående formel:

Linjär regression

Linjär regression är en formel som används för att uppskatta det möjliga värdet av en variabel (y) när värdena för andra variabler (x) är kända. Värdet på "x" är den oberoende eller förklarande variabeln och "y" är den beroende variabeln eller svaret.

Linjär regression används för att verifiera hur värdet på "y" kan variera som en funktion av variabel "x". Linjen som innehåller värdena för varianskontrollen kallas linjär regressionslinje.

Om den förklarande variabeln "x" har ett enda värde, kommer regressionen att kallas enkel linjär regression .