Matte 2 - Statistik
Normalfördelning
Då man säger att ett statistiskt material är normalfördelat så menar man att alla observationerna koncentreras kring medelvärdet och att fördelningen av dem ser likadant ut på båda sidorna över och under medelvärdet. De flesta av observationerna hamnar mycket nära eller är rentav detsamma som medelvärdet
I histogrammet här nedanför så visas statistik från en undersökning där man har mätt blodvärdet på 90 stycken män i 30-årsåldern (observera att siffrorna är rent hypotetiska).
Materialet sägs vara normalfördelat, om vi tittar på kurvan så ser vi att:
Stickprov män 30 år | |
Antal män: | n = 90 |
Medelvärde: | = 144 g/L |
Variationsbredd: | 16 |
Standardavvikelse: | 2,1 g/L |
br> br>
br> br>
br> br>
br> br>
br> br>
br> br>
br> br>
- Medelvärdet är i mitten och de allra flesta observationerna antar medelvärdets värde eller värdena intill medelvärdet då stapeln för medelvärdet är högst och staplarna intill nästan lika höga.
- Staplarna på vänster sida är nästan som en spegelbild av höger sida då fördelningen under och över medelvärdet är ungefär densamma.
br>
Båda punkterna ovan stämmer bra mot verkligheten då de flesta män i samma ålder har samma blodvärde eller värden som är något lägre eller högre än snittet.
Dessa egenskaper hos en normalfördelad kurva gör att dess form alltid liknar en kulles.
I figuren ovan har vi markerat ut medelvärdet och standardavvikelsen. Beroende på vad man tittar på så betecknas de på olika sätt.
Om man tittar på en hel population så betecknas medelvärdet som (“my”) och standardavvikelsen som (“sigma”).
Om man vill ange medelvärde och standardavvikelse för ett stickprov så skriver man respektive .
Vi har alltså konstaterat att en normalfördelad kurva ser ut som en kulle. Kullens utseende kan dock variera med medelvärdet och standardavvikelsen:
- Beroende på vad medelvärdet är så förskjuts kurvan i sidled. En kurva med medelvärdet 4 ligger mer till höger än en kurva med medelvärdet 2. Skillnaden mellan den blåa och den orangea kurvan är att den orangea:s medelvärde är högre än den blåas.
- Standardavvikelsens storlek avgör formen på kurvan. Kurvan blir antingen hög och smal eller lägre och bredare. Värdet på standardavvikelsen för den orangea kurvan är 1, den blå har värdet 2 och den gröna har värdet 3.
br>
Om vi istället undersöker blodvärden bland män från 25-årsåldern upp till 75 år så kommer de inte vara lika enhetliga som ovan då normalvärdet för blodvärdet varierar något mellan åldrarna. Vi kommer att få större spridning på materialet. Materialet kan dock fortfarande vara normalfördelat förutsatt att det är en jämn fördelning mellan åldrarna.
Stickprov män 25-75 år | |
Antal män: | n = 90 |
Medelvärde: | = 144 g/L |
Variationsbredd: | 18 |
Standardavvikelse: | 2,5 g/L |
br> br>
br> br>
br> br>
br> br>
br> br>
br> br>
br>
Vi ser att standardavvikelsen är större än den som vi får fram för 30-åringarna, detta ger en bredare kurva än den som vi ser i histogrammet för 30-åringarna.
br> br>
Det som gäller för normalfördelat material är:
- 50% av observationerna ligger under medelvärdet, 50% ligger över medelvärdet
Detta ses som att kurvan är symmetrisk, dvs ser likadan ut på båda sidorna om medelvärdet. - 68,27% av alla observationer ligger inom ett avstånd av en standardavvikelse från medelvärdet
- 95,45 % av alla observationer ligger inom ett avstånd av två standardavvikelser från medelvärdet
- 99,73 % av alla observationer ligger inom ett avstånd av tre standardavvikelser från medelvärdet
br>
br>
br>
br>
Alltså, inom avståndet 1 standardavvikelse från medelvärdet ryms 68,27% av alla observationer vilket innebär att på vardera sida finns hälften av dessa 34,13% på vardera sida om medelvärdet.
Inom avståndet 2 SD är det + 13,59% på vardera sida, totalt 47,72% på vardera sida osv.
Hur många procent av det normalfördelade materialet svara mot
a) det färgade området?
b) mätvärden mellan 7 och 19?
c) det ofärgade området?
a) Det färgade området utgör utrymmet mellan 2 och 3 standardavvikelser, alltså 2,14%.
b) Vi ser att 1 standardavvikelse motsvarar 4. Om vi tar 11 – 4 så får vi 7, alltså . 19 motsvarar i sin tur . Vi lägger ihop dessa områden.
c) På samma sätt som innan adderar vi de olika områdenas procentsatser:
Då hela högersidan är ofärgad så är det onödigt att skriva upp beståndsdelarna, tillsammans blir de ju 50%.
Svar: a) 2,14% b) 81,85% c) 97.85% av studiepopulationen.
br>
Några forskare ville kartlägga 30-åriga mäns blodvärden. Efter att ha samlat in 100-tals prover så kom de fram till att medelblodvärdet låg på 144 g/L med standardavvikelsen 2 g/L. Materialet var normalfördelat.
Hur många procent av studiepopulationen
a) har ett blodvärde som är högre än 144 g/L?
b) har ett blodvärde som är högre än 148 g/L?
c) har ett blodvärde som ligger mellan 138 och 142 g/L?
I hela detta exempel kommer vi att referera till sidans sista bild innan exempelrutorna börjar.
a) Eftersom 144 g/L var medelvärdet, alltså värdet i mitten på normalfördelningskurvan så ligger alla blodvärden som är högre än detta till höger om medelvärdet. Då materialet var normalfördelat så ligger 50& av de observerade värdena under medelvärdet, och 50% över medelvärdet.
Svaret blir därmed 50%.
b) Då medelvärdet var 144 och standardavvikelsen 2 cm så vet vi att 148 g/L motsvarar Medelvärdet + 2 SD (144 + 2 + 2 = 148). Blodvärdena som är högre än 148 g/L befinner sig alltså till höger om 2 SD. Vi adderar 2,14% och 0,13% då 2,14% av de observerade värdena befinner sig mellan 2 SD och 3 SD medan 0,13% är de som befinner sig utanför 3 SD.
c) 138 g/L motsvarar 3 standardavvikelser (144 – 2 – 2 – 2 = 138) och 142 motsvarar 1 standardavvikelse (144 – 2 = 142). Mellan 1 SD och 3 SD ryms 13,59% (mellan 1SD och 2SD) samt 2,14% (mellan 2SD och 3SD).
Svar: a) 50% b) 2,27% c) 15,73% av studiepopulationen.