Vad är nollhypotes p värde
Val från statistisk test
Detta avsnitt beskriver dem viktigast statistiska testerna samt deras användningsområde. detta finns statistiska tester till varenda tänkbara typer från jämförelser. varenda statistiskt test tar avstamp i nollhypotesen. ifall man jämför en medelvärde till numeriskt värde grupper sålunda innebär nollhypotesen för att man utgår ifrån för att detta ej finns någon skillnad mellan grupperna. angående man undersöker ifall ett prediktor (t ex blodtryck) besitter innebörd på grund av en utfallsmått (t ex död) tillsammans med hjälp från regression sålunda äger man även enstaka nollhypotes samt den innebär för att man utgår ifrån för att blodtryck ej besitter något samband tillsammans med död (dvs regressionskoefficienten till blodtryck = 0). på grund av för att värdera vilket statistiskt test vilket existerar lämpligt måste man alltså beakta variablernas natur samt samband. Man skiljer vid kontinuerliga samt kategoriska variabler.
En kategorisk variabel (även kallad nominal) äger minimalt numeriskt värde kategorier (även kallat nivåer). Kön existerar enstaka kategorisk variabel samt detta finns (oftast inom kliniska studier) numeriskt värde nivåer, nämligen man samt kvinna. Etnicitet existerar även ett kategorisk variabel samt var man exempelvis Sydamerikan, Svensk, Asiat, Nordamerikan etc finnas. inom fallet tillsammans med kön samt etnicitet finns ingen inbördes ordning mellan kategorierna (dvs man kunna ej ordna kategorierna inom fallande alternativt stigande ordning vid en naturligt sätt). detta finns dock kategoriska variabler likt äger enstaka naturlig ordning samt enstaka sådan variabel kallas ordinal. modell vid ett kategorisk variabel likt är ordinal existerar utbildningsnivå, liksom förmå kategorieras ifrån nedsänkt, medel mot upphöjd träning. Vissa ordningsföljd variabler existerar dessutom från typen intervall, vilket innebär för att avståndet mellan dem olika kategorierna existerar jämn. oss kunna exempelvis producera inkomstkategorier (månadsinkomst) genom för att producera grupperna: 15000-20000, 20000-25000, 25000-30000 osv.
En kontinuerlig variabel existerar vilket regel en mätvärde alternativt ytterligare numerisk siffra. Ålder inom kalenderår, kroppsvikt inom kilo samt avstånd inom meter existerar samtliga kontinuerliga variabler. Ur ett aspekt existerar den kontinuerliga variabeln lik enstaka intervall-variabel, eftersom avståndet mellan varenda siffra existerar lika stort. Faktum existerar för att ett intervall-variabel tillsammans med en stort antall nivåer förmå betraktas såsom enstaka kontinuerlig variabel.
Statistiska tester samt regressionsmodeller bygger vid matematiska antaganden. Testets alternativt modellens validitet existerar avhängig från för att vissa antaganden existerar fullbordade. en vanligt antagande existerar variabelns leverans, eftersom dem flesta tester egentligen jämför distributioner. för att jämföra numeriskt värde gruppers medelvärde innebär egentligen för att man jämför distributionerna.
Antaganden angående normalfördelning till kontinuerliga variabler
T-test samt ANOVA (analysis of variance) kräver inte för att dem värdena ifrån dem individuella observationerna inom stickprovet skall artikel normalfördelade. Däremot kräver dessa tester för att själva medelvärdena skall artikel normalfördelade, därför mot vida för att angående man tar flera stickprov samt kalkylerar medelvärde inom varenda sålunda skall dessa medelvärden artikel normalfördelade. en sätt för att garantera för att medelvärdena existerar normalfördelade existerar för att undersöka ifall dem individuella observationerna inom stickprovet uppvisar ett normalfördelning. Vidare kommer ändå varenda medelvärden, oavsett den underliggande fördelningen, närma sig normalfördelning allteftersom stickprovets storlek ökar. angående man besitter >30 observationer är kapabel man anta för att normalfördelning föreligger. (För specifikation förmå läsaren förkovra sig i central limit theorem).
För regression vilket baseras vid OLS (ordinary least squares) därför måste residualerna existera normalfördelade. ifall både den beroende variabeln samt prediktorerna existerar normalfördelade därför garanterar detta (i detta närmaste) för att residualerna existerar normalfördelade. Notera dock för att varken den beroende variabeln alternativt prediktorerna måste existera normalfördelade till för att residualerna skall bli det.
Val från statistiskt test: 3 variabler alternativt fler
graph TD V(3 variabler alternativt fler) ---> K1(Kontinuerlig beroende variabel) & K2(Kategorisk beroende variabel) K1 ---> ML(Multipel regression) K2 ---> Två(Beroende variabel tillsammans med 2 kategorier) ---> LR(Logistisk regression) K2 ---> Tre(Beroende variabel tillsammans 3 kategorier alternativt fler) ---> MR(Multinomial logistisk regression)
Val från statistiskt test: 1 variabel
graph TD V(1 variabel) ---> Kategorisk & Kontinuerlig Kategorisk ---> Two1(2 grupper) ---> One(One-proportion test) Kategorisk ---> Two2(>2 grupper) ---> Ki(Chi-square goodness-of-fit test) Kontinuerlig ---> P1(Parametrisk) ---> X("One-sample students t-test") Kontinuerlig ---> P2(Icke parametrisk) ---> Y("One-sample Wilcoxon test")
Val från test: 2 kontinuerliga variabler
One-sample t-test
Som namnet antyder används detta test angående man besitter ett assemblage på grund av vilken man önskar utföra enstaka jämförelse. Testet används ifall man önskar undersöka angående en medelvärde skiljer sig ifrån en hypotetiskt värde. angående man undersöker längd inom ett skolklass samt noterar för att medellängden inom klassen existerar 180 cm således förmå man undersöka angående detta medelvärdet skiljer sig ifrån siffran 175 cm (som alltså existerar en hypotetiskt värde).
I R används funktionen t.test till för att genomföra one-sample t-test. oss skall för tillfället jämföra angående medelåldern på grund av lungcancerpatienter inom en klassiskt R-dataset skiljer sig ifrån en hypotetiskt värde:
Vi erhåller en P-värde på 0.0000642 vilket innebär för att medelvärdet på grund av patienterna skiljer sig ifrån 60. One-sample t-test lämpar sig på grund av normalfördelade variabler tillsammans interavall-skala.
One-sample mittvärdet i en uppsättning data test
Detta test motsvarar ovanstående test dock istället existerar detta medianen såsom undersöks. inom detta fall behöver oss endast anta för att variabeln existerar vid ordinal-skala. I R används funktionen wilcox.test till för att genomföra one-sample mittvärdet i en uppsättning data test. modell följer:
Binomialt test
Binomialt test används på grund av kategoriska variabler liksom besitter numeriskt värde nivåer. Testet förmå att fatta beslut eller bestämma något ifall ett andel liksom observeras inom stickprovet skiljer sig ifrån enstaka hypotetisk andel. inom R används funktionen prop.test på grund av för att genomföra binomialt test. inom exemplet nedan skall oss undersöka angående andelen kvinnor inom identisk dataset liksom tidigare (lung) existerar lika tillsammans med 0.5 (dvs ifall kvinnor utgör hälften från samtliga patienterna).
Chi-square goodness of fit
Chi-square goodness of passform existerar enstaka extension från detta binomiala testet därför mot vida för att oss denna plats är kapabel testa enstaka variabel tillsammans fler än 2 kategorier. oss är kapabel alltså testa angående fördelningen från cancertyp skiljer sig ifrån en hypotetiskt värde. Ponera för att variabeln cancertyp äger nästa fyra nivåer: lungcancer, koloncancer, njurcancer samt levercancer. Vår ett antagande eller en förklaring som föreslås för att förklara något existerar för att fördelningen mellan dessa fyra typer existerar jämn, således för att vardera utgör 25%. Den förväntade (expected) värdet till varenda kategori existerar alltså 25% (0.25). till för att testa detta används funktionen chisq.test inom R i enlighet med följande:
Independent samples t-test
Detta test används till för att jämföra medelvärden inom numeriskt värde grupper likt existerar oberoende från varandra. Oberoende syftar mot för att grupperna ej får påverka varandra. Låt oss ta numeriskt värde modell till för att förtydliga detta:
- Om en antal patienter vägs innan samt efter kirurgisk behandling på grund av fetma därför besitter oss numeriskt värde värden vilket skall jämföras, nämligen vikten innan samt vikten efter behandling. inom detta fall existerar dock vikten innan samt efter behandling beroende från varandra eftersom detta existerar identisk personer inom båda distributionerna. inom detta fall använd dependent samples t-test.
- Om oss önskar jämföra längden vid män samt kvinnor vid relaterat till göteborg högskola därför besitter oss alltså numeriskt värde medelvärden liksom skall jämföras. Dessa medelvärden existerar dock ej beroende från varandra samt då används independent samples t-test.
I identisk dataset liksom tidigare jämför oss idag ifall män samt kvinnor existerar lika gamla.
P-värdet blev 0.06394 vilket existerar större än 0.05 samt därför förmå oss inte tillsammans med säkerhet yttra för att detta existerar någon åldersskillnad. oss fullfölja ytterligare en test var oss jämför kalorier inom kosten.
I detta fall plats P-värdet 0.01989 vilket indikerar för att detta finns ett statistiskt signifikant skillnad inom kalorier mellan män samt kvinnor.
Wilcoxon-Mann-Whitney test
Detta test används inom identisk situation liksom independent samples t-test dock skillnaden existerar för att Wilcoxon-Mann-Whitney test ej förutsätter för att variabeln existerar normalfördelad. Däremot förutsätter detta testet för att variabeln existerar vid ordinal skal. till för att jämföra män samt kvinnors ålder vid identisk vis sålunda skrivs nästa inom R:
Chi-square test (Chi-två test, χ2 test)
Chi-två test används på grund av för att undersöka numeriskt värde kategoriska variabler. Testet bygger vid för att man jämför observerade frekvenser (för varenda variabels nivåer) samt jämför tillsammans med förväntade frekvenser. Man provar hypotesen för att dem observerade frekvenserna existerar (mer alternativt mindre) likvärdig tillsammans med dem förväntade frekvenserna. ifall oss, exempelvis, undersöker angående detta existerar lika flera män samt kvinnor såsom får hjärtinfarkt genom för att nyttja variabeln kön såsom existerar dikotom (man alternativt kvinna) samt hjärtinfarkt (ja alternativt nej). angående nollhypotesen existerar för att andelen män samt kvinnor såsom får hjärtinfarkt existerar lika flera sålunda förväntar oss oss för att observera lika flera män samt kvinnor inom båda nivåerna för hjärtinfarkt.
Chi-två-testet förmå illustreras tillsammans ett tabell. oss undersöker totalt 40 personer tillsammans hjärtinfarkt.
| Kön | O | E | (O-E)2 | ((O-E)2) / E |
|---|---|---|---|---|
| Man | 32 | 20 | 144 | 144/20 |
| Kvinna | 8 | 20 | 144 | 144/20 |
| Summa | 40 | 40 | 288/20=14,4 |
Värdet vid χ2 är på denna plats 14.4. till för att testa ifall detta existerar statistiskt signifikant måste oss titta inom chi-två-tabell efter värdet 14.4 tillsammans 1 frihetsgrad. Antal frihetsgrader existerar kön-variabelns antal nivåer (=2) minus 1, dvs 2–1 vilket blir 1. inom tabellen framgår detta kritiska värdet till detta aktuella χ2 samt antal frihetsgrader; angående χ2 existerar större än detta kritiska värdet således förkastas nollhypotesen. Observera för att all statistisk mjukvara utför dessa beräkningar automatiskt samt returnerar en P-värde på grund av nollhypotesen. slutligen dock ej minimalt skall nämnas för att Chi-två-test förutsätter för att detta existerar minimalt 5 förväntade observationer finns inom varenda fängelse inom korstabellen ovanför (Tabell 1). ifall antalet personer inom någon fängelse existerar <5 därför bör Fisher's exact test användas istället.
Observera för att dem variabler likt ingår inom en Chi-två test kunna äga fler än numeriskt värde nivåer samt detta behöver ej finnas lika flera nivåer inom dem båda variablerna.
I nästa modell undersöker oss angående lika flera män samt kvinnor dog inom lungcancer-studien:
Fisher's exac test
Fisher's exact test existerar likvärdig tillsammans Chi-två test dock används istället då någon fängelse innehåller färre än 5 förväntade observationer. Fisher's exat test är kapabel användas oavsett hur ett fåtal antalet förväntade observationer existerar. Motvsrande kod inom R blir:
One-way ANOVA
One-way ANOVA (envägs variansanalys)
One-way ANOVA används då man besitter enstaka kategorisk oberoende variabel (med numeriskt värde alternativt fler nivåer) samt ett kontinuerlig normalfördelad beroende variabel (på intervall-skala). på denna plats jämförs alltså angående fördelningen till den kontinuerliga variabeln existerar den identisk på grund av dem olika nivåerna från den kategorisk variabeln. Exempelvis skulle oss behärska jämföra ifall kroppsvikten existerar identisk på grund av dem olika etniska grupperna inom ett gymnasieskola.
I R kommer oss nyttja dataset "bladder" likt även finns inom survival-paketet. oss laddar "bladder" genom ledning "data(bladder)". Då laddas faktiskt tre varianter från "bladder", varav oss kommer nyttja "bladder1". inom detta dataset kommer oss undersöka ifall första tumörstorlek skiljer sig inom relation mot detta slutliga utfallet. Tumörstorleken beskrivs tillsammans variabeln size liksom existerar ett kontinuerlig variabel. Utfallet beskrivs tillsammans med variabeln status där 0 = överlevde, 1 = återfall från cance, 2 = död inom cancer samt 3 = död ytterligare orsak. Tumörstorlek kommer alltså jämföras inom dessa fyra grupper.
P-värdet är 0.249 vilket innebär för att oss ej förmå förkasta nollhypotesen (som säger för att detta ej existerar någon skillnad inom första tumörstorlek). Således existerar tumörerna lika stora nära studiens start.
Kruskal Wallis test
Kruskal Wallis test används då man äger ett oberoende variabel tillsammans numeriskt värde alternativt fler nivåer samt enstaka beroende variabel liksom existerar ordinal-skala. Testet liknar envägs ANOVA dock existerar icke-parametriskt, vilket innebär för att den beroende variabeln ej behöver artikel normalfördelad interval.
Paired t-test (t-test till beroende mätningar)
Om man önskar jämföra numeriskt värde värden liksom existerar beroende från varandra förmå man nyttja paired t-test. Detta förutsätter för att värdet såsom skall jämföras existerar normalfördelat. Värdena existerar såsom regel beroende från varandra angående dem existerar hämtade ifrån identisk individ, vilket existerar fallet nära mätning nära numeriskt värde tidpunkter. detta är kapabel exempelvis existera mätning från kroppsvikt innan samt efter enstaka behandling till övervikt.
Följande R-kod existerar endast till för att illustrera funktionen inom R. dem information såsom används existerar egentligen ej beroende från varandra.
Wilcoxon signed rank sum test
Detta existerar detta icke-parametriska alternativet mot paired t-test samt används alltså då man ej är kapabel förutsätta för att den beroende variabeln existerar normalfördelad tillsammans med mellanrum. Testet förutsätter dock för att variabeln existerar ordinal åtminstone.
McNemar test
McNemars test används då man undersöker ett beroende kategorisk variabel inom numeriskt värde grupper vilket existerar relaterade. Test ä alltså analogt tillsammans paired t-test dock den beroende variabeln existerar kategorisk samt besitter numeriskt värde nivåer inom detta fall. T ex kunna ni att fatta beslut eller bestämma något angående andelen patienter liksom ägde nedstämdhet (ja/nej) innan samt efter behandling tillsammans med beteendeterapi skiljer sig.
Se modell inom R genom för att skriva: ?mcnemar.test inom konsolen.
One-way repeated measures ANOVA
Detta test motsvarar envägs ANOVA (one-way ANOVA) dock inom detta fall går detta god ifall identisk individ bidrar tillsammans fler än 1 mätning (dvs detta förekommer upprepade mätningar på grund av identisk individ(er). Den oberoende variabeln existerar alltså kategorisk tillsammans numeriskt värde alternativt fler nivåer. Den beroende variabeln existerar normalfördelad vid intervall-skala. oss att föreslå eller råda något för att man istället på grund av one-way repeated measures anova använder mixed models (random effects models) såsom existerar effektivare.
Korrelation
Detta besitter diskuterats inom kapitlet ifall korrelation samt regression.
Simple linjär samt multipel regression
Detta besitter diskuterats inom kapitlet ifall simpel linjär regression samt multipel (linjär) regression.
Simpel logistisk regression samt multipel logistisk regression
Detta äger diskuterats inom kapitlet angående logistisk regression.
Analysis of covariance (ANCOVA)
ANCOVA existerar likvärdig tillsammans med ANOVA dock inom detta fall ingår, utöver ett kategorisk prediktor, även ett kontinuerlig prediktor. ANCOVA kunna därför ersättas tillsammans med multipel regression.
Referenser
Ovanstående existerar inom mångt samt många en referat från IDREs guide mot omröstning från test.