-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathttest_example.Rmd
153 lines (105 loc) · 6.77 KB
/
ttest_example.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
---
title: "Practicum 2: Witte bloedcellen"
author: "xxx en Lieven Clement"
date: "statOmics, Ghent University (https://statomics.github.io)"
output:
html_document:
code_download: yes
highlight: tango
number_sections: yes
theme: cosmo
toc: yes
toc_float: yes
pdf_document:
toc: yes
word_document:
toc: yes
---
<a rel="license" href="https://creativecommons.org/licenses/by-nc-sa/4.0"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a>
# Concentratie witte bloedcellen bij ratten
Test 2023-2024
De data die we hier beschouwen zijn afkomstig van een studie waarbij men een behandelde groep van 16 ratten met de pertussis bacteria heeft geïnfecteerd. Men mat vervolgens de concentratie van de witte bloedcellen (WBC) in aantal per kubieke mm. In een controlegroep van 24 ratten werd eveneens de concentratie van witte bloedcellen gemeten.
De data is beschikbaar in het bestand wbcon.dat. Dit bestand bevat twee variabelen, de variabele WBC die de `concentratie` witte bloedcellen weergeeft en de variabele `groep` die twee mogelijke waarden kan aannemen:
- 0: de rat behoort tot de controlegroep
- 1: de rat behoort tot de behandelde groep
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
```{r}
library(ggplot2)
library(dplyr)
#install.packages("tidyr")
library(tidyr)
```
Lees de dataset wbcon.dat in.
```{r}
wbcon <- read.table("https://raw.githubusercontent.com/statOmics/statistiekBasisCursusData/master/practicum3/wbcon.dat", header = TRUE)
```
# Data-exploratie
## Is de gemiddelde concentratie witte bloedcellen groter in de controlegroep of in de behandelde groep?
```{r}
wbSum <- wbcon %>%
group_by(groep) %>%
summarize_at("WBC",
list(mean=~mean(.,na.rm=TRUE),
sd=~sd(.,na.rm=TRUE),
n=function(x) x%>%is.na%>%`!`%>%sum)
) %>%
mutate(se = sd/sqrt(n))
wbSum
```
Na pertrussis infectie verdriedubbelt het aantal witte bloedcellen/mm$^3$. Maar is dit verschil significant?
## Figuur van de ruwe gegevens
```{r}
wbcon$groep <- as.factor(wbcon$groep) # groep is integer, we willen een factor
boxplot <- ggplot(data=wbcon,aes(x=groep, y=WBC, col=groep)) +
geom_boxplot(outlier.shape=NA) +
geom_jitter() +
theme_bw() +
ggtitle("Concentratie witte bloedcellen")
boxplot
```
Op de boxplots zien we dat de variantie tussen beide groepen erg verschillend is.
# Aannames voor de statistische toets
Welke test moeten we uitvoeren om na te gaan of de gemiddelde concentratie witte bloedcellen verschillend is in de controle versus de behandelde groep? Welke voorwaarden moeten we hiervoor nagaan?
Het experiment werd opgezet met 40 ratten. 16 ratten werden at random toegewezen aan de behandelingsgroep en de overige ratten kregen een controle behandeling. Dit betekent dat de data ongepaard zijn en dat we dus een ongepaarde two sample t-test zullen uitvoeren. De voorwaarden voor deze test zijn de volgende:
- onafhankelijke observaties
- concentratie witte bloedcellen in elke groep normaal verdeeld
- gelijkheid van variantie
Onafhankelijkheid kan worden verkregen door studiedesign. We gaan ervan uit dat de ratten die betrokken zijn in de studie onafhankelijk werden getrokken uit de populatie van ratten.
Om na te gaan of de concentratie witte bloedcellen in beide groepen normaal verdeeld zijn, maken we 2 QQ-plots.
```{r}
qqplot <- wbcon %>%
ggplot(aes(sample=WBC)) +
geom_qq() +
geom_qq_line() +
facet_wrap(~groep)
qqplot
```
Meer informatie over QQ-plots kan je terugvinden in kennisclip "4.4 De Normale benadering van gegevens" in de statistiekcursus ([dodona](https://dodona.ugent.be/en/courses/469/series/5024/activities/1463749967/), [html](https://statomics.github.io/sbc21/chap_describe.html#sec:normal), [youtube](https://youtu.be/_OLtgfagMTg)).
Uit de boxplot bleek dat de variantie van de gegevens niet gelijk was.
Daarom kunnen we geen gebruik maken van de gepoolde variantieschatter en voeren we een Welch-modified two sample t-test uit.
# Hypothesis en statistische toets
Formuleer de nul- en alternatieve hypothese voor een tweezijdige test. Voer deze test uit op het 5% significantieniveau.
## Nul- en alternatieve hypothese
We willen nagaan of de gemiddelde concentratie witte bloedcellen in de controlegroep significant verschilt van de gemiddelde concentratie witte bloedcellen in behandelde groep. De nul- en alternatieve hypothese horende voor het toetsen van deze onderzoeksvraag zijn:
Nulhypothese
- *In symbolen*: $H_0: \mu_0 = \mu_1$
- *In woorden*: $H_0:$ de gemiddelde concentratie witte bloedcellen in controlegroep is gelijk aan de gemiddelde concentratie witte bloedcellen in behandelde groep.
Alternatieve hypothese
- *In symbolen* : $H_A: \mu_0 \neq \mu_1$
- *In woorden*: $H_A:$ de gemiddelde concentratie witte bloedcellen in controlegroep is verschillend van de gemiddelde concentratie witte bloedcellen in behandelde groep.
met $\mu_0$: het populatiegemiddelde van de concentratie witte bloedcellen bij ratten na behandeling met de controle en $\mu_1$: het populatiegemiddelde van de concentratie witte bloedcellen bij ratten na infectie met de pertrussis bacteriën.
## Tweezijdige two sample t-test met ongelijkheid van variantie
Bij de t-test functie is het argument `var.equal` default `var.equal = FALSE` zodat de Welch t-test wordt uitgevoerd waarbij wordt gewerkt met een afzonderlijke variantieschatter per groep.
```{r}
test <- t.test(WBC ~ groep,wbcon)
test
```
## Interpretatie
De t-test heeft een p-waarde van `r format(test$p.value,digits=2)`. Deze p-waarde is veel kleiner dan het vooropgestelde significantieniveau $\alpha=0.05$. Hierdoor kunnen we de nulhypothese kunnen verwerpen op het 5% significantieniveau. Dit betekent dat concentratie witte bloedcellen gemiddeld significant verschillend is tussen ratten die de controle behandeling kregen en ratten die geïnfecteerd werden met pertrussis.
De t-test geeft ook een 95% betrouwbaarheidsinterval weer van `r format(test$conf.int[1],digits=3)` tot `r format(test$conf.int[2],digits=3)`.
**We hebben dus geschat dat het werkelijke gemiddelde verschil in concentratie witte bloedcellen tussen de controle groep en de behandelde groep met 95% kans tussen `r format(test$conf.int[1],digits=3)` bloedcellen/mm$^3$ en `r format(test$conf.int[2],digits=3)` ligt.**
# Conclusie
De gemiddelde witte bloedcelconcentratie is extreem significant verschillend tussen ratten die geïnfecteerd worden met pertrussis en ratten die de controle behandeling ondergaan (p << 0.001).
De witte bloedcelconcentratie is gemiddeld `r wbSum %>% pull(mean) %>% diff %>% format(digits=3)` bloedcellen/mm$^3$ hoger bij ratten na infectie met pertrussis dan bij ratten die de controlebehandeling ondergaan (95% BI [`r -test$conf.int %>% sort %>% format(digits=3)`]).