5.2. One-way anova (Half)

---
title: "Les 5: Anova analyse"
output: html_document
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

Sinds de jaren '70 worden de genomen van verscheidene organismen bestudeerd. Deze zijn niet enkel de sleutel tot de evolutietheorie, maar geven ook een beeld van ziekten veroorzaakt door genetische afwijkingen, laten het ontdekken van nieuwe functies van bacteriën toe of kunnen de taxonomie van organismen drastisch wijzigen. 
In de vroege jaren 2000 was er een stevige opmars van "next-generation sequencing" methoden die het mogelijk maakten om complete genomen te sequencen en te bestuderen. Dit maakte het ook mogelijk om een predictie te doen over de genoomgrootte. Hierbij kwam men er al snel achter dat de complexiteit van een organisme niet meteen gelinkt is met de grootte van zijn genoom. Sommige ééncelligen hebben bijvoorbeeld meer DNA dan mensen. 

Bij sommige groepen van eukaryoten, zoals de zoogdieren (mammalia), wordt de grootte van het genoom niet enkel beïnvloed door genetische factoren, maar ook door omgevingsfactoren. Zo zou men de vraag kunnen stellen of het voedingspatroon van dieren gelinkt is met de grootte van het genoom. 

Genoomgrootte wordt typisch uitgedrukt in picograms (massa), ook wel de C-waarde genoemd. Een database die alle, momenteel gekende (2017), waarden voor genoomgrootten bevat is de "Animal genome size library". Van deze database hebben wij een subset gemaakt die enkel de zoogdieren bevat (totaal van 810 observaties). De dataset bestaat uit de volgende variabelen: 

- `Common name`: de naam van het organisme
- `C value`: maat voor de grootte van het genoom
- `Order`: Indelingsmaat voor de classificatie (niveau: Orde)

Dataset genome_sizes inlezen

```{r}
# Importeer de data
genomes <- read.table("genome_sizes.txt", header = TRUE, sep = "\t", quote = "")

# Verwijder de laatste (lege) kolom
genomes <- genomes[ ,-4]

#C value omzetten naar een numerieke waarde
genomes$C.value <- as.numeric(as.character(genomes$C.value))
```

#Is er een effect van voedingspatroon? 

We zijn geinteresseerd of er een link is tussen het voedingspatroon van zoogdieren en de grootte van hun genoom. Hierbij wensen we volgende groepen (Orden) binnen de zoogdieren te bestuderen: 

- Primaten (omnivoren)
- Carnivora (carnivoren)
- Artiodactyla (=evenhoevingen, herbivoren). 

Hiervoor zullen we eerst een subset opstellen van deze soorten. 
Bekijk daarna de data op een exploratieve methode. 

```{r}
interest <- subset(genomes, Order == "Artiodactyla" |
                              Order == "Carnivora" |
                              Order == "Primates")

interest$Order <- factor(interest$Order, levels= c("Primates", "Carnivora", "Artiodactyla"))
#we beschouwen orde hier als een categorische variabele

#maak twee variabelen aan Orde en C_value die de variabelen van interesse bevatten
Orde <- interest$Order
C_value <- interest$C.value

# frequentietable
table(Orde)

#stel een boxplot op van de data 

```

Op basis van de frequentietabel zien we dat er meer dan dubbel zoveel waarnemingen zijn van de primaten in vergelijking met de carnivoren en de evenhoevigen. Denk je dat dit een invloed zal hebben op de resultaten van je analyse? 



##Opstellen van de nul- en alternatieve hypothese
Stel een nul- en alternatieve hypothese op. 


Fit nu het model: 

```{r opstellen model, error=T}
model <- lm() #vul zelf in
summary(model)
```
Volgens de output lijken er verschillen te zijn tussen de genoomgroottes van de drie verschillende groepen. Let wel op, hier is nog geen correctie gebeurd voor meervoudig testen!

##Assumpties van Anova
Ga de assumpties na om een Anova uit te voeren. 

We nemen aan dat elke groep een Normale verdeling zou volgen.
Dit impliceert dat

 - elke groep Normaal verdeeld moet zijn.
 - elke groep een gelijke variantie moet hebben.
 
 Bovendien neemt de test nog aan dat
 
  - de groepen onafhankelijk zijn van elkaar.
  - de gegevens binnen een groep onafhankelijk zijn van elkaar.


##Uitvoeren van de Anova test

Anova wordt opnieuw uitgevoerd aan de hand van het lineair regressiemodel. Hoe kunnen we dus de nulhypothese en alternatieve hypothese nog stellen? Voer een anova uit. Wat kunnen we op basis hiervan besluiten? 


```{r}

```

##Post-hoc analyse


```{r}
#Tukey test voor paarsgewijze vergelijking
library(multcomp)


#95% betrouwbaarheidsintervallen

```

##Conclusie
Werk een conclusie uit voor bovenstaande analyse
Je kunt zo vaak indienen als je wenst. Er wordt enkel rekening gehouden met je laatst ingediende oplossing.