Week 4: count tabel en data inspectie
Opdracht voor week 4
Deze week ga je de count tabel genereren en ga je met deze count tabel de data inspecteren. Het doel is om te bekijken of er een signaal in de data aanwezig is. Verschillen de samples van de twee verschillende weefsels van elkaar? En lijken de samples van hetzelfde weefsel op elkaar? Als er verschillen zijn, kunnen we door naar de volgende stap om te zien welke genen er verschillend tot expressie komen in beide weefsels.
De opdracht van deze week bestaat uit verschillende delen, namelijk het genereren van de count tabel, het omzetten van de count tabel naar een DESeqDataSet en het inspecteren van de data met PCA en correlatieheatmaps.
Genereren van de count tabel
De count tabel moet worden gegenereerd met de featureCounts functie uit het Rsubread package. Bestudeer hiervoor goed de documentatie van de functie. Een paar aanwijzingen:
Voor het opstellen van de count tabel gebruiken we een ingebouwde annotatie, namelijk de ‘NCBI hg38 refseq’ annotatie.
We willen een count tabel opstellen met de counts per gen, niet per transcript. We willen dus geen onderscheid maken tussen de verschillende transcripten die een gen mogelijk heeft.
Omzetten van de count tabel naar een DESeqDataSet
Voor het vervolg van de analyse willen we de data omzetten naar een DESeqDataSet object. In R bestaan verschillende objecttypen. In eerdere cursussen hebben jullie kennis gemaakt met objecten als tibble, list en vector. Een DESeqDataSet is een speciaal objecttype dat gebruikt wordt voor de analyse van RNA-seq data.
Om de count tabel om te zetten naar een DESeqDataSet gebruiken we de DESeqDataSetFromMatrix() functie uit het DESeq2 package. Deze functie heeft drie inputparameters:
countData: de count tabel in de vorm van een matrix.colData: de metadata van de count tabel in de vorm van een dataframe. Het doel van de metadata is hier vooral om voor elk sample aan te geven uit welk weefsel het afkomstig is.design: een formule die aangeeft welk verschil er getest moet worden. In dit project willen we hier aangeven dat de verschillen bekeken moeten worden op basis van het type weefsel.
Voor het omzetten van de count tabel naar een DESeqDataSet kun je de documentatie van de DESeqDataSetFromMatrix() functie gebruiken en de workshop over data visualisaties voor rna sequencing.
Data inspectie
Om te zien of er verschillen zijn tussen de samples van verschillende weefsels (en overeenkomsten tussen de samples van één weefsel), ga je een PCA uitvoeren en een correlatieheatmap maken. Voor uitgebreide instructies kun je hiervoor kijken naar de workshop over statistiek en visualisaties. Hier nog een paar aanwijzingen:
Voor de PCA willen we een grafiek maken met PC1 op de x-as en PC2 op de y-as. De verschillende weefsels moeten in de grafiek verschillende kleuren hebben.
Voor de heatmap maak je gebruik van de
corfunctie en van depheatmapfunctie uit hetpheatmappackage. In de heatmap zijn de weefsels aangegeven.De grafieken voldoen aan de standaarden voor een goede grafiek (aslabels, legenda, titel, bijschrift etc.)