Session 06 (A): Microarray Basic Data Analysis

Size: px

Start display at page:

Download "Session 06 (A): Microarray Basic Data Analysis"

Harvey Haynes
5 years ago
Views:

1 1 SJTU-Bioinformatics Summer School 2017 Session 06 (A): Microarray Basic Data Analysis Maoying,Wu Dept. of Bioinformatics & Biostatistics Shanghai Jiao Tong University Summer, 2017

2 Next Basic Data Analysis Background correction Normalization Differential Expression Analysis (DEA) Gene set analysis Clustering

3 3 Basic Data Analysis Protocol Image processing - transform feature and background pixel into intensity values Transformations Removal of flagged values (optional) Detection limit (optional) Background subtraction Taking logarithm Normalization Differentially exressed genes (DEGs) Which genes are differentially expressed? Clustering analysis Which genes have similar expression profiles? Promoter analysis Functional enrichment analysis: Pathway, etc.

4 Background correction 4 Filtering (optional) Intensities below detection limit Negative intensities Spatial quality issues Background correction Non-specific hybridization and background fluorescence If background is larger than signal: 1 remove values 2 set signal to lowest measured intensity 3 many other approaches Background subtraction local background global background no background subtraction Background subtraction can cause ratio inflation, therefore background corrected intensities below threshold are often set to threshold or similar value.

5 5 Normalization Normalization is the process of balancing the cross-slide intensities to account for variations in labeling and hybridization efficiencies. median quantile trimmed mean

6 6 Log Transformation Reasons for working with log-transformed intensities and ratios: (1) spreads features more evenly across the intensity range. (2) makes variability more constant across intensity range. (3) results in close to normal distribution of intensities and experimental errors. Normalization if large fration of genes is DE: Spike-in controls Housekeeping controls Determine constant feature set

7 7 Normalization if large fraction of genes is not DE Within-Array Normalization Compute normalization factor Ch2 mch1/mch2 Linear regression fit of log2(ch2) against log2(ch1) adjust Ch1 with fitted values Linear regression fit of M versus A subtract ˆM from raw log ratio. Nonlinear regression fit of M against A (Loess, locally weighted polynomial regression) subtracted ˆM from raw log ratios.

8 8 Normalization if large fraction of genes is not DE Between-Array Normalization Scaling: mean = 0 Centering (z-value): mean=0 and STD=1. Quantile-normalization identical distribution across arrays.

9 Preprocessing in R 9 Method BG Adjust Normalization Probeset Summary MAS5 regional adjustment scaling by constant Tukey biweight average gcrma by GC content quantile normalization robust fit of linear model RMA array background quantile normalization robust fit of linear model VSN - variance stabilizing robust fit of linear model dchip - by invariant set multiplicative model dchip.mm - by invariant set multiplicative model Qin et al. BMC Bioinfo 2006

10 Differentially Expressed Genes Analysis (DEA) 10 Statistical tests vs. Fold change threshold Incorporates variation between measurements Estimate for error rate Detection of minor changes Ranking of DE genes Approaches: Parametric tests: t-test Nonparametric tests: Wilcoxon sign-rank/rank-sum test Significance Analysis of Microarrays (SAM) Linear models of microarrays (LIMMA) Rank Product ANOVA and MANOVA (R/maanova) Multiple testing correction: FDR, Bonferroini, etc.

11 Gene Set Analysis 11 Enrichment methods Overrepresentation enrichment analysis (ORA) Fisher s Exact test Hypergeometric test Gene set enrichment analysis (GSEA) Network-topology based analysis (NTA) Softwares: topgo: bioc/html/topgo.html GSEA: DAVID: PANTHER: EnrichNet: KOBAS: WEBGESAT:

12 12 Clustering Analysis Hierarchical clustering (hclust) K-means clustering (kmeans) Partitioning around medroids (PAM, a.k.a K-medoids, pam{cluster}) Self-organizting maps (SOM, som{som}) Model-based clustering (Mclust{mclust}) Tight clustering based on repeated resampling.

Low-Level Analysis of High- Density Oligonucleotide Microarray Data

Low-Level Analysis of High- Density Oligonucleotide Microarray Data Ben Bolstad http://www.stat.berkeley.edu/~bolstad Biostatistics, University of California, Berkeley UC Berkeley Feb 23, 2004 Outline