cufflinks-library-norm-method
この記事では,CufflinksおよびCuffdiffの--library-norm-method
オプションで指定できる,ライブラリサイズの正規化法の違いについて述べています.
言葉の説明
- ライブラリ library: サンプルのこと.
- ライブラリサイズ library size: ライブラリのリード数のこと.Sequecning depthともいう.
- size factor(scaling factor): 各ライブラリのFPKMやフラグメントカウントを割るための値.
各ライブラリについて計算される値です.正規化因子とかスケーリング因子とか呼ばれたりします.
通常,他のライブラリに比べてFPKMやフラグメントカウントが大きいライブラリのスケーリング因子は,大きくなります. - フラグメント fragment: ペアエンドで読んだときの2つのreadを一組にした概念.
In paired-end RNA-Seq experiments, fragments are sequenced from both ends, providing two reads for each fragment. Cufflinks RNA-Seq analysis tools - Background
-FPKM: Fragments Per Kilobase of exon per Million fragments mapped (FPKM) のこと. Cufflinks RNA-Seq analysis tools - Backgroundを参照のこと.
library-norm-method
classic-fpkm
,geometric
,quartile
の3種類があります.
classic-fpkm
- size factorは1.つまり,FPKMやフラグメントカウントに対してスケーリングを行わない
- Cufflinksでのみ使用可能
geometric
- まず,各遺伝子について,フラグメントカウントの全ライブラリについての幾何平均を求める.
次に,その幾何平均に対する各ライブラリでのフラグメントカウントの比を計算する.
最後に,その比の全遺伝子についてのメディアンを計算する.このメディアンをsize factorとして,FPKMとフラグメントカウントのスケーリングを行う. - 幾何平均 geometric mean
- Cuffdiffでのデフォルト
- Anders and Huber (Genome Biology, 2010) を参照
- DESeqで使われているのと同じもの
j
: ライブラリ(j=1,…,m)
i
: 遺伝子
k_{ij}
: ライブラリj
における遺伝子i
quartile
- 各ライブラリでのフラグメントカウントの第3四分位点の,全てのライブラリについての第3四分位点の平均値に対する比をsize factorとして,FPKMとフラグメントカウントのスケーリングを行う
- いわゆるquantile normalization とは全く異なる
3Q_{i}
: k_{i,j} の全遺伝子についての分布から,第3四分位点を選ぶ関数だと思ってください.
参考
Written on July 25, 2013