cufflinks-library-norm-method

この記事では,CufflinksおよびCuffdiffの--library-norm-methodオプションで指定できる,ライブラリサイズの正規化法の違いについて述べています.

言葉の説明

  • ライブラリ library: サンプルのこと.
  • ライブラリサイズ library size: ライブラリのリード数のこと.Sequecning depthともいう.
  • size factor(scaling factor): 各ライブラリのFPKMやフラグメントカウントを割るための値. 各ライブラリについて計算される値です.正規化因子とかスケーリング因子とか呼ばれたりします.
    通常,他のライブラリに比べてFPKMやフラグメントカウントが大きいライブラリのスケーリング因子は,大きくなります.
  • フラグメント fragment: ペアエンドで読んだときの2つのreadを一組にした概念.

In paired-end RNA-Seq experiments, fragments are sequenced from both ends, providing two reads for each fragment. Cufflinks RNA-Seq analysis tools - Background

-FPKM: Fragments Per Kilobase of exon per Million fragments mapped (FPKM) のこと. Cufflinks RNA-Seq analysis tools - Backgroundを参照のこと.

library-norm-method

classic-fpkmgeometricquartileの3種類があります.

classic-fpkm

  • size factorは1.つまり,FPKMやフラグメントカウントに対してスケーリングを行わない
  • Cufflinksでのみ使用可能

geometric

  • まず,各遺伝子について,フラグメントカウントの全ライブラリについての幾何平均を求める.
    次に,その幾何平均に対する各ライブラリでのフラグメントカウントの比を計算する.
    最後に,その比の全遺伝子についてのメディアンを計算する.このメディアンをsize factorとして,FPKMとフラグメントカウントのスケーリングを行う.
  • 幾何平均 geometric mean
  • Cuffdiffでのデフォルト
  • Anders and Huber (Genome Biology, 2010) を参照
  • DESeqで使われているのと同じもの

j: ライブラリ(j=1,…,m) i: 遺伝子 k_{ij}: ライブラリjにおける遺伝子i

quartile

  • 各ライブラリでのフラグメントカウントの第3四分位点の,全てのライブラリについての第3四分位点の平均値に対する比をsize factorとして,FPKMとフラグメントカウントのスケーリングを行う
  • いわゆるquantile normalization とは全く異なる

3Q_{i}: k_{i,j} の全遺伝子についての分布から,第3四分位点を選ぶ関数だと思ってください.

参考

Cufflinks RNA-Seq analysis tools - User’s Manual

Written on July 25, 2013