次世代シーケンサーにおける遺伝子発現量解析はRNA-Seqとよく呼ばれています。「Seq」とある通り、蛍光強度を見るのではなくシーケンス配列を取得するものになります。今回はこの配列から「どのように発現量を計算するのか」をお話いたします。
1. マッピング
次世代シーケンサーから取得した数百baseのシーケンス配列(リード)は、それぞれゲノム上のどの位置から取得されたのかわからない状態でファイルに保存されます。そのため、先ずゲノム配列と比較して由来箇所を特定するマッピング計算を行います。
2. カウント
由来がわかったら、次はゲノムのエクソンに該当する位置にマップされたリード数をエクソンごとに計上します(タグ数)。その後、遺伝子毎に集計されたエクソンごとのリード数を合計したものが遺伝子のタグ数となります。
3. ノーマライズ
発現量はさらに計算を行うこととなります。発現量計算の方法は遺伝子の様々な要因に対して考慮されたものが開発されております。今回は多く用いられているRPM、RPKM、FPKMの手法をご案内いたします。
RPM
Reads Per Million mapped reads の略です。サンプルごとに取得されるシーケンス量が異なることを考慮し、マップしたシーケンスが100万配列としたときのリード量に換算しています。つまり、算出した発現量でサンプル間比較が可能になります。
RPKM
Reads Per Kilobase of exon per Million mapped reads の略です。RPMのサンプル間に加え、遺伝子の長さが長いほどシーケンスが取得されることを考慮し、遺伝子長を1Kとしたときのリード量に換算しています。つまり、算出した発現量で遺伝子間比較が可能になります。
FPKM
Fragments Per Kilobase of exon per Million mapped reads の略です。考え方はRPKMと同じですが、リードからフラグメントに代わっています。リードはフラグメント断片から数百baseをシーケンスしたものです。例えば、ペアシーケンスをした場合1フラグメントから2シーケンス取れるわけですが、これが2エクソンに分かれてマップした際、カウント数はRPKMでは2リードとなるところFPKMでは1フラグメントとなります。