前回アライメントについての記事を投稿いたしましたが、今回はそのロジックを用いているツールの内、ローカルアライメントを行うものをいくつか、それぞれの特徴とともにご紹介いたします。
ローカルアライメント
配列の一部を比較する。
例)リファレンスゲノムの一部とシーケンスリードを比較して、リードのゲノム上の位置を決定する。
例)リファレンスゲノムの一部とシーケンスリードを比較して、リードのゲノム上の位置を決定する。
- BWA
-
DNA マッピングツール。ギャップアライメントに対応しているため InDel を許容する。
バージョンアップしたことで最近の長めのショートリードでもアライメントできるようになった。
ペアリードのフラグメントサイズを計算してくれる。目的に合わせてメソッドを選ぶ必要がある。- ◊ backtrack
- 70-100bp Illumina リードに対応したショートリード用メソッド。
- ◊ SW
- 1Mbp までのリードに対応。ギャップが多いデータに強い(らしい)。
- ◊ MEM
- 1Mbp までのリードに対応。SW より高速とのこと。これらの3メソッドの中で一番新しい。
- Bowtie
-
DNA マッピングツール。他のツールが呼び出して使用することが多い。
バージョン2以上のものがリリースされているが、1も残っている。2以降はリードの長さ制限がなくなったため、アセンブルしたコンティグなどの長い配列をクエリとして使いたいときも計算が可能。
マルチトップヒットがあった場合のランダム振り分けが苦手。- ◊ version1まで
- 1Kbp までのリードに対応。
- ◊ version2以降
- リード長に制限はないが基本的にはショートリード用のアルゴリズムを搭載。ギャップアライメントに対応しているため InDel を許容する。
- Bismark
-
DNA マッピングツール。バイサルファイト試薬によって変換された塩基を含むリードのマッピングに対応。
Bowtie を呼び出して使用する。リファレンスを塩基変換したものを用意し、スコアの高い結果のマップパターンを採用する。
マップ結果からメチル化計算を行うところまで行ってくれるため、パイプラインソフトともいえる。 - TopHat
-
RNA マッピングツール。junction を考慮したアライメントに対応。
Bowtie を呼び出して使用し、アライメント結果を RNA データ用に計算している。
ここでご紹介したツールはとてもメジャーなものなので、皆さまも名前を聞いたことがあるのではないでしょうか?これらはいずれも BWT(Burrows-Wheeler Transform)というアルゴリズムでアライメント計算の高速化を実現したものになります。
マッピングはNGS解析において最も用いられる手法であり、解析のクオリティを決定するといえるほど重要な計算です。そのため、大量データを扱うにあたっての速度やクオリティなどのバランスを調整した計算アルゴリズムや、それを搭載したツールが数多く開発されております。先ほどの BWT のほかに有名なものでは Read Hash、Genome Hash といったアルゴリズムが知られています。
自身の持っている「シーケンスデータの特徴」や「どんな情報を得たい」のかによってツールを選択してみてはいかがでしょうか。