メタゲノム解析って?

 次世代シーケンサー(NGS)を使った研究において、メタゲノム解析は最もホットな手法の一つなのではないでしょうか。今回はメタゲノム解析ってつまり何か、何をしているのか、というところをお話しようと思います。

メタゲノム解析とは

 メタゲノムとは、文字通り複数ゲノムのことを言います。例えば、ファージにより感染した細胞にはファージと宿主の DNA があるかと思いますが、この細胞を使ってゲノムシーケンスを行えば、メタゲノムシーンスになります。
 最近では、メタゲノムといえば環境メタゲノムのことを指すほど環境メタゲノムが人気です。環境メタゲノムとは、環境サンプルをとってきて、環境内に存在するすべてのゲノム配列を解析するメタゲノムです。先の例とは異なり、生物種はもっと多く、且、特定されていない状態でデータが得られます。土、水、空気や、生物の腸内、口腔内など、対象は多岐にわたります。面白いものでは、植物の表面から訪れている昆虫などの生物を特定しようという研究がありました。

データ解析では何をしているか

 アライメントにより配列がどの生物種から得られたか、ゲノムのどこから得たものかを計算します。アライメントのデータベースには対象の生物種の配列を使用します。環境メタゲノムでは、何がいるかわからないため全ての生物の既知配列を使用します。データもデータベースも量が多いため、計算時間の短縮として、16SrRNA 配列のみを取り出したり、配列をクラスタリングでまとめて代表配列のみアライメントに使うことがあります。
 アライメントだけでも、環境にいた生物や遺伝子が何だったかがわかりますが、その後、量的関係を見る為の計算やサンプル間の相関を見る為の統計を行ったりします。量的なものを見る場合は、元配列が長いとシーケンス量も増える為、その長さを使ってノーマライズを行ったり、ターゲットシーケンスをした場合は配列のコピー数などを考慮します。

解析で何がわかるのか

 環境メタゲノムでは、その環境内にいる生物種を網羅的に取得することができます。また、環境内にある遺伝子も同様です。ノーマライズが可能なデータの場合は、生物の量的関係も見ることができます。RNAを取得した場合では、環境内で発現している遺伝子がわかり、発現量も見ることができます。サンプル間の違いで特徴を見ると面白いかもしれません。また、サンプルからすぐに配列を取り出すことで、培養ができないような生物の配列もとることができます。そのため、温泉など、特殊環境から有用な生物や物質を見つける手法としても有用です。