FASTAファイルはバイオインフォマティクスをやっていなくてもご利用されている方もいらっしゃるかと思います。 そうでない方も、シンプルなのにたくさんの情報が詰まった便利なファイルですので是非ご確認ください。
拡張子についてはこちら
FASTAファイルは塩基、アミノ酸配列の情報を記載するファイルフォーマットであり、次のような書式になっています。
塩基のATGCのように1分子を1文字であらわし、配列の並びがわかります。 どの文字が何の分子を表しているかのルールとして、 IUPACコード が使われていることが多いです。
1分子1文字とはいえ、ヒトのゲノムサイズは約30億塩基対であるため、ゲノムのFASTAファイルのデータサイズはかなり巨大になります。
巨大ファイルの見方についてこちら
次のような特殊な配列もあらわすことができます。
N | 不明な分子 |
. (または「-」) | ギャップ |
ここまでくると、FASTAファイルの提供元がどんなルールで記載しているか明示してあることが多いです。 FASTAファイルを見かけた際は、是非注目してみてください。