ファイルのフォーマットを判別する

 バイオデータには様々なファイルのフォーマット定義があります。フォーマットによって、ファイルにどのような情報が入っているかが異なります。このフォーマットを判別するのには「拡張子」を用います。

FASTA
.fasta/.fa/.fna/.faa など
アミノ酸や塩基配列の情報
BED
.bed
配列上のポジションの情報
GTF, GFF
.gtf/.gff/.gff3
ゲノム配列上の遺伝子情報
GenBank
.gbk/.gb
配列のアノテーション情報

 拡張子はパソコンがどのソフトでファイルを開くのか、判別する目印に使われています。例えば、「.txt」で終わるファイルをダブルクリックで開こうとすると、Windowsのデフォルトでは「メモ帳」ソフトで開くように設定されています。
 初期設定ではファイル名の拡張子が表示されていませんが、変更することで見えるようにすることが可能です。

◊ Windowsの場合
こちらのMicrosoftのページにて解説されているようです。

◊ Macの場合
フォルダメニューの「環境設定」を開きます。

詳細に移動し、「すべてのファイル名拡張子を表示」にチェックを入れます。

 ソフト自体も「拡張子」から、ファイルに何の情報が記録されているかを判断することがあります。IGVなどのゲノムビューワーでゲノム配列のインポートをファイルから行う際は、主にFASTAフォーマットを使用します。
 要求されているファイルを持っているかどうか、拡張子で判別できますので、表示する設定にしておくとファイルを探すのに便利です。