バイオデータベースで取得した巨大ファイルを目でみたい

世の中のデータファイルにはいろんな形式があります。
バイオデータベースで採用されているファイル形式にも、以下のような様々な形式があります。

FASTA アミノ酸や塩基配列の情報
BED 配列上のポジションの情報
GTF, GFF ゲノム配列上の遺伝子情報
GenBank 配列のアノテーション情報

一例ですが、ここに挙げたファイルは全て目で見ることが可能なのです。
Windowsに標準搭載されている「メモ帳」でも開くことができます。
気をつけるべき点は「巨大ファイル」「改行コードがLinux」であることです。

巨大ファイル
「メモ帳」はバイオデータベースに登録されているような、大きなデータサイズの表示ができません。
改行コードがLinux
改行コードとはコンピューターが「ここが改行位置である」という人の目には見えない目印。OSごとに異なるのでWindowsはLinuxの改行位置を判別することができません。(MacはLinuxに近い要素があるため、表示できる可能性あり。)

これらの問題を解決するのに我々が使用しているのが、フリーのテキストエディタです。
検索すると多くの方が開発して、配布してくださっています。

よく使うエディタ一例

一際巨大なファイルは表示ができないこともありますが、大体のファイルを開くことができます。

よくある「タブ文字区切りファイル」を見るときに、タブ文字をマーク表示してくれて見やすいです。(表示設定の調整にもよります。)
また、改行コードの変換を行ってくれたりします。これを使いこなせばWindowsで作ったテキストファイルをMacユーザーの先生に送っても大丈夫!!

お持ちのデータをテキストエディターで開いて観察してみてはいかがでしょうか?