統計ソフトRの導入

 統計ソフトRは大きなサイズのデータを扱うこともでき、さらに高速な計算を行うことができることから次世代シーケンサー(NGS)のデータ解析にもよく用いられます。今回はWindowsを基準として導入と、バイオインフォマティクスに用いられるパッケージを配布しているBioConductorからのパッケージインストールについてご紹介します。

Rのダウンロード~インストール

1. RのHPからダウンロードリンクをクリック

2. ミラーサイトのリストからJapanのサイトを選択

3. OSを選択して必要なファイルをダウンロード

4. インストール

ダウンロードしたファイルを起動し、起動した画面に従ってインストール。基本的に何もせず「次へ」でOKです。

Rの起動~パッケージのインストール

 Rでは有志が作成した関数セット(パッケージ)を読み込んで使うことができます。パッケージはそれぞれインストールが必要となります。バイオインフォマティクスに関するパッケージはBioConductorで数多く提供されており、それぞれの導入方法や使い方のマニュアルも充実しています。
BioConductorのHPはこちら
1. Rのアイコンをダブルクリック

 インストールの設定をデフォルトで行うとデスクトップにショートカットアイコンができます。このアイコンで起動することができます。
【R起動後の画面】

2. コンソールでbioLite関数を呼び出す

 BioConductorのパッケージをインストールする際には、多くの場合この作業が必要となります。コンソールウインドウに以下の文を打ち込み、Enterキーを押すと関数の読み込みが行われます。
source(“https://bioconductor.org/biocLite.R”)

3. パッケージのインストール

 bioLite関数で使いたいパッケージのインストールができます。使い方はコンソールウインドウに以下の様に文を打ち込み、Enterキーを押すことで自動で実行されます。かっこの中にダブルクオートで囲んだ箇所にはパッケージ名を入れてください。
biocLite(“cummeRbund”) #RNA-Seq解析に使うcummeRbundパッケージの例biocLite(“methylKit”) #Bisulfite解析に使うmethylKitパッケージの例

4. パッケージの呼び出し

 パッケージが正常にインストールされた場合はコンソール画面にエラー表示がない状態でコンプリートになります。また、パッケージを呼び出して読み込まれたかどうかでも確認することができます。
library(cummeRbund)

 NGSの解析データはゲノムの広い範囲を見ているためにレコード数も多いので計算時間もそれなりにかかります。Linuxサーバーのコマンドを使える方は慣れてくると、帰りに計算開始して次の日来た時に終わってる!なんてこともできますよ。