FastQCによる次世代シーケンスのクオリティチェック

次世代シーケンサーが出力するリードにはアダプター配列やポリAの配列が含まれることがある。また、クオリティの低いリードが出力されることもある。

こうした配列はアセンブルやマッピング等の解析に影響を及ぼす可能性がある。そこで、こうした解析をおこなう前に出力されたリードのクオリティチェックをおこなう必要がある。

FastQCはこうしたクオリティチェックをおこなうツールである。FastQCによるクオリティチェックの結果にしたがい、アダプター配列やポリAのトリミング、低クオリティリードのフィルタリングをおこなう。

なお、最近のシーケンサーはどんどん賢くなっているため、トリミングやフィルタリングは不要という声も多い。実際、手元のデータを見てもアダプター配列やポリA配列は含まれていない。また、約95%がクオリティ30以上であり、解析に大きな影響が出るとは考えにくい。しかし、クオリティチェックくらいはしっかりやっておくべきだろう。

インストール

以下のサイトからダウンロードができる。

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

“Download Now”をクリックし、各自のOSに合わせたバイナリをダウンロードする。

# ダウンロードしてから解凍
wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
unzip fastqc_v0.11.8.zip
# 実行権限の付与
cd FastQC | chmod 755 fastqc
# PATHを通す
ln -s /path/to/fastqc ~/usr/bin
# インストールが成功したか確認
fastqc -h

最後にヘルプが表示されれば成功。GUI版をインストールしていたりするとバイナリをダウンロードしろと言われる。

クオリティチェック

クオリティチェックをおこなう。

# FastQCによるクオリティチェック
fastqc -t 8 -o output_dir input.fastq

オプション:

  • -t <int> スレッド数
  • -o <path> 出力先のディレクトリ
  • –nogroup リードが50bpよりも長い場合に3’末端の塩基を10bpずつ束ねて解析する

“–nogroup”オプションはつけた方が細かく解析できる。しかし、ショートリードであればそれほど大きな変化はない。ロングリードシーケンサー用と考えればよいだろう。

出力結果の確認

BabrahamのFastQCのサイトでは複数の出力結果のサンプルを複数見ることができる。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です