生命系学生のゲノム解析覚え書き

大抵インフォ、時々バイオ、稀にアグリな日記

ついにubuntuに移行した

これまでjupyternotebook便利すぎてwindows環境にこだわってたけど明らかにLinuxのが使いやすいしwindows対応してないパッケージ多すぎるしで結局RNAの発現解析調べるのはubuntuでやることにした。

BashLinuxのが整ってるし。

まずBiocondaをインストールなどもろもろ環境整備してからfastqcをダウンロード。これで自由にfastqcファイルを見れるぞ!(これまではテキスト形式でみてた)

 

さて、バイオインフォマティクスを学んできて一か月、やっとお目当てのRNA発現量解析のところまできた。(長かった。。。)

今回はマッピングから。

ubuntuでBiocondaをインストールして、そこからhisat2を使って行う。

 

マッピングにはまず参照配列をインデックス化する必要がある。インデックスとはソフトウェアのマッピングプログラムから参照しやすくなるように整理・加工したもの。参照配列は必ずインデックス化する必要がある。

hisat-2を用いてインデックス化する際にはhisat2-build (ファイル名).fna (新しいファイル名).fnaでよい。

次にhisat2を用いてマッピングをする。

hisat2 (パラメータ指定) -x(参照配列) -1(入力配列) -2 (入力配列その2) -s(出力配列)

のようにマッピングする。マッピングのパラメーターには様々なものがある。パラメータ指定については

Manual | HISAT2 (daehwankimlab.github.io)

を参考にすればよい。

 

んでいざマッピング、と思ったら

Error, fewer reads in file specified with -2 than in file specified with -1
terminate called after throwing an instance of 'int'
Aborted (core dumped)
(ERR): hisat2-align exited with value 134

 

というエラー。どうやら2つ目のファイルがうまくトリミングできていないっぽい?

のでもう一度trimmomaticでトリミングしてから同じコードでマッピング。したらうまくいった。どうやらさっきやったトリミングはうまくできていないらしい。

ちなみにこのサイト覗いてみると、どうしてもread数がそろわないけどマッピングしたいときにはhisat2ではエラーが出てしまうのでSTARを使えばいいらしい。

Paired-endのデータが不揃いの場合に起こるエラーについて - Qiita

 

無事samファイルを出力しようと思ったのでbamファイルを作ろうと思い、

samtools view -@ 32 -b (ファイル名sam) -o (ファイル名bam)

で実行したら事件。

samtools: error while loading shared libraries: libcrypto.so.1.0.0: cannot open shared object file: No such file or directory

とまたもやエラー。Biocondaでsamtoolsをインストールするとlibcrypto.so.1.0.0を認識できずにこうしたエラーが起こるらしい。

色々ネットに解決策が転がっていたが、Ubuntuのアップデートによりopensslがアップグレードされてしまい、かなりめんどくさい状況。opensslをダウングレードすればいいっぽいが、すると他の色々もダウングレードされるので

conda uninstall samtools

でsamtoolsをアンインストールして、

sudo apt install samtools

でsamtoolsを再インストール。逃げの一手。笑。で、結局うまくbamファイルを作れました。めでたし。

samtools sort -@ 32 (もとファイルbam) > (ソートするファイル.sorted.bam)

以上のようにsortしてbamファイルの準備は完了。このソート作業でリードはマップされたリード開始位置の順になる。

またsortの際にmerging from 0 files and 32 in-memory blocks...と出るがどうやらエラーではないっぽい。sortするときにreadを一時的に保存した場所を知らせているだけらしい。