RNA-seqアセンブリについて
年度初めということでまた書き始めようと思います。いつまで続くのでしょうか。
さて、これまでひたすらゲノムが読まれていないニッチな生物でRNA-seq解析を行っていました。
流れとしては図の通り。多分ゲノムが読まれていない生物でのRNA-seq解析で一番困るのが図の④の部分のde novo assemblyだと思います。ここでゲノム読まれてないからって言って自分で仮想遺伝子(コンティグ)を作っていくのですが、これがなかなか難しいです。
いろんなツールが混在してる上、パラメーターも色々設定しないといけないしで、結局どうすればいいのか、何を使えばいいのかというのが結構困ると思います。
アセンブリツールについて、一番のオススメはやっぱりTrinity。かなり高精度かつ冗長性の少ないコンティグを作ってくれます。おそらく一番のスタンダードのため、アップデートは頻繁にしてくれるし、オプションの説明も丁寧でわかりやすく、いろんな環境で動きます。
ただ問題はめちゃめちゃメモリ食います。最低でも50GB以上のメモリがないとほとんど動かないんじゃないでしょうか。あとセットアップがめんどくさいです。公式HPに書いてありますが、trinityrnaseq/trinityrnaseq: Trinity RNA-Seq de novo transcriptome assembly (github.com)
jellyfishとか普段あんまり使わないツールも自分で入れなきゃいけません。condaで入れると関連ツール全部入れてくれますが、バージョン指定しても最新版は入んなかった気がします。(入ってv2.4くらいまで)
なので遺伝研スパコンのsingularity経由とかで使うのが一番いいじゃないんでしょうか。
続いてrnaspades。
こちらは微生物ゲノムアセンブリのために作られたspadesをRNA-seq解析用にちょっといじったものらしいです。体感では(Trinityと比べると)かなり高速なうえに正確性もいい気がします。Trinityほどの信頼性は薄い?(感覚ですが)のでevidentialGeneとかcd-hit-estとかでアセンブリをマージすると丁度いいかもしれません。環境もいろんなところで動く印象があるので割と気に入ってます。
次にidba_tran。これは開発されたのがちょっと古くて、最近アップデートもあんまりないしで廃れてしまうのでは、と危惧していますが一番のお気に入りです。
まず高速かつ省エネ。これは計算資源が限られているバイオ系の研究者には一番重要です。Trinityも見習ってほしい。。。どんな環境でも動くうえに、正確性もそこそこなので是非使ってみて欲しいです。
loneknightpy/idba (github.com)
次にtrans-abyss。
Trans-ABySS | Genome Sciences Centre (bcgsc.ca)
これは超有名ゲノムアセンブリ用ツールのAbyssのRNA-seqバージョン。これはリファレンスの作成には正直あまりお勧めはしません。。。
冗長性を諦めてその分考え得る全てのコンティグを排出する、という印象なので(多分SOAP-denovo Transもそうだと思います)出来上がってくるコンティグの数がめちゃめちゃ増えます。
これは決して悪いことではなく、ゲノムがわかっている生物のタンパク質データベースの作成とかスプライシングのされかたとか見るのにはめちゃめちゃいいです。あと異なるk-merで作った複数のアセンブルをマージしてくれる機能がついているので、k-merによる影響を減らしたいときにはめちゃめちゃ便利。活躍する場面は多いとは思います。
最後にvelvet/Oases
これは正直どっちつかずという感じです。よくもないし、悪くもないし、ただちょっと古いのかなあ?というくらいでしょうか。
Velvet and Oases (transcriptome) - Bioinformatics in BioMed (google.com)
DNA-seqで昔メジャーだったツールなようで、今はあえて使う必要はないかもしれません。
以上、五つのRNA-seqアセンブリツールを紹介しましたが、最近では一つのアセンブリツールではなくていくつかのアセンブラーからの結果を統合(マージ)するツールも出てきてます。
オススメはEvidentialGene、Oyster River Protocol、Consembleの三つです。特にOyster River Protocolはセットアップから全て勝手にやってくれる上に、最近ではnatureの論文でも使われてきており、今結構熱いツールです。
次回紹介しようと思います。