ゲノム解析ソフトウェア技術情報サイト

インシリコバイオロジー株式会社 公式技術情報サイト

機能メニュー

ようこそ, ゲスト
ユーザ名: パスワード: シークレットキー 自動ログイン
  • ページ:
  • 1

トピック:

RNA-seq mapping on genome sequence data 13 年 6 ヶ月 前 #474

GTを初めて使っていて、その計算時間について教えて頂きたいのです。SOLiD 5500でRNA-seqのデータを取り、アセンブル済みの塩基配列にmappingを試みています。
とりあえず、1条件のデータ(csfasta)、約1.4 Gbを、scaffoldデータ (270 files, total 35 Mb)に貼り付けています。

金曜日から始めて、3日目ですが、"chromosome mapping"がやっと9%でした。
この先、どの程度かかるのか、少し心配になっています。目安を教えて頂けると助かります。


OSはWindows 7 SP1、Dell Vostro430、Intel Core i5 CPU 2.67 GHz, 実装メモリ 8.0 Gです。
あまり速いスペックではないのですが、このスペックでとても無理であれば、他のシステムの使用を考えます。

また、もし、SAM、BAMを他のLinuxなどで終わらせておき、読み込んだ方が早いでしょうか?

最終的には、塩基ごとのdepthを出力し、アレイのように、遺伝子ごとのdepthへと計算したいのです。
塩基ごとのdepthからの計算は、perlでできるのですが、まずは塩基ごとのdepthまでを、御社のシステムで実行したいと思っています。

ログイン は対話に参加してください。

Summary of the answers by mails 13 年 6 ヶ月 前 #475

別途お送りしたメールでの回答をまとめます。

そのスペックのマシンでは、通常24時間程度かかると予想されます。従って、3日かかってもその程度しか進まないのは、明らかに何か問題があります。このような場合は、実行中のマッピングジョブを一旦キャンセルし、以下の設定を変更してから再度マッピング実行をお勧めします。

マッピングが遅くなる原因と対策:
1.NGS入力データおよび結果出力先がネットワーク上のディスクである場合はネットワーク上での転送速度が遅いため、ローカルのディスクを利用する場合に比べてかなり遅くなります。なるべくローカルディスクを利用することを推奨します。ディスクをSSDにすること、USB3.0とすることなどによっても速度は向上します。
2.レファレンスゲノムをスプリットせずにそのままマッピングすると、個々の結果ファイルが大きくなるため、その入出力に時間がかかります。レファレンスゲノム塩基配列をSplit機能を使用して等間隔に分断したものにマッピングすることにより、速度が向上します。目安としては、1個のスプリット断片にマッピングされるRead数が100,000個以下になるようにします。
3.マッピング中にログ情報を記録していますが、この設定をMaximumからMinimumに設定することにより、若干速度が向上します。
4.マッピングできなかったSingletを保存しない設定にすると、若干速度が向上します。

なお、GTはアラインメント部分がマルチスレッド対応になっていませんが、近日中にマルチスレッド対応する予定です。
また、GTのバグで、現在使用したメモリーがクリアできない問題があり、連続して複数のマッピングを行うと2回目移行の実行でメモリー使用量が増加する可能性があります。このバグが解決されるまでは、マッピングを実行後、一度GTを再起動する必要があります。

ログイン は対話に参加してください。

最終編集: : akr-sp-1212728882.
  • ページ:
  • 1
ページ作成時間: 0.035 秒

Site Seal

最新更新記事