ゲノムアノテーション
ゲノムアノテーションとは、ゲノムに注釈を加えることですが、より具体的には、ゲノム配列上に同定された特徴(Feature)の属性(Qualifier)を記述することです。
Featureの種類はFeature Key として分類されます。Featureの位置はPositionとして記録されます。ゲノム塩基配列上のPositionによって、そのFeatureが占める塩基配列が判ります。また、アミノ酸に翻訳されるコーディング領域(CDS)は、翻訳されたアミノ酸配列情報をGenetic Code Tableを介して間接的に保有することになります。CDSのようなフィーチャーは二重らせんのどちら側に特定されるかも重要で、通常はComplementという位置演算子を使って表記されています。
サブカテゴリ
アノテーションを実行するには注釈が付加された塩基配列あるいはアミノ酸配列のデータベースを作成する必要があります。
IMCには、ゲノム配列をロードしただけで自動的にBlast検索用データベースを生成する機能があります。
この機能は、近縁種の未知ゲノムにアノテーションをするために使用することができます。
大規模なデータベースを生成する機能も実装されています。
CreateDB機能は、NCBIなどからダウンロードできるSuperKingdom別のファイルを使用して、ローカルBlast検索用データベースを生成します。
検索用データベースは、核酸配列とアミノ酸配列のいずれのデータベースも生成できます。
これらのファイルは非常にサイズが大きく、かつ多数あります。検索する場合は、多数の生成されたデータベースをジョインして一つのデータベース名として使用できます。
データベースを外部サーバ上に構築し、ネット経由で検索できるようにすることも可能です。
ゲノムアノテーションを行うためのツール群です。
主として、以下のソフトウェアが使用されます。
多くのソフトウェアは、Linux上で動作するため、Windowsで利用する際には、外部サーバなどを用います。
また、WindowsのLinuxエミュレータを使用することにより、Windows PCローカル環境でも利用することができます。
- CDS同定用ソフトウェア
- tRNA同定用ソフトウェア
- rRNA同定用ソフトウェア
- モティーフ同定ソフトウェア
- その他
ゲノムアノテーションを全自動で行う機能です。
アノテーションを行うゲノム塩基配列を登録すると、そのゲノム配列へのアノテーションを全自動で行います。
実行前に使用する同定ソフトウェアや使用する配列データベースを選択することができます。
ゲノムアノテーション処理は計算量が多く、長時間がかかる場合が多いため、外部サーバ上でこれを実行し、結果を得ることが広く行われています。
また、ゲノムアノテーションに使用される遺伝子同定ソフトウェアはLinux上で動作するように開発されたものが多く、Windowsでは実行できない場合があります。
このような場合にも、外部Linuxサーバ上にそれらのソフトウェアをインストールしておき、アノテーションを行うメリットがあります。
MacOSXは、Linuxベースであるため、それらの同定ソフトウェアはMacのローカル環境でそのまま動作するものが多くなっています。
しかし、この場合も手動アノテーションを並行で行う際には、手動操作が遅くなるおそれがあり、Macの場合でも外部サーバ上でアノテーションを行うメリットがあります。
IMCでは、外部サーバ上にアノテーション用データベースを作成する機能があり、簡単にサーバ上に検索データベースを生成することができます。
IMCに搭載されたアノテーション用の機能を使用して 手動アノテーション を行うことができます。
IMCには以下のようなアノテーションツールが用意されています。
- Annotation Viewer-Editor Window
- Description Editor Window
- Sequence Viewer
- フィーチャー への 連番付加機能
- 不要なフィーチャー・Qualifier の除去機能
- フィーチャー演算子
- バッチホモロジー検索機能
- その他
検索結果として絞り込まれたフィーチャーへの連番を付加することできます。
各フィーチャーがもつQualifierの1つを選択し、その値として連番が付加されます。
具体的には、フィーチャーキー検索、キーワード検索、ゲノム統計情報の各検索結果画面から操作できます。
また、カレントメインディレクトリ上にあり、選択された複数のゲノム配列上のフィーチャーへ統一された連番を付加することができます。
アノテーション実行中は多くの情報を参照して、特殊なフィーチャーやQualifierを使用することがあります。
また、命名や連番付加もアノテーション途中では一時的なものを使用使用せざる得ないことが多くなります。
しかし、アノテーションが終了すると、上記の情報の多くは不必要となり、かつ投稿する際には、エラーとなるものもあります。
IMCでは、アノテーションが終了した段階で、アノテーション結果を整理し、精製する機能をもっています。
以下にその主なものを挙げます。
- DDBJ大量塩基配列登録用ファイル生成機能
- フィーチャーへの連番付加機能
- 注釈dbxrefリンク付加機能
- Feature/Qualifierの除去機能
- フィーチャー演算子
- その他