NCBIなどからは、ゲノム毎の塩基配列やゲノム上に同定されたコーディング領域に関するアミノ酸配列およびそれらに関する注釈を記述した、GenBank形式、EMBL形式ファイルをダウンロードすることができます。
これらのゲノム配列をより検索しやすい形式に変換した、GBFF形式、GBFF形式のファイルも提供されています。
さらに、SuperKingdom毎にも、GBFF,GBFF形式のファイルを入手することができます。
現在では、ダウンロードできるゲノム数は膨大な数になっており、近縁種のアノテーションする場合以外はゲノム別のファイルを利用することはあまり効率的ではありません。
SuperKingdom別にまとめたファイル数はゲノム別に取り扱うよりも少ないファイル数となるため、検索するSuperKingdomを決めれば、そのSuperKingdomのファイルだけをデータベース生成するだけで済むことになります。