DNAデータベース (DDBJ/EMBL/GenBank=INSD) 総覧と検索バージョン : DDBJ リリース 84.1 (2011-02-21)English page
DNAデータベースをプロジェクト単位で俯瞰、検索、分析、取得詳細 >>
トップ登録データ数の全容ダウンロードHELP

データのダウンロード

DNAデータベース総覧データ

data_table_ddbj_rel84.1.txt.tar.gz
  • 最終更新日時: 2011-04-17 08:47
  • ファイルサイズ: 630,546,460 bytes
  • MD5: a8a2710751ab6a441549b92c454c52f4
  • レコード数: 134,847,287
過去のダウンロードデータの誤りと訂正について詳細 >>

テキストデータをGNU ZIP形式で圧縮しています。

各行は、1件のINSDレコードの情報を表わしています。各行はタブ文字を区切り文字として、14個の字句から成り立っています。各字句の意味は次の通りです。
  1. Accession番号です。
  2. 配列長です。LOCUS行に記されている値と同じです。
  3. 生物種(NCBI Taxonomy ID)です。ORGANISM行に記されている生物種名からNCBI Taxonomy IDを特定できた場合は、そのIDです。それ以外の場合は、文字列「\N」です。
  4. 生物種(生物種名)です。ORGANISM行に記されている生物種名からNCBI Taxonomy IDを特定できなかった場合は、ORGANISM行に記されている生物種名を記述しています。それ以外の場合は、文字列「\N」です。
  5. INSD(DDBJ)ディビジョンです。取り得る値とその意味は次の通りです。
    1. 従来の由来生物種またはサンプルに基づいた分類
      hum
      ヒトの配列データ。
      pri
      霊長類(ヒトを除く)の配列データ。
      rod
      齧歯類の配列データ。
      mam
      哺乳類(ヒト、霊長類、齧歯類を除く)の配列データ。
      vrt
      脊椎動物(ヒト、霊長類、齧歯類、哺乳類を除く)の配列データ。
      inv
      無脊椎動物の配列データ。
      pln
      植物・真菌類などの配列データ。
      bct
      バクテリアの配列データ。
      vrl
      ウイルスの配列データ。
      phg
      バクテリオファージの配列データ。
      syn
      合成配列の配列データ。
      env
      PCR、DGGE、あるいは、その他の方法で直接、分子を単離した環境上のサンプルに由来した配列。
    2. 研究目的または特許に基づいた分類
      est
      expressed sequence tags
      short single passのcDNA配列データ。
      gss
      genome survey sequences short single passのゲノム配列データ。
      sts
      sequence tagged sites
      ゲノムシーケンシングのタグとなる配列データ。
      htc
      high throughput cDNA sequences
      EST以外の大規模cDNA配列プロジェクトに由来し、更新が期待される配列データ。
      htg
      high throughput genomic sequences
      ゲノムプロジェクトに由来し、頻繁に更新が期待される配列データ。
      tsa
      transcriptome shotgun assemblies
      再構成された (assembled) mRNA 配列データ。
      una
      未注釈の配列データ。
      con
      Contig / Constructed
      ゲノムプロジェクトのように個々に登録された一連の配列データをDNAデータベース(DDBJ/EMBL/GenBank=INSD)側が結合し、1つのAccession番号を付与した長大なデータ。
      CONディビジョンに格納されるレコードには長大な配列を構成する配列のAccession番号が記載され、塩基配列は記載されません。
      また、すでに登録されている個々のデータのレコードは、他のディビジョンに保存されています。
      塩基長の統計を取る際にはこのディビジョンのレコードを除く必要があります。
      pat
      特許庁(JPO: Japan Patent Office)/EPO(European Patent Office)/USPTO(United States Patent and Trademark Office)/KIPO(Korean Intellectual Property Office)に登録された塩基配列データ。
  6. 登録先バンクです。
    • DDBJ
    • EMBL
    • GenBank
  7. NCBI 生物郡区分です。
    HUM
    ヒト
    PRI
    霊長類(ヒトを除く)
    ROD
    齧歯類
    MAM
    哺乳類(ヒト、霊長類、齧歯類を除く)
    VRT
    脊椎動物(ヒト、霊長類、齧歯類、哺乳類を除く)
    INV
    無脊椎動物
    PLN
    植物・真菌類など
    BCT
    バクテリア
    VRL
    ウイルス
    PHG
    バクテリオファージ
    SYN
    合成配列
    ENV
    環境に由来するサンプル(Environmental samples)
    UNA
    未分類(Unassigned)
    ---
    分類不能(該当生物種がNCBI Taxonomy DBに存在しない)
  8. 生物郡区分です。
    HUM
    ヒト
    PRI
    霊長類(ヒトを除く)
    ROD
    齧歯類
    MAM
    哺乳類(ヒト、霊長類、齧歯類を除く)
    VRT
    脊椎動物(ヒト、霊長類、齧歯類、哺乳類を除く)
    INV
    無脊椎動物
    PLN
    植物・真菌類など
    BCT
    バクテリア
    VRL
    ウイルス
    PHG
    バクテリオファージ
    SYN
    合成配列
    ENV
    環境に由来するサンプル(Environmental samples)
    UNA
    未分類(Unassigned)
  9. 登録元の国の国名コード(ISO 3166-1-alpha-2 code)または特許庁です。登録元の国を特定できなかった場合は文字列「---」、国名コードを公式に割り当てられていない場合は国名になります。
  10. 登録元の国の地域です。
    asia-paci
    アジア、大洋州
    europe
    欧州
    n-america
    北米
    latin
    中南米
    middle_e
    中東
    africa
    アフリカ
    other
    その他の地域
    Patent_Office
    特許庁
  11. 研究の型別分類です。取り得る値とその意味は次の通りです。
    Transcriptome
    トランスクリプトーム型
    fRNA
    機能性RNA・RNAゲノム型
    Hypervariation
    免疫遺伝子型
    Olfact
    嗅覚リセプター型
    GenomeMrk
    ゲノム(マーカー)型
    GeneStrct
    遺伝子構造解析型
    Polymorphism
    民族・集団型
    Organelle
    オルガネラゲノム型
    est
    EST 型
    gss
    GSS 型
    sts
    STS 型
    htc
    HTC 型
    htg
    HTG 型
    tsa
    TSA 型
    una
    UNA 型
    con
    CON 型
    pat
    特許型
    other
    その他
  12. DNAデータベース総覧で独自に設定した研究プロジェクト単位のIDです。INSDレコードを登録の由来となった研究プロジェクト(例えば論文や出願など)単位として'REFERENCE TITLE'、'REFERENCE JOURNAL'のフィールド記述の同一性によって束ねました。フィールド記述中のクローン名などのhyper variableなwordは無視しています。
  13. 初めて公開したDDBJのリリース番号です。
  14. 推定される最初のバンク登録日です。YYYYMMDDという書式です。
データの例(一行分)
AB000100	2992	1131	\N	bct	DDBJ	BCT	BCT	JP	asia-paci	GeneStrct	1	30	19961226

DNAデータベース総覧データの使用例

各大陸の登録推移を見る
Continent_Submissions_to_DDBJ_EMBL_GenBank_1987-2011_r84.1.tar.gz

登録元の国の地域毎に、レコード数の年変動を表わすグラフを作成できます。レコード数と同様に、塩基長やプロジェクト数の年変動グラフも作成できます。作成方法は次の通りです。

  1. DNAデータベース総覧データをデータベースに保存した場合の例を示します。テーブル名をdata_table_ddbjと記すことにして、またAccession番号を表わす第1カラム名をaccession、登録先バンク名を表わす第6カラム名をbank、登録元の国の地域を表わす第10カラム名をcontinent、初めて公開したDDBJのリリース番号を表わす第13カラム名をreleaseと記すことにします。
  2. 次のようなSQL文を実行することでデータを作成できます。
    SELECT COUNT(accession), bank, continent, release
     FROM data_table_ddbj
     GROUP BY bank, continent, release
  3. DDBJのリリース情報の8. Release historyを参考にして、リリース番号を日付に変換します。

配列長を求める場合には、INSD(DDBJ)ディビジョンを表わす第5カラムの値が「con」の行を除いて計算してください。

各国の登録推移を見る
Submissions_to_DDBJ_EMBL_GenBank_1987-2011_r84.1.tar.gz

登録元の国毎に、レコード数の年変動を表すグラフを作成できます。レコード数と同様に、塩基長やプロジェクト数の年変動グラフも作成できます。作成方法は次の通りです。

  1. DNAデータベース総覧データをデータベースに保存した場合の例を示します。テーブル名をdata_table_ddbjと記すことにして、またAccession番号を表わす第1カラム名をaccession、登録先バンク名を表わす第6カラム名をbank、登録元の国名を表わす第9カラム名をcountry_code、初めて公開したDDBJのリリース番号を表わす第13カラム名をreleaseと記すことにします。
  2. 次のようなSQL文を実行することでデータを作成できます。
    SELECT COUNT(accession), bank, country_code, release
     FROM data_table_ddbj
     GROUP BY bank, country_code, release
  3. DDBJのリリース情報の8. Release historyを参考にして、リリース番号を日付に変換します。

配列長を求める場合には、INSD(DDBJ)ディビジョンを表わす第5カラムの値が「con」の行を除いて計算してください。

アジア諸国に注目した登録推移を見る
Specific_Asia_Submissions_to_DDBJ_EMBL_GenBank_1987-2011_r84.1.tar.gz

登録元の国毎に、レコード数の年変動を表わすグラフを作成できます。レコード数と同様に、塩基長やプロジェクト数の年変動グラフも作成できます。作成方法は次の通りです。

  1. DNAデータベース総覧データをデータベースに保存した場合の例を示します。テーブル名をdata_table_ddbjと記すことにして、またAccession番号を表わす第1カラム名をaccession、、登録先バンク名を表わす第6カラム名をbank、登録元の国名を表わす第9カラム名をcountry_code、登録元の国の地域を表わす第10カラム名をcontinent、初めて公開したDDBJのリリース番号を表わす第13カラム名をreleaseと記すことにします。
  2. 次のようなSQL文を実行することでデータを作成できます。
    SELECT COUNT(accession), bank,
     CASE country_code WHEN 'JP' THEN 'JP' WHEN 'CN' THEN 'CN' WHEN 'KR' THEN 'KR' ELSE 'asia-paci(withoutJCK)' END AS countrycode,
     release
     FROM data_table_ddbj
     WHERE continent = 'asia-paci'
     GROUP BY bank, countrycode, release
  3. DDBJのリリース情報の8. Release historyを参考にして、リリース番号を日付に変換します。

配列長を求める場合には、INSD(DDBJ)ディビジョンを表わす第5カラムの値が「con」の行を除いて計算してください。

INSD(DDBJ)ディビジョン単位で各国の登録推移を見る
Division_vs_Country_DDBJ_EMBL_GenBank_1987-2011_r84.1.tar.gz

INSD(DDBJ)ディビジョン単位で、登録元の国毎に、レコード数の年変動を表すグラフを作成できます。レコード数と同様に、塩基長やプロジェクト数の年変動グラフも作成できます。作成方法は次の通りです。

  1. DNAデータベース総覧データをデータベースに保存した場合の例を示します。テーブル名をdata_table_ddbjと記すことにして、またAccession番号を表わす第1カラム名をaccession、INSD(DDBJ)ディビジョンを表わす第5カラム名をddbj_div、登録先バンク名を表わす第6カラム名をbank、登録元の国名を表わす第9カラム名をcountry_code、初めて公開したDDBJのリリース番号を表わす第13カラム名をreleaseと記すことにします。
  2. 次のようなSQL文を実行することでデータを作成できます。
    SELECT COUNT(accession), ddbj_div, country_code, release
     FROM data_table_ddbj
     GROUP BY bank, country_code, release
  3. DDBJのリリース情報の8. Release historyを参考にして、リリース番号を日付に変換します。

配列長を求める場合には、INSD(DDBJ)ディビジョンを表わす第5カラムの値が「con」の行を除いて計算してください。

Accession番号と特許公報番号の対応表

accession2patent_ddbj_rel84.1.txt.gz
  • 最終更新日時: 2011-04-16 20:03
  • ファイルサイズ: 48,583,051 bytes
  • MD5: 6755429ad5a2015169f95c683213430a

テキストデータをGNU ZIP形式で圧縮しています。

Accession番号と特許公報番号の対応を表しています。対応関係はN:N対応となっており、重複するIDの対応関係は複数行で表現しています。
各行はタブ文字を区切り文字として、2個の字句から成り立っています。各字句の意味は次の通りです。
  1. Accession番号です。
  2. 特許公報番号です。
データの例(一行分)
AB003693	US5589355-A