DNAデータベース (DDBJ/EMBL/GenBank=INSD) 総覧と検索バージョン : DDBJ リリース 84.1 (2011-02-21)English page
DNAデータベースをプロジェクト単位で俯瞰、検索、分析、取得詳細 >>
トップ登録データ数の全容ダウンロードHELP

DNAデータベース(DDBJ/EMBL/GenBank=INSD)とは

DNAデータベース(DDBJ/EMBL/GenBank=INSD)は研究者からの登録によってできた世界共通の登録型DNA配列集です。
GenBank(米)とEMBL(欧)とDDBJ(日)の3極が連携分担して登録受付や登録番号発行などの業務を行っています。
3極間で表示形式に差がありますが、毎日データを交換しておりますので内容はほぼ同一で、バンク間のレコードの食い違いは最大1日分で、年4回のリリース間では同期しています。
INSDには科学論文投稿時に雑誌編集者から要求される論文関連登録が主体ですが、論文と無関係に永久記録と共有の為の登録も多く含まれています。
加えて現在は配列記載を含んだ全ての特許も日本国特許庁(JPO: Japan Patent Office)、欧州特許庁(EPO: European Patent Office)、米国特許商標庁(USPTO: United States Patent and Trademark Office)、韓国特許庁(KIPO: Korean Intellectual Property Office)から委託され配列部分を記録保管しています。
特許部分の更新は特許公開から特許庁によるDNAデータベース(DDBJ/EMBL/GenBank=INSD)への登録までタイムラグが数ヶ月生じています。
各国特許庁によりラグはまちまちです。最新の公開特許は未登録であることにご注意ください。

「DNAデータベース (DDBJ/EMBL/GenBank=INSD) 総覧と検索」は、このように作りました。

材料:
DDBJ リリース 84.1 (2011-02-21)
134,847,287件のINSDレコード
(注) daily update 分は含まれていません。
方法:
  1. INSDレコードを、登録の由来となった研究プロジェクト(例えば論文や出願などの)単位で処理することを意図して、
    'REFERENCE TITLE', 'REFERENCE JOURNAL'フィールドの記述の同一性によって束ねました。束ねられた一つの単位を"研究プロジェクト"と呼んでおります。
    フィールド記述中のクローン名などの流動的な語は無視しています。
    この"研究プロジェクト"という単位はDNAデータベース(DDBJ/EMBL/GenBank=INSD)で認められたものではありません。
  2. EST や GSS などの生物別ではないINSD(DDBJ)ディビジョンのINSDレコードが"研究プロジェクト"内で最も多い場合、該当のINSD(DDBJ)ディビジョンを研究プロジェクト型としました。
  3. 各研究プロジェクト中でのフィールドの埋まり具合や、いくつかのキーになる単語を頼りに研究プロジェクトの型別分類を行ないました。
    INSDレコードのmoltypeをチェック
    DNA circluarの判定はオルガネラの無い生物には当てはめません。
    mRNAトランスクリプトーム型
    その他RNA機能性RNA・RNAゲノム型
    DNA circluarオルガネラゲノム型
    DNA linear下の分類表へ
     INSDレコードのgene, product各々のバリエーションをチェック
    Major nameあり (研究プロジェクト内の10%以上)Major name無し
    gene,product各々のMajor nameが1種類多種類
    免疫に関連する記載がある嗅覚に関連する記載がある左以外
    INSDレコードの isolate or strain の記載が記載無し免疫遺伝子型嗅覚リセプター型遺伝子構造解析型ゲノム(マーカー)型
    1種類
    多種類民族・集団型
    project_class
例:
典型的なINSDレコードを右に示します。(架空のサンプルです)
赤破線:研究プロジェクト単位を決定するフィールド
オレンジ: mol type 記載部分
緑色: isolate, strain 記載部分
黄色: gene, product 記載部分
このレコードを含む研究プロジェクトはgene, productに免疫に関連する記載がありますので、
"免疫遺伝子型"に分類されます。
LOCUS       AB000000                 450 bp    DNA     linear   HUM 14-DEC-2007
DEFINITION  Homo sapiens IGHV3-h gene for immunoglobulin heavy chain variable
            region.
ACCESSION   AB000000
VERSION     AB000000.1
KEYWORDS    .
SOURCE      Homo sapiens
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 450)
  AUTHORS   Sarumata,F.
  TITLE     Direct Submission
  JOURNAL   Submitted (06-AUG-2007) to the DDBJ/EMBL/GenBank databases.
            Contact:Furuzou Sarumata
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2
  AUTHORS   Sarumata,F. Watanabe,K. Nurupo,G. and Hogehoge,K.
  TITLE     Immunoglobulin heavy-chain IGHV3-h gene expressed in blood
  JOURNAL   Mishimmunology 1000(1), 100-120(2007).
FEATURES             Location/Qualifiers
     source          1..450
                     /organism="Homo sapiens"
                     /chromosome="14q"
                     /strain="BALB/c-nu/nu"
                     /isolate="donor CG"
                     /mol_type="genomic DNA"
                     /clone="HO0001"
                     /cell_type="B-lymphocyte"
                     /tissue_type="blood"
                     /db_xref="taxon:9606"
     CDS             86..>450
                     /codon_start=1
                     /gene="IGHV3-h"
                     /allele="IGHV3-h"
                     /product="immunoglobulin heavy chain variable region"
                     /protein_id="AAA00000.1"
                     /transl_table=1
                     /translation="MAKIKIGINGFGRIGRLVARVALQSDDVELVAVNDPFITTDYMT
                     YMFKYDTVHGQWKHHEVKVKDSKTLLFGEKEVTVFGCRNPKEIPWGETSAEFVVEYTG
                     VFTDKDKAVAQLKGGAKKV"
BASE COUNT          102 a          119 c          131 g           98 t
ORIGIN
        1 cccacgcgtc cggtcgcatc gcacttgtag ctctcgaccc ccgcatctca tccctcctct
       61 cgcttagttc agatcgaaat cgcaaatggc gaagattaag atcgggatca atgggttcgg
      121 gaggatcggg aggctcgtgg ccagggtggc cctgcagagc gacgacgtcg agctcgtcgc
      181 cgtcaacgac cccttcatca ccaccgacta catgacatac atgttcaagt atgacactgt
      241 gcacggccag tggaagcatc atgaggttaa ggtgaaggac tccaagaccc ttctcttcgg
      301 tgagaaggag gtcaccgtgt tcggctgcag gaaccctaag gagatcccat ggggtgagac
      361 tagcgctgag tttgttgtgg agtacactgg tgttttcact gacaaggaca aggccgttgc
      421 tcaacttaag ggtggtgcta agaaggtctg
//

DNAデータベース (DDBJ/EMBL/GenBank=INSD) 総覧と検索 が利用している外部サービス

このサービス ( DNAデータベース (DDBJ/EMBL/GenBank=INSD) 総覧と検索 ) は以下の公共サービス事業を利用して提供しています。
●DDBJに対する配列検索は文部科学省DDBJ事業で提供している相同性検索サービス(BLAST)を利用しています。http://www.ddbj.nig.ac.jp
 相同性検索サービス(BLAST)のAPIはDDBJ菅原教授らが文部科学省BIRD事業で開発公開しているサービスです。http://xml.nig.ac.jp/index_jp.html
●配列を含む特許の申請内容の閲覧には特許電子図書館((独)工業所有権・研修館)へ案内しています。http://www6.ipdl.inpit.go.jp/homepg.ipdl
●生物学名日本語一般名対応辞書を利用して和名表記を実現しています。 (S.Kawamoto et al. in DBCLS for LSDB of MEXT)
生物学名日本語一般名対応辞書, Copyright(c) 2009 ライフサイエンス統合データベースセンター licensed by CC 表示 2.1 日本
●生物アイコンを利用して生物種の表記に利用しています。
生物アイコン, Copyright(c) 2009 ライフサイエンス統合データベースセンター licensed by CC 表示 2.1 日本

指摘の依頼

不自然な点やおかしな点などに気付かれた際にはご指摘下さい。お手数ですがお願い致します。
2008-04 Kousaku Okubo, Kouji Watanabe, Eisuke Kurihara and Takayasu Iizuka