Personal tools
You are here: Home I. DB整備戦略のための研究俯瞰提供サイト
Document Actions

I. DB整備戦略のための研究俯瞰提供サイト

by admin last modified 2007-03-25 06:02

応用分野に有効に情報を提供する戦略は思い込みのひとりよがりではいけません。基礎生命・情報・医学・創薬・育種など異なる領域の専門家および関係省庁の担当者に生命科学DB構築者を加えた運営委員会で戦略は議論されます。同会議に分野俯瞰を継続提供するために下記の開発および調査を行いました。 


1. 学会要旨統合サイト(国内研究俯瞰) 要旨非公開版

kuhara.png日本の研究俯瞰の重要な情報源として各種学会の過去の抄録を統合し、検索や、施設別やテーマ別の再編成が可能なDB化をはじめました。今後学協会数を増やし手作業で公開データベースへのリンク付も計画しています。今年度は分子生物学会8年分要旨を打ち込み、施設名称など基本的な用語の統一を行いました。学会数を増やし、本文への索引付けで充実させる計画です。運営委用内部資料目的ですが我が国の研究活動の資料として産業界や市民からの要望があれば学協会にお願いして一般公開への努力をしたいと思います。JSTが提供するJ-STAGEサービスは、全学術分野を浅く平等に扱うものです。
concord.pngこの抄録DB化は「国内の研究内容につき日本語の良質な文書の流通が少ないことが科学の蛸壺化と国民の科学離れの一因」という分析を受けた「日本語死蔵文書の掘り出し」にむけてのひとつの取り組みです。今後学会数を増やし研究者が書いた各種報告書などの死蔵されている良質な和文書の集積とオープンアクセス化にも取り組む考えです。
●研究施設名称辞書 ●生物学名日本語一般名対応辞書 が使われています。
運営委員・評価委員用サーバ 【要旨無制限開示】
メイルでお知らせしたパスワードでお使いください。


2. データバンク統合目次(分子研究俯瞰)

分子DBは索引はあるが目次のない本のようです。分子レベルの生物学研究の俯瞰の提供を目的として各種データバンク内容を目次的に表現しようと試みています。またデータの利用機会はバンクの書式について熟知した一部の研究者と一般の研究者で大きな差があるようです。 データバンクの内容につきバンクを区別せず自在に一次データを引き出し利用していただくことにも役立つと考えています。今年度はINSDCとGEOについて総合データ目次を作成しある程度データ内容について質的な表現をおこないました。

1. DNAバンク(INSDC) 目次

INSDC.pngDNA配列読み取りをおこなった論文では論文投稿時に国際DNA配列協力(INSDC)へのDNA配列の登録が義務付けられています。 従って数重塩基の配列から完全なヒト染色体まで科学論文で新規に報告されたDNA配列は全てINSDCに登録されているはずです。 DNAバンク目次は配列登録にいたった研究の目次的な表現です。

2. 遺伝子発現バンク (GEO) 目次

geo.pngNCBIが提供するGEO(GeneExpressionOminbus)はマイクロアレイやSAGEなど(遺伝子、サンプル、値)の三つ組みデータ一般に対するデータバンクです。進展の早い実験領域の1次データバンクは得てして利用者には難解です。少しでもデータが利用しやすいようにデータの整理パイプラインを作成しDNAバンク同様の目次をつくりました。 まだこれからの部分が多いですがどんな生物のどんな実験データが登録されて利用可能なのか目次でご覧いただけます。
●遺伝子名称シソーラス、●生物学名日本語一般名対応辞書●動植物解剖学自動分類タガー、●都市名国名自動検出タガー、が使われています。


3. 戦略立案資料(報告)

統合データベース間の連係と課題の整理

代表的モデル研究植物であり、全ゲノム塩基配列が決定済みである「イネ」ならびに「シロイヌナズナ」のゲノムアノテーション型公開データベース(それぞれ 46, 25 DB)の基本項目を調査しました。

同時に、主として実験生物系のデータベースのユーザを対象に「これらのデータベースのなかでよく利用するサイトはどこか」「複数サイトを利用する場合に困っている点はないか」など、聴き取り調査と郵送によるアンケート調査を (全188名を対象に) 実施しました。これによって、主として実験の現場でデータベースを活用している研究者が抱いているゲノムベースのデータベースの連係に関する現状の課題と、将来のデータベース統合にむけた要望を調べ上げました。

調査結果から、データベースのよりよい統合化は、以下のような比較的多数のユーザが抱く不満を解消する方向で行うべきであることを読み取ることができます。

  • DB作成の時間差や異なる収集方針による遺伝子名やIDの相違が多く混乱の元になっている。これを吸収したり関連付ける基盤サービスが必要
  • 論文掲載情報やユーザからのフィードバックが直ちに反映されないことへの不満も大きい
  • 誤りの多さを不満とする声がある一方、仮想遺伝子にもなんらかのヒントが欲しいという要望も多い。提供するデータの分類や格付はできないか
  • 植物の分子の研究に於いては、頻繁に生物種横断的な検索や比較を行う。そのような情報が取得ができるサイトがない

反面、個別に現状のデータベースをみた場合の使いやすさや内容の充実度に関しては約半数が肯定的であり、将来の統合化データベースの作成にあたっては、現在利用頻度の高い個々のデータベースが保持している有用な情報を活かしつつ、齟齬を解消し連係させる形での統合化を考えていくべきであると考えられます。

調査報告書は数百ページに及ぶ大規模なものとなりましたが、オンラインでの閲覧に適した形での報告書の概要を抽出したサイトを用意いたしましたので、ぜひご覧ください。


図2. 調査報告書の概要

以上の調査結果を受けて、現在、統合データベースのあるべき将来像を整理し文章化するとともに、どのようなデータベース統合が望まれているのかを具体的な形で提示すべく、植物における統合型データベースのプロトタイプ作成にとりかかっています。


Powered by Plone CMS, the Open Source Content Management System

This site conforms to the following standards: