コンテンツに飛ぶ | ナビゲーションに飛ぶ

生物学辞書の構築 (Building Dictionary for Life Science)
 
セクション
パーソナルツール
現在位置: ホーム 短期目標

短期目標

このプロジェクトが、目前で目指すべき目標とその進捗について

 

試行:自然言語形式の辞書の構築

現在までに収集してきたデータは、情報源の構造の影響を強く受けており、それぞれで異なる形式で保存されています。

このままでは、データを活用しようとした時、それぞれのデータ構造の理解から始めなければならないため、可用性が高いとは言えません。

可用性を高めるための試みとして、自然言語形式による辞書を作成します。

具体的には以下の例のように、英文として読める形に収録します。

例)"(1-49)-CCK58" is "DE_AltName_FULL" for "CCKN_HUMAN" in "uniprot_sprot" version "15.0"

この形式の利点は以下の通りです。

  • データ構造に対する予備知識が無くても、そのまま英文として読むことにより、意味が理解
  • 情報源の構造に関わらず、同様の形式に変換できるため、異なるデータを1つに纏めることができる。

ただし、付帯状況がついている語を収録しようとすると、新しい属性を追加するか、複数行で表現しなければ、適切な意味の保存が行えないといった問題も考えられます。

他にもまだまだ問題が潜んでいるかもしれませんが、既存のデータを上記のような形式にしてみることを試みます。

 

取り扱いデータの拡充

無脊椎動物のデータが不足しているため、無脊椎動物のデータを拡充します。

ドキュメントアクション