短期目標
このプロジェクトが、目前で目指すべき目標とその進捗について
試行:自然言語形式の辞書の構築
現在までに収集してきたデータは、情報源の構造の影響を強く受けており、それぞれで異なる形式で保存されています。
このままでは、データを活用しようとした時、それぞれのデータ構造の理解から始めなければならないため、可用性が高いとは言えません。
可用性を高めるための試みとして、自然言語形式による辞書を作成します。
具体的には以下の例のように、英文として読める形に収録します。
例)"(1-49)-CCK58" is "DE_AltName_FULL" for "CCKN_HUMAN" in "uniprot_sprot" version "15.0"
この形式の利点は以下の通りです。
- データ構造に対する予備知識が無くても、そのまま英文として読むことにより、意味が理解
- 情報源の構造に関わらず、同様の形式に変換できるため、異なるデータを1つに纏めることができる。
ただし、付帯状況がついている語を収録しようとすると、新しい属性を追加するか、複数行で表現しなければ、適切な意味の保存が行えないといった問題も考えられます。
他にもまだまだ問題が潜んでいるかもしれませんが、既存のデータを上記のような形式にしてみることを試みます。
取り扱いデータの拡充
無脊椎動物のデータが不足しているため、無脊椎動物のデータを拡充します。

