コンテンツに飛ぶ | ナビゲーションに飛ぶ

生物学辞書の構築 (Building Dictionary for Life Science)
 
セクション
パーソナルツール
現在位置: ホーム 構築作業

構築作業

「生物学辞書の構築」の構築作業の概要

 

作業概要

辞書構築の作業は、大きく分けて4つの段階があります。

  1. 情報源の選定
  2. 文書の電子化
  3. データベース化
  4. 辞書の共有化

 

情報源の選定

選定の基準は、プロジェクトの進行とともに少しづつ改善を行っています。

 

変遷は以下のとおりです。

I. 情報の量を充実させることを優先し、大量の用語を収集する


II. 学問分野ごとに学会などが公式に選定したものや、広く普及している用語を網羅する


III.  IIの方針とともに、複数の情報源から重複して収集することにより、データに厚みを持たせる

 

個別の選定過程は、和名生物名辞書プロジェクトに詳細が記載されています。

 

文書の電子化

書籍などの印刷された情報源は、コンピューター上で扱うために電子化する必要があります。

この過程はOCRソフトで読みとれば終わりといった単純な作業ではなく、地道でかつ多大な労力を必要とします。

詳細は、難点、苦労に記載されています。

 

データベース化

電子化されたデータをリレーショナルデータベース(RDB)に格納します。1件のデータが持っている情報は情報源によって異なります。

そこで、RDBのテーブル構成では、これらの違いを抽象化することにより、全てのデータを格納できるようにしています。

データ構造

テーブル定義SQL

source_table 情報源を管理するテーブル
  source_id 内部管理用の ID
  source_distributor 情報を配布している機関の名前
  source_title 情報源の名前
  source_version 情報源の版
  registered_date 登録日時
  source_priority_value ※まだ未使用
 
source_metainfo_table 情報源のメタ情報を管理するテーブル
  source_metainfo_id 内部管理用の ID
  source_metainfo_serno その情報源に於けるメタ情報の通し番号 (メタ情報に名称が記載されているとは限らないから。例えば出版日とか。)
  source_metainfo_heading 情報源に記載されていた通りの見出し文字列
  source_metainfo_value 情報源に記載されていた通りの記載内容
  source_segment_heading 情報源の中の部分集合を表わす見出し文字列
  source_segment_inverted 自然言語の形式で出力する時の表示列を情報源の名前の列と逆転する事を示す印
  source_id  
  registered_date 登録日時
 
source_workingnote_table 情報源からの収集作業に関するメタ情報を管理するテーブル
  source_workingnote_id 内部管理用の ID
  source_workingnote_name 収集作業に関するメタ情報の名前
  source_workingnote_value 収集作業に関するメタ情報の内容
 
source_vs_source_category_table ※まだ未使用
 
source_category_table ※まだ未使用
 
record_table 情報源に掲載されていた一件分の情報の纏まりを表わすテーブル
  record_id 内部管理用の ID
  record_serno 個々の情報源に於ける行の通し番号
  source_id  
  registered_date 登録日時
 
record_name_table 情報源に掲載されていた一件分の情報の纏まりを識別する為のラベル文字列を管理するテーブル
  record_name_id 内部管理用の ID
  record_id  
  record_name 行を識別できる名前
  registered_date 登録日時
 
field_table 情報源に記載されていた一列分の列の情報を管理するテーブル
  field_id 内部管理用の ID
  field_serno 個々の情報源に於ける列の通し番号 (列の順序が重要になる可能性もあるから)
  field_heading 情報源に記載されていた通りの見出し文字列
  is_neoterized 造語された列名である事を示すフラグ
  invisible 自然言語に整形する際に非表示にする事を示すフラグ
  source_id  
  registered_date 登録日時
 
vocable_table 記載内容が指し示す意味を解釈せずに単純な文字の並びと見做した場合の記載内容を管理するテーブル
  vocable_id 内部管理用の ID
  vocable_value 記載内容が指し示す意味を解釈せずに単純な文字の並びと見做した場合の記載内容
  record_id 情報源に記載されていた際の一行分の纏まりを特定する為の ID
  field_id  
  registered_date 登録日時
 
field_rel_table 情報源に記載されていた列同士の内で二列間の関係性の情報を管理するテーブル
  field_rel_id 内部管理用の ID
  field_1_id  
  field_2_id  
  field_rel_type 二列間の関係性の種類 (例: "merged" 「列 1 が、列 2 その他の列を結合している」とか ?)
  registered_date 登録日時
 
field_vs_field_metainfo_table ※まだ未使用
 
field_metainfo_table ※まだ未使用

このテーブル構成は、確定しているものではなく暫定であり、問題が起きるたびに変更しています。

RDBに格納するための書式も別途存在しており、それを「内部標準書式」と呼んでいます。

内部標準書式の詳細は、内部標準書式データの関係データベース内部標準書式の詳細に記載されています。

 

辞書の共有化

共有化している辞書は、自然言語による前提知識不要で読みとることができる形式にしています。

 

この形式を現在では「ナンセンス・フォーマット」と呼んでいます。

具体的には以下の例のように、英文として読める形に収録します。

例)"(1-49)-CCK58" is "DE_AltName_FULL" for "CCKN_HUMAN" in "uniprot_sprot" version "15.0"

 

この形式を採用した理由は、難点、苦労に記載されています。

共有化している「メタ学術用語集」についての解説や著作権問題についてはこちらをご覧ください。

ダウンロードはこちらのページからも行えます。

ドキュメントアクション