構築作業
「生物学辞書の構築」の構築作業の概要
作業概要
辞書構築の作業は、大きく分けて4つの段階があります。
- 情報源の選定
- 文書の電子化
- データベース化
- 辞書の共有化
情報源の選定
選定の基準は、プロジェクトの進行とともに少しづつ改善を行っています。
変遷は以下のとおりです。
I. 情報の量を充実させることを優先し、大量の用語を収集する | ||
↓ | ||
II. 学問分野ごとに学会などが公式に選定したものや、広く普及している用語を網羅する | ||
↓ | ||
III. IIの方針とともに、複数の情報源から重複して収集することにより、データに厚みを持たせる |
個別の選定過程は、和名生物名辞書プロジェクトに詳細が記載されています。
文書の電子化
書籍などの印刷された情報源は、コンピューター上で扱うために電子化する必要があります。
この過程はOCRソフトで読みとれば終わりといった単純な作業ではなく、地道でかつ多大な労力を必要とします。
詳細は、難点、苦労に記載されています。
データベース化
電子化されたデータをリレーショナルデータベース(RDB)に格納します。1件のデータが持っている情報は情報源によって異なります。
そこで、RDBのテーブル構成では、これらの違いを抽象化することにより、全てのデータを格納できるようにしています。
source_table | 情報源を管理するテーブル | ||
source_id | 内部管理用の ID | ||
source_distributor | 情報を配布している機関の名前 | ||
source_title | 情報源の名前 | ||
source_version | 情報源の版 | ||
registered_date | 登録日時 | ||
source_priority_value | ※まだ未使用 | ||
source_metainfo_table | 情報源のメタ情報を管理するテーブル | ||
source_metainfo_id | 内部管理用の ID | ||
source_metainfo_serno | その情報源に於けるメタ情報の通し番号 (メタ情報に名称が記載されているとは限らないから。例えば出版日とか。) | ||
source_metainfo_heading | 情報源に記載されていた通りの見出し文字列 | ||
source_metainfo_value | 情報源に記載されていた通りの記載内容 | ||
source_segment_heading | 情報源の中の部分集合を表わす見出し文字列 | ||
source_segment_inverted | 自然言語の形式で出力する時の表示列を情報源の名前の列と逆転する事を示す印 | ||
source_id | |||
registered_date | 登録日時 | ||
source_workingnote_table | 情報源からの収集作業に関するメタ情報を管理するテーブル | ||
source_workingnote_id | 内部管理用の ID | ||
source_workingnote_name | 収集作業に関するメタ情報の名前 | ||
source_workingnote_value | 収集作業に関するメタ情報の内容 | ||
source_vs_source_category_table | ※まだ未使用 | ||
source_category_table | ※まだ未使用 | ||
record_table | 情報源に掲載されていた一件分の情報の纏まりを表わすテーブル | ||
record_id | 内部管理用の ID | ||
record_serno | 個々の情報源に於ける行の通し番号 | ||
source_id | |||
registered_date | 登録日時 | ||
record_name_table | 情報源に掲載されていた一件分の情報の纏まりを識別する為のラベル文字列を管理するテーブル | ||
record_name_id | 内部管理用の ID | ||
record_id | |||
record_name | 行を識別できる名前 | ||
registered_date | 登録日時 | ||
field_table | 情報源に記載されていた一列分の列の情報を管理するテーブル | ||
field_id | 内部管理用の ID | ||
field_serno | 個々の情報源に於ける列の通し番号 (列の順序が重要になる可能性もあるから) | ||
field_heading | 情報源に記載されていた通りの見出し文字列 | ||
is_neoterized | 造語された列名である事を示すフラグ | ||
invisible | 自然言語に整形する際に非表示にする事を示すフラグ | ||
source_id | |||
registered_date | 登録日時 | ||
vocable_table | 記載内容が指し示す意味を解釈せずに単純な文字の並びと見做した場合の記載内容を管理するテーブル | ||
vocable_id | 内部管理用の ID | ||
vocable_value | 記載内容が指し示す意味を解釈せずに単純な文字の並びと見做した場合の記載内容 | ||
record_id | 情報源に記載されていた際の一行分の纏まりを特定する為の ID | ||
field_id | |||
registered_date | 登録日時 | ||
field_rel_table | 情報源に記載されていた列同士の内で二列間の関係性の情報を管理するテーブル | ||
field_rel_id | 内部管理用の ID | ||
field_1_id | |||
field_2_id | |||
field_rel_type | 二列間の関係性の種類 (例: "merged" 「列 1 が、列 2 その他の列を結合している」とか ?) | ||
registered_date | 登録日時 | ||
field_vs_field_metainfo_table | ※まだ未使用 | ||
field_metainfo_table | ※まだ未使用 |
このテーブル構成は、確定しているものではなく暫定であり、問題が起きるたびに変更しています。
RDBに格納するための書式も別途存在しており、それを「内部標準書式」と呼んでいます。
内部標準書式の詳細は、内部標準書式データの関係データベースや内部標準書式の詳細に記載されています。
辞書の共有化
共有化している辞書は、自然言語による前提知識不要で読みとることができる形式にしています。
この形式を現在では「ナンセンス・フォーマット」と呼んでいます。
具体的には以下の例のように、英文として読める形に収録します。
例)"(1-49)-CCK58" is "DE_AltName_FULL" for "CCKN_HUMAN" in "uniprot_sprot" version "15.0"
この形式を採用した理由は、難点、苦労に記載されています。
共有化している「メタ学術用語集」についての解説や著作権問題についてはこちらをご覧ください。
ダウンロードはこちらのページからも行えます。