コンテンツに飛ぶ | ナビゲーションに飛ぶ

生物学辞書の構築 (Building Dictionary for Life Science)
 
セクション
パーソナルツール
現在位置: ホーム 辞書活用

辞書活用

「生物学辞書の構築」の辞書活用の概要

 

概要

辞書の構築作業で作成されたデータは、原文の表記のままに、解釈を行わずにデータ化されています。そのため、同じ意味をもつfeatureも、表記が異なっていれば、別物として扱われています。また、その逆で表記は同じであっても、情報源によって異なる意味をもつfeatureもあります。生物の日本語名称に対しても、和名、標準和名、日本名などのシノニムが存在しています。さらに、1つのfeatureの中に特殊記法により、複数記述されているものもあります。

 

この辞書データを活用するユースケースを考えるとき(例えば生物名の日本語名を英語名へ変換するなどの場合)、上記のような整理されていないデータのままでは、満足のいく結果を得ることができないでしょう。

 
そこで、次の段階として、辞書構築の段階ではあえて行わなかったデータの解釈・整理などを行い、使いやすい辞書にする必要があります。もちろん、データの解釈を誤れば、情報源と異なるものになる危険もあります。 DBCLS担当者は、生物学の(特に命名の)専門家ではありませんが、データの解釈・整理を実際にやってみることを通じて、辞書の活用方法を研究します。

 

featureの分析

情報源に含まれるfeatureの分析結果はこちらの一覧を参照してください。

 

解釈・整理

手始めに学名・和名・英名の整理を試みます。

 

featureの整理

次に挙げるfeatureを学名とみなします。
"学名", "真菌学名", "ウイルスの名称", "種名", "SCIENTIFIC NAME", "学名 正名", "学名 異名", "分類群名 (学名)", "Genus", "Subgenus", "Species", "属", "種", "種内分類群", "属,種,種内分類群"

次に挙げるfeatureを日本語とみなします。
"和名", "学名の読み方", "普及している和名", "真菌学名の片仮名書", "日本名", "標準和名", "和名 異名", "もとの和名", "新和名", "当該分類群に用いられるべき和名", "当該分類群に用いられる和名のシノニム", "改訂前", "和名の異名"

次に挙げるfeatureを英語とみなします。
"英語名", "英名"

 

解釈

以下のルールで解釈します。

  • 学名は二名法(属名+種小名)に統一し、亜属を削除する。
  • 1つのfeatureから、複数の表現が得られると考えられるものを解釈し、それぞれを別のデータとして登録する。
    • 区切り文字で複数の単語が列挙されているとき(例:"ナミマウスオポッサム/コモリネズミ" => "ナミマウスオポッサム", "コモリネズミ")
    • []などで一部の読みが異なるものが記述されているとき(例:"ウシ型〔結核〕菌" => "ウシ型菌", "ウシ型結核菌")
  • ()で補足説明が記述されているとき、補足説明部分を削除する。(例:"オニカサゴ(変異型)" => "オニカサゴ")

その他、情報源ごとの例外的な表記を個別に判断し、対処します。

 

結果

上述のルールに従い、整理されたデータです。

「翻訳用テーブル」 学名(ラテン語)と他言語での種名の対応

species_names.latin_vs_localname.utf8.zip

# タブ区切りのテキストデータです。
# 出力している内容は、種の学名、他言語での種名、言語、情報源に関する事柄 (配布元、名称、版) 、及び通し番号です。
# 一つの学名に複数の和名が記載されている場合などは、別々の行に分けています。
# 通し番号は、元々の記述が同一データである場合に同じ番号を割り振ったもので、このファイル内だけで通用する番号です。

Acanthis johannis	Warsangli Linnet	en	大学書林	世界鳥類和名辞典	平成 5 年 5 月 31 日 第 1 版発行 (第 3 刷)	31143
Acanthis johannis	ハイイロヒワ	ja	大学書林	世界鳥類和名辞典	平成 5 年 5 月 31 日 第 1 版発行 (第 3 刷)	31143
Acanthis yemensis	Yemen Linnet	en	大学書林	世界鳥類和名辞典	平成 5 年 5 月 31 日 第 1 版発行 (第 3 刷)	31142
Acanthis yemensis	イエメンヒワ	ja	大学書林	世界鳥類和名辞典	平成 5 年 5 月 31 日 第 1 版発行 (第 3 刷)	31142
Acanthisitta chloris	Rifleman	en	大学書林	世界鳥類和名辞典	平成 5 年 5 月 31 日 第 1 版発行 (第 3 刷)	27598

 

「翻訳用テーブル」 学名と和名の対応

species_names.latin_vs_japanese.utf8.zip

# タブ区切りのテキストデータです。
# 出力している内容は、種の学名、和名、情報源に関する事柄 (配布元、名称、版) 、及び通し番号です。
# 一つの学名に複数の和名が記載されている場合などは、別々の行に分けています。
# 通し番号は、元々の記述が同一データである場合に同じ番号を割り振ったもので、このファイル内だけで通用する番号です。

Abacetus leucotelus	ホソツヤナガゴミムシ	北隆館	新訂 原色昆虫大圖鑑 第 II 巻 (甲虫 篇)	平成 19 年 5 月 10 日 新訂版初版発行	18334
Abacetus tanakai	ヨツボシツヤナガゴミムシ	北隆館	新訂 原色昆虫大圖鑑 第 II 巻 (甲虫 篇)	平成 19 年 5 月 10 日 新訂版初版発行	18933
Abaciscus albipunctata	シロテントビスジエダシャク	北隆館	新訂 原色昆虫大圖鑑 第 I 巻 (蝶・蛾 篇)	平成 19 年 1 月 25 日 新訂版初版発行	13339
Abacopteris insularis	エラブコウモリシダ	平凡社	日本の野生植物 シダ	2006 年 1 月 20 日 新装版第 4 刷発行	45717
Abacopteris liukiuensis	オオコウモリシダ	平凡社	日本の野生植物 シダ	2006 年 1 月 20 日 新装版第 4 刷発行	45709

 

「翻訳用テーブル」 学術用語の日本語と英語の対応

scientific_term.ja_vs_en.utf8.txt

# タブ区切りのテキストデータです。
# 出力している内容は、日本語、英語、情報源に関する事柄 (配布元、名称、版) 、及び通し番号です。
# 通し番号は、元々の記述が同一データである場合に同じ番号を割り振ったもので、このファイル内だけで通用する番号です。

0層	0 horizon	国立情報学研究所	学術用語集 植物学編 (増訂版)	1990	32181
1-メチルアデニン	1-methyladenine	国立情報学研究所	学術用語集 動物学編 (増訂版)	1988	12715
1−アミノシクロプロパンカルボン酸(ACC)	1−aminocyclopropane−1−carboxylic acid (ACC)	国立情報学研究所	学術用語集 植物学編 (増訂版)	1990	21725
2 n	2 n	国立情報学研究所	学術用語集 遺伝学編 (増訂版)	1993	42494
2 n世代	2 n-generation	国立情報学研究所	学術用語集 遺伝学編 (増訂版)	1993	42495

 

 

生物名検索・入力補助ツール

dictionary_assist.zip

学名(ラテン語)と他言語での種名の対応を元に、生物名を検索するツールを作成しました。

ダウンロードしたzipファイルを解凍し、中に入っているdictionary_assist.jarをダブルクリックすると起動します。

※別途、JRE (version 6) のインストールが必要になります。

tool_gui1.png

tool_gui2.png

tool_gui3.png

 

ドキュメントアクション