©2020 The CJK Dictionary Institute
日中韓辭典研究所
電子メール: Jack Halpern,
|
当研究所の包括的な日本語語彙データ資源は2ヶ国語、3ヶ国語収録の辞書を含めて現在約300万項目を数え、一般語彙、専門用語、固有名詞、企業名・団体名、カタカナ語を網羅している。 本ページで説明する日本語語彙データベース(JLD)は詳細な文法属性を備えた包括的データベースであり、機械翻訳(MT)、情報検索(IR)、形態素解析やトークン化といったNLPアプリケーションに特化している。収録された自由形と拘束形の一般語彙は約30万項目に上る。データはあらゆるエンコード(UTF8、EUC、Shift-JIS)とファイル形式(テキスト、エクセル、html等)で提供可能。 日本語に見られる屈折形態論、派生形態論、語彙形態論を全て把握した上で屈折形、派生形両方の語彙を認識できるよう、多数の接辞、助詞、助動詞、活用形が網羅されている。IRにおいてJLDのロバスト性を高めるため、当研究所の日本語表記データベースの併用を強く推奨する。詳細は
The Challenges
of Intelligent Japanese Searching (「知的日本語検索の諸課題」)を参照されたい。 |
| 1 | LEXEME | 標準的な漢字仮名表記による見出し語。 | ||||||
| 2 | HIRAGANA | 読みの平仮名表記。2種類の送り仮名を示す。 | ||||||
| 3 | POS | 品詞コード。各POSコードの定義は jappos.htm を参照のこと。 | ||||||
| 4 | SUBPOS | SUBPOSコード。各SUBPOSコードの定義は jappos.htm を参照のこと。 | ||||||
| 5 | CONJUG | 活用形。各CONJUGコードの定義は jappos.htm を参照の上、詳細はお問い合わせ願う。 | ||||||
| 6 | TYPE | 文法属性等の補足的情報、又は見出し語の意味的な特性を識別する補助分類。各TYPEコードの定義は cpostype.htm を参照のこと。 | ||||||
| 7 | MORPH | 見出し語の付加的な形態素特性を識別する補助分類。各MORPHコードの定義は jappos.htm を参照のこと。 | ||||||
| 8 | VALENCY | 語幹又は語彙素と接辞の拘束の度合いを表す。コードの定義は jappos.htm を、各形態的属性の詳細な説明は japaffix.htm を参照のこと。 | ||||||
| 9 | RANKING | 頻度統計による順位を示す、埋め草の0を付加した6桁の番号。 |
||||||
| 10 | SCRIPT | 見出し語の表記:
|
||||||
| 11 | BEFORE | 接尾辞や接尾辞的な要素に先行する語彙素、語幹又は語根の品詞(POS)を表す連接続性。例えば、(複合語を形成する)派生接尾辞としての
員 に“NX”とある場合、研究員 の様に 員 が普通名詞又は動名詞の後に付くことを表す。接尾辞についてのみ表示。 |
||||||
| 12 | AFTER | 接頭辞や接頭辞的な要素の後ろに付く語彙素の品詞(POS)を表す連接続性。例えば、連体詞的接頭辞の 元
に“NC”とある場合、元総理大臣 の様に 元 が普通名詞に先行できることを表す。接頭辞についてのみ表示。 |
||||||
| 13 | COMPPOS | 接頭辞または接尾辞が付いて確立する、語彙素の品詞(POS)。例えば、連体詞的接頭辞の 元
に“NC”とある場合、(普通名詞に)元 を付けると普通名詞(元総理大臣)になることを表す。接辞についてのみ表示。 |
||||||
| 14 | HEPBURN2 | 読みを改定ヘボン式ローマ字(マクロンを無くし母音を重ねる)で示す。 |
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| がぶ飲み | がぶのみ | VN | t | 0 | 033273 | J | gabunomi | ||||||
| がましげ | がましげ | FS | M | 1 | 061089 | J | VC | AN | gamashige | ||||
| がましさ | がましさ | WS | 1 | 061089 | J | VC | NC | gamashisa | |||||
| がま口 | がまぐち | NC | 0 | 041445 | J | gamaguchi | |||||||
| がらがら | がらがら | D | 0 | 033273 | J | garagara | |||||||
| がらがら | がらがら | VN | i | 0 | 033273 | J | garagara | ||||||
| がらがら蛇 | がらがらへび | NC | 0 | 061089 | J | garagarahebi | |||||||
| がらくた | がらくた | NC | 0 | 017822 | J | garakuta | |||||||
| がらっと | がらっと | D | 0 | 041445 | J | garatto | |||||||
| がらっぱち | がらっぱち | AN | 0 | 0 | 061089 | J | garappachi | ||||||
| がらっぱち | がらっぱち | NC | 0 | 061089 | J | garappachi | |||||||
| がらみ | がらみ | WS | 1 | 061089 | J | NC | NC | garami | |||||
| がわり | がわり | WS | 1 | 061089 | J | NC | VN | gawari | |||||
| がんがん | がんがん | D | 0 | 033273 | J | gangan | |||||||
| がんがん | がんがん | VN | i | 0 | 033273 | J | gangan | ||||||
| がんじがらめ | がんじがらめ | NC | 0 | 013474 | J | ganjigarame | |||||||
| がんとして | がんとして | D | 0 | 028538 | J | gantoshite | |||||||
| がん遺伝子 | がんいでんし | NC | 0 | 013474 | J | gan'idenshi | |||||||
| がん化 | がんか | VN | 0 | 028538 | J | ganka | |||||||
| がんセンター | がんせんたー | NC | 0 | 025149 | J | gansenta_ | |||||||
| 慣れ | なれ | NC | 0 | 017822 | J | nare | |||||||
| 慣れきる | な.れき-る | V5 | R | 0 | 022662 | J | narekiru | ||||||
| 慣れっこ | なれっこ | AN | 1 | 0 | 020741 | J | narekko | ||||||
| 慣れっこ | なれっこ | NC | 0 | 020741 | J | narekko | |||||||
| 慣れる | な.れ-る | V1 | i | 0 | 002465 | J | nareru | ||||||
| 慣れる | なれる | WS | 1 | 002465 | J | VC | V1 | nareru | |||||
| 慣れ切る | なれき-る | V5 | R | 0 | 033273 | J | narekiru | ||||||
| 慣わし | ならわし | NC | 0 | 033273 | J | narawashi | |||||||
| 慣わす | なら.わ-す | V5 | S | t | 0 | 061089 | J | narawasu | |||||
| 慣わす | ならわす | WS | 1 | 061089 | J | VC | V5 | narawasu | |||||
| 慣行 | かんこう | NC | 0 | 007161 | J | kanko_ | |||||||
| 慣行犯 | かんこうはん | NC | 0 | 061089 | J | kanko_han | |||||||
| 慣手段 | かんしゅだん | NC | 0 | 061089 | J | kanshudan | |||||||
| 慣習 | かんしゅう | NC | 0 | 007457 | J | kanshu_ | |||||||
| 慣習法 | かんしゅうほう | NC | 0 | 061089 | J | kanshu_ho_ | |||||||
| 慣熟 | かんじゅく | VN | i | 0 | 061089 | J | kanjuku | ||||||
| 慣性 | かんせい | NC | 0 | 013474 | J | kansei | |||||||
| 慣性の法則 | かんせいのほうそく | U | U | 061089 | J | kanseinoho_soku | |||||||
| 生 | いき | NC | 0 | 061089 | J | iki | |||||||
| 生 | う | WS | 1 | 061089 | J | NC | NC | u | |||||
| 生 | うまれ | NC | 0 | 061089 | J | umare | |||||||
| 生 | うまれ | WS | 1 | 061089 | J | NC NP | NC | umare | |||||
| 生 | うみ | NC | 0 | 061089 | J | umi | |||||||
| 生 | き | NC | 0 | 061089 | J | ki | |||||||
| 生 | き | WP | 1 | 061089 | J | NC | NC | ki | |||||
| 生 | しょう | NC | 0 | 061089 | J | sho_ | |||||||
| 生 | せい | NR | 0 | 003721 | J | sei | |||||||
| 生 | せい | WS | 1 | 003721 | J | NC | NC | sei | |||||
| 生 | なま | NC | 0 | 010656 | J | nama | |||||||
| 生 | なま | WP | 1 | 010656 | J | NC | NC | nama | |||||
| 生 | なまり | NC | 0 | 061089 | J | namari |