©2020 The CJK Dictionary Institute
日中韓辭典研究所
電子メール: Jack Halpern,
当研究所の包括的な日本語語彙データ資源は2ヶ国語、3ヶ国語収録の辞書を含めて現在約300万項目を数え、一般語彙、専門用語、固有名詞、企業名・団体名、カタカナ語を網羅している。 本ページで説明する日本語語彙データベース(JLD)は詳細な文法属性を備えた包括的データベースであり、機械翻訳(MT)、情報検索(IR)、形態素解析やトークン化といったNLPアプリケーションに特化している。収録された自由形と拘束形の一般語彙は約30万項目に上る。データはあらゆるエンコード(UTF8、EUC、Shift-JIS)とファイル形式(テキスト、エクセル、html等)で提供可能。 日本語に見られる屈折形態論、派生形態論、語彙形態論を全て把握した上で屈折形、派生形両方の語彙を認識できるよう、多数の接辞、助詞、助動詞、活用形が網羅されている。IRにおいてJLDのロバスト性を高めるため、当研究所の日本語表記データベースの併用を強く推奨する。詳細は
The Challenges
of Intelligent Japanese Searching (「知的日本語検索の諸課題」)を参照されたい。 |
1 | LEXEME | 標準的な漢字仮名表記による見出し語。 | ||||||
2 | HIRAGANA | 読みの平仮名表記。2種類の送り仮名を示す。 | ||||||
3 | POS | 品詞コード。各POSコードの定義は jappos.htm を参照のこと。 | ||||||
4 | SUBPOS | SUBPOSコード。各SUBPOSコードの定義は jappos.htm を参照のこと。 | ||||||
5 | CONJUG | 活用形。各CONJUGコードの定義は jappos.htm を参照の上、詳細はお問い合わせ願う。 | ||||||
6 | TYPE | 文法属性等の補足的情報、又は見出し語の意味的な特性を識別する補助分類。各TYPEコードの定義は cpostype.htm を参照のこと。 | ||||||
7 | MORPH | 見出し語の付加的な形態素特性を識別する補助分類。各MORPHコードの定義は jappos.htm を参照のこと。 | ||||||
8 | VALENCY | 語幹又は語彙素と接辞の拘束の度合いを表す。コードの定義は jappos.htm を、各形態的属性の詳細な説明は japaffix.htm を参照のこと。 | ||||||
9 | RANKING | 頻度統計による順位を示す、埋め草の0を付加した6桁の番号。 |
||||||
10 | SCRIPT | 見出し語の表記:
|
||||||
11 | BEFORE | 接尾辞や接尾辞的な要素に先行する語彙素、語幹又は語根の品詞(POS)を表す連接続性。例えば、(複合語を形成する)派生接尾辞としての
員 に“NX”とある場合、研究員 の様に 員 が普通名詞又は動名詞の後に付くことを表す。接尾辞についてのみ表示。 |
||||||
12 | AFTER | 接頭辞や接頭辞的な要素の後ろに付く語彙素の品詞(POS)を表す連接続性。例えば、連体詞的接頭辞の 元
に“NC”とある場合、元総理大臣 の様に 元 が普通名詞に先行できることを表す。接頭辞についてのみ表示。 |
||||||
13 | COMPPOS | 接頭辞または接尾辞が付いて確立する、語彙素の品詞(POS)。例えば、連体詞的接頭辞の 元
に“NC”とある場合、(普通名詞に)元 を付けると普通名詞(元総理大臣)になることを表す。接辞についてのみ表示。 |
||||||
14 | HEPBURN2 | 読みを改定ヘボン式ローマ字(マクロンを無くし母音を重ねる)で示す。 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
がぶ飲み | がぶのみ | VN | t | 0 | 033273 | J | gabunomi | ||||||
がましげ | がましげ | FS | M | 1 | 061089 | J | VC | AN | gamashige | ||||
がましさ | がましさ | WS | 1 | 061089 | J | VC | NC | gamashisa | |||||
がま口 | がまぐち | NC | 0 | 041445 | J | gamaguchi | |||||||
がらがら | がらがら | D | 0 | 033273 | J | garagara | |||||||
がらがら | がらがら | VN | i | 0 | 033273 | J | garagara | ||||||
がらがら蛇 | がらがらへび | NC | 0 | 061089 | J | garagarahebi | |||||||
がらくた | がらくた | NC | 0 | 017822 | J | garakuta | |||||||
がらっと | がらっと | D | 0 | 041445 | J | garatto | |||||||
がらっぱち | がらっぱち | AN | 0 | 0 | 061089 | J | garappachi | ||||||
がらっぱち | がらっぱち | NC | 0 | 061089 | J | garappachi | |||||||
がらみ | がらみ | WS | 1 | 061089 | J | NC | NC | garami | |||||
がわり | がわり | WS | 1 | 061089 | J | NC | VN | gawari | |||||
がんがん | がんがん | D | 0 | 033273 | J | gangan | |||||||
がんがん | がんがん | VN | i | 0 | 033273 | J | gangan | ||||||
がんじがらめ | がんじがらめ | NC | 0 | 013474 | J | ganjigarame | |||||||
がんとして | がんとして | D | 0 | 028538 | J | gantoshite | |||||||
がん遺伝子 | がんいでんし | NC | 0 | 013474 | J | gan'idenshi | |||||||
がん化 | がんか | VN | 0 | 028538 | J | ganka | |||||||
がんセンター | がんせんたー | NC | 0 | 025149 | J | gansenta_ | |||||||
慣れ | なれ | NC | 0 | 017822 | J | nare | |||||||
慣れきる | な.れき-る | V5 | R | 0 | 022662 | J | narekiru | ||||||
慣れっこ | なれっこ | AN | 1 | 0 | 020741 | J | narekko | ||||||
慣れっこ | なれっこ | NC | 0 | 020741 | J | narekko | |||||||
慣れる | な.れ-る | V1 | i | 0 | 002465 | J | nareru | ||||||
慣れる | なれる | WS | 1 | 002465 | J | VC | V1 | nareru | |||||
慣れ切る | なれき-る | V5 | R | 0 | 033273 | J | narekiru | ||||||
慣わし | ならわし | NC | 0 | 033273 | J | narawashi | |||||||
慣わす | なら.わ-す | V5 | S | t | 0 | 061089 | J | narawasu | |||||
慣わす | ならわす | WS | 1 | 061089 | J | VC | V5 | narawasu | |||||
慣行 | かんこう | NC | 0 | 007161 | J | kanko_ | |||||||
慣行犯 | かんこうはん | NC | 0 | 061089 | J | kanko_han | |||||||
慣手段 | かんしゅだん | NC | 0 | 061089 | J | kanshudan | |||||||
慣習 | かんしゅう | NC | 0 | 007457 | J | kanshu_ | |||||||
慣習法 | かんしゅうほう | NC | 0 | 061089 | J | kanshu_ho_ | |||||||
慣熟 | かんじゅく | VN | i | 0 | 061089 | J | kanjuku | ||||||
慣性 | かんせい | NC | 0 | 013474 | J | kansei | |||||||
慣性の法則 | かんせいのほうそく | U | U | 061089 | J | kanseinoho_soku | |||||||
生 | いき | NC | 0 | 061089 | J | iki | |||||||
生 | う | WS | 1 | 061089 | J | NC | NC | u | |||||
生 | うまれ | NC | 0 | 061089 | J | umare | |||||||
生 | うまれ | WS | 1 | 061089 | J | NC NP | NC | umare | |||||
生 | うみ | NC | 0 | 061089 | J | umi | |||||||
生 | き | NC | 0 | 061089 | J | ki | |||||||
生 | き | WP | 1 | 061089 | J | NC | NC | ki | |||||
生 | しょう | NC | 0 | 061089 | J | sho_ | |||||||
生 | せい | NR | 0 | 003721 | J | sei | |||||||
生 | せい | WS | 1 | 003721 | J | NC | NC | sei | |||||
生 | なま | NC | 0 | 010656 | J | nama | |||||||
生 | なま | WP | 1 | 010656 | J | NC | NC | nama | |||||
生 | なまり | NC | 0 | 061089 | J | namari |