日本語語彙データベース

English


©2020 The CJK Dictionary Institute
日中韓辭典研究所

電子メール: Jack Halpern,


概要及び収録範囲

当研究所の包括的な日本語語彙データ資源は2ヶ国語、3ヶ国語収録の辞書を含めて現在約300万項目を数え、一般語彙、専門用語、固有名詞、企業名・団体名、カタカナ語を網羅している。

本ページで説明する日本語語彙データベース(JLD)は詳細な文法属性を備えた包括的データベースであり、機械翻訳(MT)、情報検索(IR)、形態素解析やトークン化といったNLPアプリケーションに特化している。収録された自由形と拘束形の一般語彙は約30万項目に上る。データはあらゆるエンコード(UTF8、EUC、Shift-JIS)とファイル形式(テキスト、エクセル、html等)で提供可能。

日本語に見られる屈折形態論、派生形態論、語彙形態論を全て把握した上で屈折形、派生形両方の語彙を認識できるよう、多数の接辞、助詞、助動詞、活用形が網羅されている。IRにおいてJLDのロバスト性を高めるため、当研究所の日本語表記データベースの併用を強く推奨する。詳細は The Challenges of Intelligent Japanese Searching (「知的日本語検索の諸課題」)を参照されたい。



フィールド解説(抜粋)
1 LEXEME 標準的な漢字仮名表記による見出し語。
2 HIRAGANA 読みの平仮名表記。2種類の送り仮名を示す。
3 POS 品詞コード。各POSコードの定義は jappos.htm を参照のこと。
4 SUBPOS SUBPOSコード。各SUBPOSコードの定義は jappos.htm を参照のこと。
5 CONJUG 活用形。各CONJUGコードの定義は jappos.htm を参照の上、詳細はお問い合わせ願う。
6 TYPE 文法属性等の補足的情報、又は見出し語の意味的な特性を識別する補助分類。各TYPEコードの定義は cpostype.htm を参照のこと。
7 MORPH 見出し語の付加的な形態素特性を識別する補助分類。各MORPHコードの定義は jappos.htm を参照のこと。
8 VALENCY 語幹又は語彙素と接辞の拘束の度合いを表す。コードの定義は jappos.htm を、各形態的属性の詳細な説明は japaffix.htm を参照のこと。
9 RANKING 頻度統計による順位を示す、埋め草の0を付加した6桁の番号。
10 SCRIPT 見出し語の表記:
J 日本語(漢字、平仮名、又は漢字・平仮名・ローマ字・片仮名の併用)
K 片仮名のみ - カタカナ語データベースの見出し語は品詞コード“NC”で示す
R ローマ字のみ、又はアルファベット表記
11 BEFORE 接尾辞や接尾辞的な要素に先行する語彙素、語幹又は語根の品詞(POS)を表す連接続性。例えば、(複合語を形成する)派生接尾辞としての 員 に“NX”とある場合、研究員 の様に 員 が普通名詞又は動名詞の後に付くことを表す。接尾辞についてのみ表示。
12 AFTER 接頭辞や接頭辞的な要素の後ろに付く語彙素の品詞(POS)を表す連接続性。例えば、連体詞的接頭辞の 元 に“NC”とある場合、元総理大臣 の様に 元 が普通名詞に先行できることを表す。接頭辞についてのみ表示。
13 COMPPOS 接頭辞または接尾辞が付いて確立する、語彙素の品詞(POS)。例えば、連体詞的接頭辞の 元 に“NC”とある場合、(普通名詞に)元 を付けると普通名詞(元総理大臣)になることを表す。接辞についてのみ表示。
14 HEPBURN2 読みを改定ヘボン式ローマ字(マクロンを無くし母音を重ねる)で示す。


Sample of Japanese Lexical Database
1 2 3 4 5 6 7 8 9 10 11 12 13 14
がぶ飲み がぶのみ VN t 0 033273 J gabunomi
がましげ がましげ FS M 1 061089 J VC AN gamashige
がましさ がましさ WS 1 061089 J VC NC gamashisa
がま口 がまぐち NC 0 041445 J gamaguchi
がらがら がらがら D 0 033273 J garagara
がらがら がらがら VN i 0 033273 J garagara
がらがら蛇 がらがらへび NC 0 061089 J garagarahebi
がらくた がらくた NC 0 017822 J garakuta
がらっと がらっと D 0 041445 J garatto
がらっぱち がらっぱち AN 0 0 061089 J garappachi
がらっぱち がらっぱち NC 0 061089 J garappachi
がらみ がらみ WS 1 061089 J NC NC garami
がわり がわり WS 1 061089 J NC VN gawari
がんがん がんがん D 0 033273 J gangan
がんがん がんがん VN i 0 033273 J gangan
がんじがらめ がんじがらめ NC 0 013474 J ganjigarame
がんとして がんとして D 0 028538 J gantoshite
がん遺伝子 がんいでんし NC 0 013474 J gan'idenshi
がん化 がんか VN 0 028538 J ganka
がんセンター がんせんたー NC 0 025149 J gansenta_
慣れ なれ NC 0 017822 J nare
慣れきる な.れき-る V5 R 0 022662 J narekiru
慣れっこ なれっこ AN 1 0 020741 J narekko
慣れっこ なれっこ NC 0 020741 J narekko
慣れる な.れ-る V1 i 0 002465 J nareru
慣れる なれる WS 1 002465 J VC V1 nareru
慣れ切る なれき-る V5 R 0 033273 J narekiru
慣わし ならわし NC 0 033273 J narawashi
慣わす なら.わ-す V5 S t 0 061089 J narawasu
慣わす ならわす WS 1 061089 J VC V5 narawasu
慣行 かんこう NC 0 007161 J kanko_
慣行犯 かんこうはん NC 0 061089 J kanko_han
慣手段 かんしゅだん NC 0 061089 J kanshudan
慣習 かんしゅう NC 0 007457 J kanshu_
慣習法 かんしゅうほう NC 0 061089 J kanshu_ho_
慣熟 かんじゅく VN i 0 061089 J kanjuku
慣性 かんせい NC 0 013474 J kansei
慣性の法則 かんせいのほうそく U U 061089 J kanseinoho_soku
いき NC 0 061089 J iki
WS 1 061089 J NC NC u
うまれ NC 0 061089 J umare
うまれ WS 1 061089 J NC NP NC umare
うみ NC 0 061089 J umi
NC 0 061089 J ki
WP 1 061089 J NC NC ki
しょう NC 0 061089 J sho_
せい NR 0 003721 J sei
せい WS 1 003721 J NC NC sei
なま NC 0 010656 J nama
なま WP 1 010656 J NC NC nama
なまり NC 0 061089 J namari