1. 固有名認識 (NER)
固有名詞と異表記の識別は、計算言語学上困難な作業の一つである。NER(Named Entity Recognition、固有名認識)は計算言語学の分野で注目を集めている課題の一つであり、質問応答、機械翻訳、情報抽出等といった自然言語処理アプリケーションにおいて重要な役割を担っている。統計的手法に基づいたNERツールの開発には多大な労力が費やされて来た。しかし正確で効率的なNERの実現のためには、統計的手法のみに頼ることなく大規模な固有名データベースを併用することが不可欠であり、現在併用されている小規模な語彙データベースではこの課題さえ満足に実行出来ていないのが実情である。
2. NER用の語彙資源
この問題を解消するべく、日中韓辭典研究所では数百万の固有名詞(人名、地名)、特に日本と中国の人名、及び企業名・団体名を多数収録した包括的なデータベースを保有している。詳細は下記のリンクを参照されたい。
- 日本人名:japname.htm
- 中国人名:chinname.htm
- 韓国人名:korname.htm
- アラビア系人名:arabname.htm
- スペイン系人名
上記のデータ資源には主要なローマ字表記全てに加え、あまり使用されない方式による表記も含めて数百万通りもの異表記が収録されている。広東語、客家語、福建語といった中国の主要な方言も合わせて収録してあり、NERツールの開発者には非常に有用なデータベースである。
3. 日本語NER用接辞
新語(名詞)は日々生まれるものであり、大規模な固有名詞データベースでさえも最新の名詞を逐一収録するのは困難である。また、多種多様な固有名が無秩序に造られ短期間で消えていく。固有名を自動検出する技術は、これまでにも色々と用いられてきた。The Role of Lexical Resources in CJK NLP Applications(「日中韓各語の自然言語処理における語彙資源の役割」)でこれら諸問題について論じているので、そちらも是非参照されたい。
NERの主な手法として、固有名の前後に現れるキーワードまたは統語構造(NECC、固有名認識用接辞)の利用が挙げられる。当研究所では、NERアプリケーションの精度向上に重要な役割を果たす日本語の固有名認識用接辞の包括的データベースを開発・保有している。
日本語のNECCを種別に分類した例を下表に示す。データを特定のNER処理に特化できるよう、下記以外の属性も提供可能である。例の列の赤字部分がNECCであることを示す。
C | 企業名・団体名 |
---|---|
T | 肩書き |
H | 敬称 |
ID | 種類 |
認識用接辞 | 読み | 例 |
---|---|---|---|---|
NC0098 | C | アソシエイツ | あそしえいつ | 日本ネットワークアソシエイツ |
NC0335 | C | センター | せんたー | 国民生活センター |
NC0500 | C | ホテル | ほてる | ホテルシオノ |
NC0597 | C | 駅 | えき | 朝霞駅 |
NC0700 | C | 協会 | きょうかい | 日本ユニセフ協会 |
NC0722 | C | 銀行 | ぎんこう | 三井住友銀行 |
NC0754 | C | 研究所 | けんきゅうじょ | 日中韓辞典研究所 |
NC0795 | C | 興業 | こうぎょう | 山口興業 |
NC0822 | C | 公団 | こうだん | 住宅都市整備公団 |
NC0824 | C | 高等学校 | こうとうがっこう | 細田学園高等学校 |
NC0848 | C | 座 | ざ | 南座 |
NC0910 | C | 書店 | しょてん | 旭屋書店 |
NC0915 | C | 振興会 | しんこうかい | 日本貿易振興会 |
NC0918 | C | 新聞 | しんぶん | 信濃毎日新聞 |
NC0933 | C | 自動車グループ | じどうしゃぐるーぷ | 三菱自動車グループ |
NC1033 | C | 荘 | そう | 東風荘 |
NC1181 | C | 百貨店 | ひゃっかてん | 東武百貨店 |
NC1258 | C | 家 | や | らーめん田舎家 |
NC1308 | C | 連盟 | れんめい | 日本観光旅館連盟 |
NC1309 | H | さん | さん | 春遍雀来さん |
NC1314 | H | 様 | さま | 小泉純一郎様 |
NC1317 | H | 嬢 | じょう | 佐伯日菜子嬢 |
NC1324 | T | インストラクター | いんすとらくたー | パソコンインストラクター河野 |
NC1327 | T | コーディネーター | こーでぃねーたー | 移植コーディネーター加藤 |
NC1336 | T | マネージャー | まねーじゃー | 金子マネージャー |
NC1340 | T | 委員 | いいん | 猪谷千春委員 |
NC1342 | T | 家元 | いえもと | 千宗室家元 |
NC1352 | T | 係長 | かかりちょう | 二宮係長 |
NC1360 | T | 鑑定士 | かんていし | 不動産鑑定士川端一郎 |
NC1382 | T | 建築士 | けんちくし | 桜井一級建築士 |
NC1400 | T | 主任 | しゅにん | 田中主任 |
NC1407 | T | 鍼灸師 | しんきゅうし | 塩沢鍼灸師 |
NC1417 | T | 助役 | じょやく | 深沢助役 |
NC1423 | T | 先生 | せんせい | 清水先生 |
NC1431 | T | 大使 | たいし | アマコスト駐日アメリカ大使 |
NC1435 | T | 代表 | だいひょう | 高井代表 |
NC1446 | T | 通関士 | つうかんし | 佐藤通関士 |
NC1448 | T | 取扱者 | とりあつかいしゃ | 甲種危険物取扱者藤井 |
NC1463 | T | 保護司 | ほごし | 小島節子保護司 |
NC1474 | C | コーポレーション | こーぽれーしょん | ベネッセコーポレーション |
NC1482 | C | 医療法人 | いりょうほうじん | 医療法人菅野愛生会 |
NC1486 | C | (株) | かぶしきがいしゃ | (株)東芝 |
NC1493 | C | 合資会社 | ごうしがいしゃ | 合資会社大和川酒造店 |
NC1501 | C | SS | さーびすすてーしょん | 志村SS |
NC1507 | C | 社団法人 | しゃだんほうじん | 社団法人著作権情報センター |