1. Names Entity Recognition (NER)
Identifying names and their variants is a difficult computational linguistic task. Named Entity Recognition (NER) is one of the hottest topics in computational linguistics, and plays a major role in NLP applications such as question answering, machine translation, information extraction, and the like. Much work has been done on developing NER tools based on statistical methods, but performing NER accurately is beyond the ability of such methods alone, which must be supplemented by large-scale name databases to be truly effective. However, the small-scale lexicons currently used are inadequate to the task.
2. Lexical Resources for NER
To meet this need, CJKI maintains comprehensive databases of several million proper nouns (personal names and place names), especially of Japanese names and Chinese names, as well as company and organization names. More details can be found at:
- Japanese names: japname.htm
- Chinese names: chinname.htm
- Korean names: korname.htm
- Arabic names: arabname.htm
- Spanish names
These resources are of major importance to NER tool developers, especially because they include millions of variants in all the major and most minor romanization systems, including the major Chinese dialects such as Cantonese, Hakka and Hokkien.
3. Contextual Clues for Japanese NER
Even large-scale proper noun databases cannot be kept fully up-to-date as new names are created daily. Moreover, many kinds of named entities are created arbitrarily and have only an ephemeral existence. Various techniques have been used to automatically detect named entities. Some of these issues are discussed in The Role of Lexical Resources in CJK NLP Applications.
A major technique is the use of keywords or syntactic structures that precede or follow named entities, which we refer to as named entity contextual clues (NECC). We have developed a comprehensive database of contextual clues for Japanese named entities that can play a critical role in enhancing the precision of NER applications.
The table below shows example of Japanese NECCs classified by type. Other attributes are available to help fine tune the data to specific NER requirements. In the example column, the red portion indicates the NECC.
C | Company or organization name |
---|---|
T | personal title |
H | honorific term or title |
ID | TYPE | Contextual Clue | Reading | Example |
---|---|---|---|---|
NC0098 | C | アソシエイツ | あそしえいつ | 日本ネットワークアソシエイツ |
NC0335 | C | センター | せんたー | 国民生活センター |
NC0500 | C | ホテル | ほてる | ホテルシオノ |
NC0597 | C | 駅 | えき | 朝霞駅 |
NC0700 | C | 協会 | きょうかい | 日本ユニセフ協会 |
NC0722 | C | 銀行 | ぎんこう | 三井住友銀行 |
NC0754 | C | 研究所 | けんきゅうじょ | 日中韓辞典研究所 |
NC0795 | C | 興業 | こうぎょう | 山口興業 |
NC0822 | C | 公団 | こうだん | 住宅都市整備公団 |
NC0824 | C | 高等学校 | こうとうがっこう | 細田学園高等学校 |
NC0848 | C | 座 | ざ | 南座 |
NC0910 | C | 書店 | しょてん | 旭屋書店 |
NC0915 | C | 振興会 | しんこうかい | 日本貿易振興会 |
NC0918 | C | 新聞 | しんぶん | 信濃毎日新聞 |
NC0933 | C | 自動車グループ | じどうしゃぐるーぷ | 三菱自動車グループ |
NC1033 | C | 荘 | そう | 東風荘 |
NC1181 | C | 百貨店 | ひゃっかてん | 東武百貨店 |
NC1258 | C | 家 | や | らーめん田舎家 |
NC1308 | C | 連盟 | れんめい | 日本観光旅館連盟 |
NC1309 | H | さん | さん | 春遍雀来さん |
NC1314 | H | 様 | さま | 小泉純一郎様 |
NC1317 | H | 嬢 | じょう | 佐伯日菜子嬢 |
NC1324 | T | インストラクター | いんすとらくたー | パソコンインストラクター河野 |
NC1327 | T | コーディネーター | こーでぃねーたー | 移植コーディネーター加藤 |
NC1336 | T | マネージャー | まねーじゃー | 金子マネージャー |
NC1340 | T | 委員 | いいん | 猪谷千春委員 |
NC1342 | T | 家元 | いえもと | 千宗室家元 |
NC1352 | T | 係長 | かかりちょう | 二宮係長 |
NC1360 | T | 鑑定士 | かんていし | 不動産鑑定士川端一郎 |
NC1382 | T | 建築士 | けんちくし | 桜井一級建築士 |
NC1400 | T | 主任 | しゅにん | 田中主任 |
NC1407 | T | 鍼灸師 | しんきゅうし | 塩沢鍼灸師 |
NC1417 | T | 助役 | じょやく | 深沢助役 |
NC1423 | T | 先生 | せんせい | 清水先生 |
NC1431 | T | 大使 | たいし | アマコスト駐日アメリカ大使 |
NC1435 | T | 代表 | だいひょう | 高井代表 |
NC1446 | T | 通関士 | つうかんし | 佐藤通関士 |
NC1448 | T | 取扱者 | とりあつかいしゃ | 甲種危険物取扱者藤井 |
NC1463 | T | 保護司 | ほごし | 小島節子保護司 |
NC1474 | C | コーポレーション | こーぽれーしょん | ベネッセコーポレーション |
NC1482 | C | 医療法人 | いりょうほうじん | 医療法人菅野愛生会 |
NC1486 | C | (株) | かぶしきがいしゃ | (株)東芝 |
NC1493 | C | 合資会社 | ごうしがいしゃ | 合資会社大和川酒造店 |
NC1501 | C | SS | さーびすすてーしょん | 志村SS |
NC1507 | C | 社団法人 | しゃだんほうじん | 社団法人著作権情報センター |