包括的な日本人名異表記データベース
Comprehensive Database of Japanese Name Variants
1. 人名の異表記に伴う難点
世界の人名とその異表記の数(例えば、「ジュンイチロウ」をアルファベットで綴ると100通り以上ある)を合わせると数十億あるであろう。地名の場合、それ自体の数は多くても、異表記の多さは人名ほどではない。固有名詞と異表記の識別は、計算言語学上困難な課題の一つである。Named Entity Recognition (NER、固有名認識)は計算言語学の分野で注目を集めており、多くのITアプリケーションに於て重要な役割を担っている。
この技術を強化すべく、日中韓辭典研究所では数百万の固有名詞、特に日本語と中国語の固有名詞を多数収録した包括的なデータベースを保有している。本稿では日本人名の異表記に関する問題を述べると共に、日本人名異表記のデータ資源のサンプルを紹介する。The Role of Lexical Resources in CJK NLP Applications(「日中韓各語の自然言語処理における語彙資源の役割」)及び Named Entity Contextual Clues(「固有名詞認識用接辞」)も参照されたい。
2. 適用可能分野
人名及びその多数の異体を認識、処理、正規化することで、下記のような用途に有効活用できる。
1. 金融機関でのマネーロンダリング対策。
2. テロリストや犯罪者の名前の異表記と思われるものを識別する等の安全対策。
3. 検索エンジンによるクエリ処理。
4. 出入国管理システム。
5. 機械翻訳の精度向上。
6. 固有名・情報抽出。
7. 日中韓各語の分節処理及び形態素分析。
上記のような用途には、大規模な人名異表記のデータベースは非常に有用である。当研究所では中国(主要方言を含む)、日本、韓国、アラビア語系、スペイン語系の人名を様々なローマ字表記法でデータベース化しており、主要なローマ字表記全ては言うに及ばず、あまり使用されない表記法も含めた人名とその異表記は数百万項目に及ぶ。
3. 日本人名異表記に関する困難
日本の人名の数は膨大である。当研究所のデータベース(japnamej.htm 参照)にはおよそ40万の名、及び15万ほどの姓が収録されているが、これに多数あるローマ字の異表記を合わせると、総計数百万通りの人名の表記があることになる。
日本語のローマ字表記には確立された方式がいくつかあるが、その他にも良く使われる表記法があり、同一語の中に複数の表記法が混在している場合さえある。当研究所のデータベースには、表1のように主要な表記法とそうでないものを合わせて収録してある(各表記法についてはリンクを参照)。例として名字の「大津」(おおづ)及び「山口」(やまぐち)を示す。
表記法 | 表記例 | 説明 |
---|---|---|
ヘボン式 | Ōzu | 最も広く使用されている表記法で、表2のような異表記がある。 |
訓令式 | Ôzu | 日本政府が正式に採用している方式であり、ISO3602に承認。 |
日本式 | Ôdu | 日本語のローマ字表記法訓令式に先立って使用されていた表記法であるが、現在でも使用されている。 |
ワープロ式 | Ouzu | 一般に普及しているワープロ入力用の綴りに基づく。 |
英語式 | Ozu | ヘボン式に基づき一番普及している英語綴り式の表記で、長音は省略されている。 |
ドイツ語式 | Jamagutschi | ドイツ語に基づく表記法。 |
ロマンス語式 | Yamagutchi | ロマンス諸語に基づく表記法。 |
各種異体 | Oozu Ohzu Oodu Oudu Ohdu Odu |
ヘボン式の異形等、各表記法の異体。 |
当研究所の人名異表記データベースは、前述のローマ字表記法全てとその混合型表記を網羅しており、項目数も数百万を数える。以下に異表記の例を挙げ、何故これほど多数の異表記法が存在するのかも簡単に説明する。下記の例以外にも
Eleanor Jordan 氏による JSL system
や修正ヘボン式とほぼ同一の ALA-LC
system 等があるが、下記見本では省略した。
4. ヘボン式ローマ字の異体
英語を基にした ヘボン式ローマ字 は、牧師のジェームズ・カーティス・ヘボンにより考案され、ヘボン編集による1867年出版の『和英語林集成』に初出した。ヘボン式は、今日最も広く使用されている事実上の標準表記法であり、日本政府でも本来公の方式である訓令式の代わりに使用されている。
一般に信じられているのとは異なり、実際にはヘボン式は一種類ではなく、多数の異体が存在する。標準とも言うべきヘボン式は正しくは「修正ヘボン式」と呼ばれ、以下に示す異体も修正ヘボン式と同等かそれ以上に使われていると言ってよい。「修正ヘボン式」は時に「改定ヘボン式」(一部の辞書や言語学者が用いる場合があるが、修正ヘボン式ほど普及していない)と呼ばれることもあるため、注意が必要である。
漢字 | 読み | 英語式 | 修正 ヘボン式 | 改定ヘボン式 | ヘボン式原形 | パスポート式 | ワープロ式 | ヘボン式異体 |
---|---|---|---|---|---|---|---|---|
佐藤 | さとう | Sato | Satō | Satoo | Satō | Satoh, Sato | Satou | Satô |
大津 | おおづ | Ozu | Ōzu | Oozu | Ōzu | Ohzu, Ozu | Oozu | Ôzu |
井生 | いおう | Io | Iō | Ioo | Iō | Ioh, Io | Iou | Iô |
伊大地 | いおおじ | Ioji | Iōji | Iōji | Iōji | Iohji, Ioji | Iooji | Iôji |
天満屋 | てんまんや | Tenman'ya, Tenmanya | Tenman'ya, Tenmanya, Tenman-ya | Tenman'ya, Ten̄man̄ya | Tenman'ya | Tenman'ya, Tenmanya, Tenman-ya | Tenmanya | |
山陰房 | さんいんぼう | San'inbo, Saninbo | San'inbō, Saninbō, San-inbō | San'inboo, Saninboo, San̄in̄boo | San'imbō, Sanimbō | San'imboh, Sanimboh, San-imboh, San'imbo, Sanimbo, San-imbo | Saninbou | San'inbô, Saninbô, San-inbô, San'imbô, Sanimbô, San-imbô |
本間 | ほんま | Honma | Honma | Honma, Hon̄ma | Homma | Homma | Honma | |
淳一郎 | じゅんいちろう | Jun'ichiro, Junichiro | Jun'ichirō, Junichirō, Jun-ichirō | Jun'ichiroo, Junichiroo, Jun̄ichiroo | Jun'ichirō, Junichirō | Jun'ichiroh, Junichiroh, Jun-ichiroh, Jun'ichiro, Junichiro, Jun-ichiro | Junichirou | Jun'ichirô, Junichirô, Jun-ichirô |
山口 | やまぐち | Yamaguchi | Yamaguchi | Yamaguchi | Yamaguchi | Yamaguchi | Yamaguchi | |
愛子 | あいこ | Aiko | Aiko | Aiko | Aiko | Aiko | Aiko |
5. 多過ぎるローマ字表記法
表3は、人名を標準、非標準の様々な表記法で示したものである。主要な3方式(ヘボン式、訓令式、日本式)については、表内の各列に正式な表記のみを記す。ヘボン式の異体等、上記3方式の異体がある場合は「各種異体」の列に、混合型表記は「混合式」の列に記す。ワープロ式は異体が数多くあるが、個別の列でなく「各種異体」の欄に示すものとする。
表2、3からわかる通り、異表記は次のような場合に起こり得る。
- 長母音の表記、特に /o:/ を ō、o、ô、ou、ohで表記する場合。
- 「ン」を /b/、/p/、/m/ の前で n の代わりに m で表記する場合。
- 「ン」が母音又は ヤ行音 の前にある時にアポストロフィーが省略される、又はハイフンで代用される場合。
- 「ジャ」 を ja、zya、jya と書くように、一部の子音の表記が複数通りある場合。
実際のところはそれぞれの表記法に何らかの異表記があり、人名を表記するのに複数の方式を混用することは珍しくない。例えば、Juniti という表記は改定ヘボン式の Jun(じゅん)と訓令式の iti(いち)を組み合わせたものである。ここではこのような組み合わせを混合型表記ということにする。
漢字 | 読み | 英語式 | ヘボン式 | 訓令式 | 日本式 | 各種異体 | 混合式 | ドイツ語式 | ラテン式 |
---|---|---|---|---|---|---|---|---|---|
佐藤 | さとう | Sato | Satō | Satô | Satô | Satoo, Satou, Satoh | |||
青塚 | あおづか | Aozuka | Aozuka | Aozuka | Aoduka | Aozuca | Aoduca | ||
愛子 | あいこ | Aiko | Aiko | Aiko | Aiko | Aico | |||
生越 | いくごし | Ikugoshi | Ikugoshi | Ikugosi | Ikugosi | Icugosi | Icugoshi | Ikugoschi | Ikugochi |
大津 | おおづ | Ozu | Ōzu | Ôzu | Ôdu | Oozu, Ouzu, Ohzu, Oodu, Oudu, Ohdu, Odu | Ōdu | ||
井生 | いおう | Io | Iō | Iô | Iô | Ioo, Iou, Ioh | |||
伊大地 | いおおじ | Ioji | Iōji | Iôzi | Iôzi | Iōzi, Ioozi, Iouzi, Iohzi, Iozi, Iooji, Iouji, Iohji, Iôji | |||
橋本 | はしもと | Hashimoto | Hashimoto | Hasimoto | Hasimoto | Haschimoto | Hachimoto | ||
青柳塘 | あおやぎとう | Aoyagito | Aoyagitō | Aoyagitô | Aoyagitô | Aoyagitoo, Aoyagitou, Aoyagitoh | Aojagito | ||
天満屋 | てんまんや | Tenman'ya | Tenman'ya | Tenman'ya | Tenman'ya | Temman'ya, Temmanya, Temman-ya, Tenmanya, Tenman-ya | Tenman'ja, Tenmanja, Tenman-ja | ||
靑山 | あおやま | Aoyama | Aoyama | Aoyama | Aoyama | Aojama | |||
赤口 | あかぐち | Akaguchi | Akaguchi | Akaguti | Akaguti | Acaguci | Akaguci, Acaguchi, Acaguti | Akagutschi | Akagutchi |
山口 | やまぐち | Yamaguchi | Yamaguchi | Yamaguti | Yamaguti | Yamaguci | Jamagutschi | Yamagutchi | |
裕子 | ゆうこ | Yuko | Yūko | Yûko | Yûko | Yûco, Yūco, Yuuco, Yuco, Yuuko | Juko | ||
相越 | あいこし | Aikoshi | Aikoshi | Aikosi | Aikosi | Aicosi | Aicoshi | Aikoschi | Aikochi |
吉田 | よしだ | Yoshida | Yoshida | Yosida | Yosida | Joschida | Yochida | ||
正月 | しょうげつ | Shogetsu | Shōgetsu | Syôgetu | Syôgetu | Syōgetu, Syoogetu, Syougetu, Syohgetu, Syogetu, Shoogetsu, Shougetsu, Shohgetsu, Shôgetsu | Shōgetu, Shoogetu, Shougetu, Shohgetu, Shogetu, Shôgetu, Syôgetsu, Syōgetsu, Syoogetsu, Syougetsu, Syohgetsu, Syogetsu | Schogetsu | Chogetsu |
山陰房 | さんいんぼう | San'inbo | San'inbō | San'inbô | San'inbô | Saninbô, San-inbô, Saninbō, San-inbō, San'inboo, Saninboo, San-inboo, San'inbou, Saninbou, San-inbou, San'inboh, Saninboh, San-inboh, Saninbo, San-inbo, San'imbō, Sanimbō, San-imbō, San'imboo, Sanimboo, San-imboo, San'imbou, Sanimbou, San-imbou, San'imboh, Sanimboh, San-imboh, San'imbo, Sanimbo, San-imbo, San'imbô, Sanimbô, San-imbô | |||
四本松 | しほんまつ | Shihonmatsu | Shihonmatsu | Sihonmatu | Sihonmatu | Shihommatsu | Shihonmatu, Shihommatu, Sihonmatsu, Sihommatsu, Sihommatu | Schihonmatsu | Chihonmatsu |
佳子 | よしこ | Yoshiko | Yoshiko | Yosiko | Yosiko | Yosico | Yoshico | Joschiko | Yochiko |
6. 膨大な数の異表記
上述のように、日本人名の異表記が多数存在する背景には、アポストロフィーの有無、長母音や一部の子音の表し方等、様々な要因が絡み合っている。仮に複数の要因が単一の人名中に同時にある場合、同じ名前のローマ字表記の数は一気に膨れ上がることになる。たった一つの名前でも、多数ある表記の異体を組み合わせれば数百通りの表記が出来上がってしまうわけである。
例として小泉純一郎前総理大臣の名を挙げると、標準的な修正ヘボン式で Jun'ichirō Koizumi となるが、「純一郎」 のローマ字表記は下表のように169通りが考えられる。表4ではこの169通りの異表記を大まかにランク付けしてあり、このうち多くの表記は広く頻繁に使用されているものである。これら異表記が各表記法の規則や考え得る綴り字の組み合わせに則って生成されている一方、ある特定の場面やコーパスではほとんど、或いは全く見られない異表記が含まれているのも確かである。しかし、そのような異表記も別な場面やコーパスにおいて出現する可能性は十分にあり、人名異表記の認識に最大限役立てるべく、他の異表記と同様にデータベースに収録してある。
日本人名の多対多関係の複雑性を表すもう1つの例として、「淳子」("Junko")の文字列をjunko.pdfから参照していただきたい。
|