The CJK Dictionary Institute


English





Dictionaries

   データ資源
   アラビア語
   中国語
   日本語
   韓国語
   辞書アプリ

Other

   文献・論文
   漢英字典刊行会
   春遍雀來

会社案内

   日中韓辭典研究所
   注文方法
   採用情報
   所在地
   連絡先
   地図










包括的な日本人名異表記データベース

Comprehensive Database of Japanese Name Variants


1. 人名の異表記に伴う難点

世界の人名とその異表記の数(例えば、「ジュンイチロウ」をアルファベットで綴ると100通り以上ある)を合わせると数十億あるであろう。地名の場合、それ自体の数は多くても、異表記の多さは人名ほどではない。固有名詞と異表記の識別は、計算言語学上困難な課題の一つである。Named Entity Recognition (NER、固有名認識)は計算言語学の分野で注目を集めており、多くのITアプリケーションに於て重要な役割を担っている。

この技術を強化すべく、日中韓辭典研究所では数百万の固有名詞、特に日本語と中国語の固有名詞を多数収録した包括的なデータベースを保有している。本稿では日本人名の異表記に関する問題を述べると共に、日本人名異表記のデータ資源のサンプルを紹介する。The Role of Lexical Resources in CJK NLP Applications(「日中韓各語の自然言語処理における語彙資源の役割」)及び Named Entity Contextual Clues(「固有名詞認識用接辞」)も参照されたい。


2. 適用可能分野

人名及びその多数の異体を認識、処理、正規化することで、下記のような用途に有効活用できる。

    1. 金融機関でのマネーロンダリング対策。
    2. テロリストや犯罪者の名前の異表記と思われるものを識別する等の安全対策。
    3. 検索エンジンによるクエリ処理。
    4. 出入国管理システム。
    5. 機械翻訳の精度向上。
    6. 固有名・情報抽出。
    7. 日中韓各語の分節処理及び形態素分析。

上記のような用途には、大規模な人名異表記のデータベースは非常に有用である。当研究所では中国(主要方言を含む)、日本、韓国、アラビア語系、スペイン語系の人名を様々なローマ字表記法でデータベース化しており、主要なローマ字表記全ては言うに及ばず、あまり使用されない表記法も含めた人名とその異表記は数百万項目に及ぶ。

3. 日本人名異表記に関する困難

日本の人名の数は膨大である。当研究所のデータベース(japnamej.htm 参照)にはおよそ40万の名、及び15万ほどの姓が収録されているが、これに多数あるローマ字の異表記を合わせると、総計数百万通りの人名の表記があることになる。

日本語のローマ字表記には確立された方式がいくつかあるが、その他にも良く使われる表記法があり、同一語の中に複数の表記法が混在している場合さえある。当研究所のデータベースには、表1のように主要な表記法とそうでないものを合わせて収録してある(各表記法についてはリンクを参照)。例として名字の「大津」(おおづ)及び「山口」(やまぐち)を示す。


日本語のローマ字表記法
表記法 表記例 説明
ヘボン式 Ōzu 最も広く使用されている表記法で、表2のような異表記がある。
訓令式 Ôzu 日本政府が正式に採用している方式であり、ISO3602に承認。
日本式 Ôdu 日本語のローマ字表記法訓令式に先立って使用されていた表記法であるが、現在でも使用されている。
ワープロ式 Ouzu 一般に普及しているワープロ入力用の綴りに基づく。
英語式 Ozu ヘボン式に基づき一番普及している英語綴り式の表記で、長音は省略されている。
ドイツ語式 Jamagutschi ドイツ語に基づく表記法。
ロマンス語式 Yamagutchi ロマンス諸語に基づく表記法。
各種異体 Oozu
Ohzu
Oodu
Oudu
Ohdu
Odu
ヘボン式の異形等、各表記法の異体。

当研究所の人名異表記データベースは、前述のローマ字表記法全てとその混合型表記を網羅しており、項目数も数百万を数える。以下に異表記の例を挙げ、何故これほど多数の異表記法が存在するのかも簡単に説明する。下記の例以外にも Eleanor Jordan 氏による JSL system や修正ヘボン式とほぼ同一の ALA-LC system 等があるが、下記見本では省略した。

4. ヘボン式ローマ字の異体

英語を基にした ヘボン式ローマ字 は、牧師のジェームズ・カーティス・ヘボンにより考案され、ヘボン編集による1867年出版の『和英語林集成』に初出した。ヘボン式は、今日最も広く使用されている事実上の標準表記法であり、日本政府でも本来公の方式である訓令式の代わりに使用されている。

一般に信じられているのとは異なり、実際にはヘボン式は一種類ではなく、多数の異体が存在する。標準とも言うべきヘボン式は正しくは「修正ヘボン式」と呼ばれ、以下に示す異体も修正ヘボン式と同等かそれ以上に使われていると言ってよい。「修正ヘボン式」は時に「改定ヘボン式」(一部の辞書や言語学者が用いる場合があるが、修正ヘボン式ほど普及していない)と呼ばれることもあるため、注意が必要である。


ヘボン式ローマ字の異体
漢字 読み 英語式 修正 ヘボン式 改定ヘボン式 ヘボン式原形 パスポート式 ワープロ式 ヘボン式異体
佐藤 さとう Sato Satō Satoo Satō Satoh, Sato Satou Satô
大津 おおづ Ozu Ōzu Oozu Ōzu Ohzu, Ozu Oozu Ôzu
井生 いおう Io Iō Ioo Iō Ioh, Io Iou Iô
伊大地 いおおじIojiIōjiIōjiIōjiIohji, IojiIoojiIôji
天満屋 てんまんやTenman'ya, TenmanyaTenman'ya, Tenmanya, Tenman-yaTenman'ya, Ten̄man̄yaTenman'yaTenman'ya, Tenmanya, Tenman-yaTenmanya
山陰房 さんいんぼうSan'inbo, SaninboSan'inbō, Saninbō, San-inbōSan'inboo, Saninboo, San̄in̄booSan'imbō, SanimbōSan'imboh, Sanimboh, San-imboh, San'imbo, Sanimbo, San-imboSaninbouSan'inbô, Saninbô, San-inbô, San'imbô, Sanimbô, San-imbô
本間ほんまHonmaHonmaHonma, Hon̄maHommaHommaHonma
淳一郎じゅんいちろうJun'ichiro, JunichiroJun'ichirō, Junichirō, Jun-ichirōJun'ichiroo, Junichiroo, Jun̄ichirooJun'ichirō, JunichirōJun'ichiroh, Junichiroh, Jun-ichiroh, Jun'ichiro, Junichiro, Jun-ichiroJunichirouJun'ichirô, Junichirô, Jun-ichirô
山口やまぐちYamaguchiYamaguchiYamaguchiYamaguchiYamaguchiYamaguchi
愛子あいこAikoAikoAikoAikoAikoAiko

5. 多過ぎるローマ字表記法

表3は、人名を標準、非標準の様々な表記法で示したものである。主要な3方式(ヘボン式、訓令式、日本式)については、表内の各列に正式な表記のみを記す。ヘボン式の異体等、上記3方式の異体がある場合は「各種異体」の列に、混合型表記は「混合式」の列に記す。ワープロ式は異体が数多くあるが、個別の列でなく「各種異体」の欄に示すものとする。

表2、3からわかる通り、異表記は次のような場合に起こり得る。

  1. 長母音の表記、特に /o:/ を ō、o、ô、ou、ohで表記する場合。
  2. 「ン」を /b/、/p/、/m/ の前で n の代わりに m で表記する場合。
  3. 「ン」が母音又は ヤ行音 の前にある時にアポストロフィーが省略される、又はハイフンで代用される場合。
  4. 「ジャ」 を ja、zya、jya と書くように、一部の子音の表記が複数通りある場合。

実際のところはそれぞれの表記法に何らかの異表記があり、人名を表記するのに複数の方式を混用することは珍しくない。例えば、Juniti という表記は改定ヘボン式の Jun(じゅん)と訓令式の iti(いち)を組み合わせたものである。ここではこのような組み合わせを混合型表記ということにする。


日本語のローマ字表記法
漢字 読み 英語式 ヘボン式 訓令式 日本式 各種異体 混合式 ドイツ語式 ラテン式
佐藤さとうSatoSatōSatôSatôSatoo, Satou, Satoh   
青塚あおづかAozukaAozukaAozukaAodukaAozucaAoduca  
愛子あいこAikoAikoAikoAikoAico   
生越いくごしIkugoshiIkugoshiIkugosiIkugosiIcugosiIcugoshiIkugoschiIkugochi
大津おおづOzuŌzuÔzuÔduOozu, Ouzu, Ohzu, Oodu, Oudu, Ohdu, OduŌdu  
井生いおうIoIōIôIôIoo, Iou, Ioh   
伊大地いおおじIojiIōjiIôziIôziIōzi, Ioozi, Iouzi, Iohzi, Iozi, Iooji, Iouji, Iohji, Iôji   
橋本はしもとHashimotoHashimotoHasimotoHasimoto  HaschimotoHachimoto
青柳塘あおやぎとうAoyagitoAoyagitōAoyagitôAoyagitôAoyagitoo, Aoyagitou, Aoyagitoh Aojagito 
天満屋てんまんやTenman'yaTenman'yaTenman'yaTenman'yaTemman'ya, Temmanya, Temman-ya, Tenmanya, Tenman-ya Tenman'ja, Tenmanja, Tenman-ja 
靑山あおやまAoyamaAoyamaAoyamaAoyama  Aojama 
赤口あかぐちAkaguchiAkaguchiAkagutiAkagutiAcaguciAkaguci, Acaguchi, AcagutiAkagutschiAkagutchi
山口やまぐちYamaguchiYamaguchiYamagutiYamagutiYamaguci JamagutschiYamagutchi
裕子ゆうこYukoYūkoYûkoYûkoYûco, Yūco, Yuuco, Yuco, Yuuko Juko 
相越あいこしAikoshiAikoshiAikosiAikosiAicosiAicoshiAikoschiAikochi
吉田よしだYoshidaYoshidaYosidaYosida  JoschidaYochida
正月しょうげつShogetsuShōgetsuSyôgetuSyôgetuSyōgetu, Syoogetu, Syougetu, Syohgetu, Syogetu, Shoogetsu, Shougetsu, Shohgetsu, ShôgetsuShōgetu, Shoogetu, Shougetu, Shohgetu, Shogetu, Shôgetu, Syôgetsu, Syōgetsu, Syoogetsu, Syougetsu, Syohgetsu, SyogetsuSchogetsuChogetsu
山陰房さんいんぼうSan'inboSan'inbōSan'inbôSan'inbôSaninbô, San-inbô, Saninbō, San-inbō, San'inboo, Saninboo, San-inboo, San'inbou, Saninbou, San-inbou, San'inboh, Saninboh, San-inboh, Saninbo, San-inbo, San'imbō, Sanimbō, San-imbō, San'imboo, Sanimboo, San-imboo, San'imbou, Sanimbou, San-imbou, San'imboh, Sanimboh, San-imboh, San'imbo, Sanimbo, San-imbo, San'imbô, Sanimbô, San-imbô   
四本松しほんまつShihonmatsuShihonmatsuSihonmatuSihonmatuShihommatsuShihonmatu, Shihommatu, Sihonmatsu, Sihommatsu, SihommatuSchihonmatsuChihonmatsu
佳子よしこYoshikoYoshikoYosikoYosikoYosicoYoshicoJoschikoYochiko

6. 膨大な数の異表記

上述のように、日本人名の異表記が多数存在する背景には、アポストロフィーの有無、長母音や一部の子音の表し方等、様々な要因が絡み合っている。仮に複数の要因が単一の人名中に同時にある場合、同じ名前のローマ字表記の数は一気に膨れ上がることになる。たった一つの名前でも、多数ある表記の異体を組み合わせれば数百通りの表記が出来上がってしまうわけである。

例として小泉純一郎前総理大臣の名を挙げると、標準的な修正ヘボン式で Jun'ichirō Koizumi となるが、「純一郎」 のローマ字表記は下表のように169通りが考えられる。表4ではこの169通りの異表記を大まかにランク付けしてあり、このうち多くの表記は広く頻繁に使用されているものである。これら異表記が各表記法の規則や考え得る綴り字の組み合わせに則って生成されている一方、ある特定の場面やコーパスではほとんど、或いは全く見られない異表記が含まれているのも確かである。しかし、そのような異表記も別な場面やコーパスにおいて出現する可能性は十分にあり、人名異表記の認識に最大限役立てるべく、他の異表記と同様にデータベースに収録してある。

日本人名の多対多関係の複雑性を表すもう1つの例として、「淳子」("Junko")の文字列をjunko.pdfから参照していただきたい。


「純一郎」の異表記
LS_ID 種別 ローマ字表記 ランク
LS038VARIANTJunichiroA
LS001ENGJun'ichiroA
LS039VARIANTJun-ichiroA
LS041VARIANTJunichirôA
LS093HYBRIDJuniciroA
LS002HEPBURNJun'ichirōA
LS059VARIANTJun-ichirōA
LS033VARIANTJunichirouB
LS032VARIANTJun'ichirouB
LS034VARIANTJun-ichirouB
LS058VARIANTJunichirōB
LS147HYBRIDJyunichiroB
LS069HYBRIDJunitirouB
LS075HYBRIDJunitiroC
LS055VARIANTZyun'itiroC
LS057VARIANTZyun-itiroC
LS030VARIANTJunichirooC
LS036VARIANTJunichirohC
LS141HYBRIDJyunichirouC
LS035VARIANTJun'ichirohC
LS037VARIANTJun-ichirohC
LS046VARIANTZyun'itirooC
LS048VARIANTZyun-itirooC
LS146HYBRIDJyun'ichiroC
LS148HYBRIDJyun-ichiroC
LS144HYBRIDJyunichirohC
LS029VARIANTJun'ichirooC
LS031VARIANTJun-ichirooC
LS159HYBRIDJyunitirouC
LS050VARIANTZyunitirouC
LS165HYBRIDJyunitiroC
LS072HYBRIDJunitirohC
LS047VARIANTZyunitirooD
LS049VARIANTZyun'itirouD
LS051VARIANTZyun-itirouD
LS056VARIANTZyunitiroD
LS111HYBRIDZyunichiroD
LS009LATINJunitchiroD
LS092HYBRIDJun'iciroD
LS094HYBRIDJun-iciroD
LS043VARIANTZyun'itirōD
LS045VARIANTZyun-itirōD
LS110HYBRIDZyun'ichiroD
LS112HYBRIDZyun-ichiroD
LS143HYBRIDJyun'ichirohD
LS145HYBRIDJyun-ichirohD
LS162HYBRIDJyunitirohD
LS104HYBRIDZyun'ichirouD
LS105HYBRIDZyunichirouD
LS106HYBRIDZyun-ichirouD
LS140HYBRIDJyun'ichirouD
LS142HYBRIDJyun-ichirouD
LS053VARIANTZyunitirohD
LS074HYBRIDJun'itiroD
LS076HYBRIDJun-itiroD
LS003KUNREIZyun'itirôE
LS004NIPPONZyun'itirôE
LS005GERMANICJun'itschiroE
LS006GERMANICJunitschiroE
LS007GERMANICJun-itschiroE
LS008LATINJun'itchiroE
LS010LATINJun-itchiroE
LS011VARIANTJyun'icirôE
LS012VARIANTJyunicirôE
LS013VARIANTJyun-icirôE
LS014VARIANTJyun'icirōE
LS015VARIANTJyunicirōE
LS016VARIANTJyun-icirōE
LS017VARIANTJyun'icirooE
LS018VARIANTJyunicirooE
LS019VARIANTJyun-icirooE
LS020VARIANTJyun'icirouE
LS021VARIANTJyunicirouE
LS022VARIANTJyun-icirouE
LS023VARIANTJyun'icirohE
LS024VARIANTJyunicirohE
LS025VARIANTJyun-icirohE
LS026VARIANTJyun'iciroE
LS027VARIANTJyuniciroE
LS028VARIANTJyun-iciroE
LS040VARIANTJun'ichirôE
LS042VARIANTJun-ichirôE
LS044VARIANTZyunitirōE
LS052VARIANTZyun'itirohE
LS054VARIANTZyun-itirohE
LS060VARIANTZyunitirôE
LS061VARIANTZyun-itirôE
LS062HYBRIDJun'itirōE
LS063HYBRIDJunitirōE
LS064HYBRIDJun-itirōE
LS065HYBRIDJun'itirooE
LS066HYBRIDJunitirooE
LS067HYBRIDJun-itirooE
LS068HYBRIDJun'itirouE
LS070HYBRIDJun-itirouE
LS071HYBRIDJun'itirohE
LS073HYBRIDJun-itirohE
LS077HYBRIDJun'itirôE
LS078HYBRIDJunitirôE
LS079HYBRIDJun-itirôE
LS080HYBRIDJun'icirōE
LS081HYBRIDJunicirōE
LS082HYBRIDJun-icirōE
LS083HYBRIDJun'icirooE
LS084HYBRIDJunicirooE
LS085HYBRIDJun-icirooE
LS086HYBRIDJun'icirouE
LS087HYBRIDJunicirouE
LS088HYBRIDJun-icirouE
LS089HYBRIDJun'icirohE
LS090HYBRIDJunicirohE
LS091HYBRIDJun-icirohE
LS095HYBRIDJun'icirôE
LS096HYBRIDJunicirôE
LS097HYBRIDJun-icirôE
LS098HYBRIDZyun'ichirōE
LS099HYBRIDZyunichirōE
LS100HYBRIDZyun-ichirōE
LS101HYBRIDZyun'ichirooE
LS102HYBRIDZyunichirooE
LS103HYBRIDZyun-ichirooE
LS107HYBRIDZyun'ichirohE
LS108HYBRIDZyunichirohE
LS109HYBRIDZyun-ichirohE
LS113HYBRIDZyun'ichirôE
LS114HYBRIDZyunichirôE
LS115HYBRIDZyun-ichirôE
LS116HYBRIDZyun'icirōE
LS117HYBRIDZyunicirōE
LS118HYBRIDZyun-icirōE
LS119HYBRIDZyun'icirooE
LS120HYBRIDZyunicirooE
LS121HYBRIDZyun-icirooE
LS122HYBRIDZyun'icirouE
LS123HYBRIDZyunicirouE
LS124HYBRIDZyun-icirouE
LS125HYBRIDZyun'icirohE
LS126HYBRIDZyunicirohE
LS127HYBRIDZyun-icirohE
LS128HYBRIDZyun'iciroE
LS129HYBRIDZyuniciroE
LS130HYBRIDZyun-iciroE
LS131HYBRIDZyun'icirôE
LS132HYBRIDZyunicirôE
LS133HYBRIDZyun-icirôE
LS134HYBRIDJyun'ichirōE
LS135HYBRIDJyunichirōE
LS136HYBRIDJyun-ichirōE
LS137HYBRIDJyun'ichirooE
LS138HYBRIDJyunichirooE
LS139HYBRIDJyun-ichirooE
LS149HYBRIDJyun'ichirôE
LS150HYBRIDJyunichirôE
LS151HYBRIDJyun-ichirôE
LS152HYBRIDJyun'itirōE
LS153HYBRIDJyunitirōE
LS154HYBRIDJyun-itirōE
LS155HYBRIDJyun'itirooE
LS156HYBRIDJyunitirooE
LS157HYBRIDJyun-itirooE
LS158HYBRIDJyun'itirouE
LS160HYBRIDJyun-itirouE
LS161HYBRIDJyun'itirohE
LS163HYBRIDJyun-itirohE
LS164HYBRIDJyun'itiroE
LS166HYBRIDJyun-itiroE
LS167HYBRIDJyun'itirôE
LS168HYBRIDJyunitirôE
LS169HYBRIDJyun-itirôE

Copyright © 2020 CJKI. All Rights Reserved.