主要中文詞匯資源
日中韓辭典研究所 (CJKI)擁有300萬中文辭典數據,數據庫內容包括一般詞匯、專業術語、專有名詞、公司名稱等。數據支持簡繁中文,可應用於機器繙譯(MT) 、信息檢索(IR)和輸入法編輯器 (IME)等應用軟件的開發。
- 發表了中英專業術語辭典。數據覆蓋科學、技術、金融等65多個領域,條目達290萬。
- 發表了獨具特色的中英辭典(簡體)。內容包括一般詞匯、專業術語和重要專有名詞,條目達80萬。
- 發表了韓中專有名詞數據庫。內容包括以韓國為主的各國人名、地名,條目達188萬。
- 大幅擴充了中日專業術語數據庫。數據覆蓋科學、技術等20多個領域,條目達82萬。
- 大規模數據庫(數百萬)為基礎的漢字/拼音轉換系統 保證了漢字對拼音、對註音、以及對由15種羅馬字標記法組成的廣東語的準確轉換。
- 中國人名異形詞數據庫 由數百萬人名和其異形詞(由8種羅馬字標記法標記)組成。
- 綜合性中文詞匯數據庫 由一般詞匯和專有名詞(人名)組成。簡繁詞匯數量各為50萬,可應用於形態分析、信息檢索和實體提取等領域,特別適用於中文信息處理。
- 中文專有名詞數據庫 數據庫支持簡繁中文。內容包括人名、地名和公司名稱,條目達200萬。與CJKI的綜合性中文詞匯數據庫相結合,便是一套性能卓越的應用套件。
- 多語言專有名詞數據庫 數據庫語言覆蓋簡體中文、繁體中文、日語、韓國語和英語,最近又新增阿拉伯語,使得數據庫的涵蓋範圍更加廣闊。
- 英中辭典(簡體) 條目達8萬語(可以擴充到10萬語),數據包括一般詞匯和重要專有名詞。
- 中英英中IT術語辭典 不斷網羅最新詞匯,數據庫條目超過10萬。數據庫語言支持簡繁中文。
- 日中英多語言IT術語數據庫 數據庫語言支持簡繁中文。
- 中英新詞數據庫 新詞數據庫由中國籍編輯人員負責維護和擴充。
- 漢語形態數據庫 漢語派生詞綴數據庫,可用來識別複合詞和提取實體,適用於MT、NLP和信息檢索等應用軟件開發。
- 中文詞匯頻度統計 在大規模數據庫的基礎上建成的綜合性中文詞匯頻度統計數據庫,包括字和詞的出現頻度信息,適用於NLP和手機輸入法等應用軟件開發。
- 中國大陸與臺灣發音的差異 多達260萬條的大規模漢語發音數據庫,中國大陸與臺灣發音的差異部分尤其值得關注。
- 英中辭典(繁體) 內容包括一般詞匯和重要專有名詞,條目達8萬。
- 簡繁輸入法對應表 對應表支持複雜的簡繁轉換,實現了詞對轉換和詞義轉換,内含數十萬專有名詞。
- 簡繁詞匯對應表 此表是簡繁輸入法對應表中的詞匯部分,支持簡繁/繁簡雙向轉換。
- 日中專有名詞辭典(簡體) 106,000條日本專有名詞的簡體中文對譯,除一般人名和地名,還包含相當數量的罕見專有名詞。