LEXICAL FREQUENCY STATISTICS IN CHINESE
©2001-2019 The CJK Dictionary Institute, Inc.
The CJK Dictionary Institute
maintains comprehensive databases of lexical statistics, such as frequency of
occurrence, for Japanese and Chinese, based on large corpora. The concept of
"frequency" in relation to Chinese lexical items is tricky. This document
describes several kinds of Chinese character frequency statistics with
example tables, but there are other kinds which will be added in the near
future. Japanese lexical statistics are described in a
separate document.
The statistics in this document are reading-to-character
frequency. The characters for a given pinyin reading are
listed in descending order of frequency for both the Big Five and
GB-2312 character sets. Thus this is the relative frequency
within a homophone group. These are presented in two modes:
(1) characters sorted by pinyin + tone + frequency, and (2) characters
sorted by pinyin + tone. This data is especially useful for Chinese IME
applications.
In addition to single-character statistics, we also have similar statistics for word occurrence. The last table in this document shows one example (as yet unedited) of this -- a list of the top 100 words in Simplified Chinese.
Symbols used in the tables
Rank A | high frequency
|
Rank B | medium frequency
|
Rank V | low frequency
|
Table 1: Big Five characters by pinyin + tone + frequency
Pinyin + tone | Freq | Hanzi | Big5 | Unicode | B5 Rank
| a1 | 01 | 啊 | B0DA | 554A | A
|
---|
a1 | 02 | 阿 | AAFC | 963F | A
|
---|
a1 | 03 | 腌 | B5CB | 814C | B
|
---|
a1 | 04 | 錒 | EBE8 | 9312 | B
|
---|
a2 | 01 | 啊 | B0DA | 554A | A
|
---|
a2 | 02 | 阿 | AAFC | 963F | A
|
---|
a2 | 03 | 嗄 | DCD3 | 55C4 | B
|
---|
a3 | 01 | 啊 | B0DA | 554A | A
|
---|
a4 | 01 | 啊 | B0DA | 554A | A
|
---|
a4 | 02 | 阿 | AAFC | 963F | A
|
---|
a0 | 01 | 啊 | B0DA | 554A | A
|
---|
a0 | 99 | 阿 | AAFC | 963F | A
|
---|
ai1 | 01 | 唉 | ADFC | 5509 | A
|
---|
ai1 | 02 | 哀 | AB73 | 54C0 | A
|
---|
ai1 | 03 | 哎 | AB75 | 54CE | A
|
---|
ai1 | 04 | 埃 | AE4A | 57C3 | A
|
---|
ai1 | 05 | 挨 | AEC1 | 6328 | A
|
---|
ai1 | 06 | 欸 | D5D9 | 6B38 | B
|
---|
ai1 | 07 | 捱 | B1BA | 6371 | A
|
---|
ai2 | 01 | 挨 | AEC1 | 6328 | A
|
---|
ai2 | 02 | 癌 | C0F9 | 764C | A
|
---|
ai2 | 03 | 捱 | B1BA | 6371 | A
|
---|
ai2 | 04 | 皚 | BD4A | 769A | A
|
---|
ai2 | 05 | 騃 | EF63 | 9A03 | B
|
---|
ai2 | 06 | 啀 | D4A9 | 5540 | C
|
---|
ai2 | 07 | 娾 | D4E4 | 5A3E | C
|
---|
ai2 | 07 | 敳 | E1F4 | 6573 | B
|
---|
ai3 | 01 | 矮 | B847 | 77EE | A
|
---|
ai3 | 02 | 藹 | C4A7 | 85F9 | A
|
---|
ai3 | 03 | 噯 | BEBC | 566F | A
|
---|
ai3 | 04 | 靄 | C647 | 9744 | A
|
---|
ai3 | 05 | 欸 | D5D9 | 6B38 | B
|
---|
ai3 | 06 | 毐 | CB48 | 6BD0 | B
|
---|
ai3 | 07 | 佁 | CA64 | 4F41 | B
|
---|
ai3 | 08 | 昹 | CEF7 | 6639 | C
|
---|
ai4 | 01 | 愛 | B752 | 611B | A
|
---|
ai4 | 02 | 唉 | ADFC | 5509 | A
|
---|
ai4 | 03 | 艾 | A6E3 | 827E | A
|
---|
ai4 | 04 | 礙 | C3AA | 7919 | A
|
---|
ai4 | 05 | 曖 | C0C7 | 66D6 | A
|
---|
Table 2: Big Five characters by pinyin + frequency
Pinyin | Freq | Hanzi | Big5 | Unicode | B5 Rank | Pinyin + tone
| a | 01 | 啊 | B0DA | 554A | A | a0
|
---|
a | 02 | 阿 | AAFC | 963F | A | a0
|
---|
a | 03 | 嗄 | DCD3 | 55C4 | B | a2
|
---|
a | 04 | 腌 | B5CB | 814C | B | a1
|
---|
a | 05 | 錒 | EBE8 | 9312 | B | a1
|
---|
ai | 01 | 愛 | B752 | 611B | A | ai4
|
---|
ai | 02 | 唉 | ADFC | 5509 | A | ai1
|
---|
ai | 03 | 哀 | AB73 | 54C0 | A | ai1
|
---|
ai | 04 | 艾 | A6E3 | 827E | A | ai4
|
---|
ai | 05 | 礙 | C3AA | 7919 | A | ai4
|
---|
ai | 06 | 哎 | AB75 | 54CE | A | ai1
|
---|
ai | 07 | 埃 | AE4A | 57C3 | A | ai1
|
---|
ai | 08 | 矮 | B847 | 77EE | A | ai3
|
---|
ai | 09 | 挨 | AEC1 | 6328 | A | ai1
|
---|
ai | 10 | 癌 | C0F9 | 764C | A | ai2
|
---|
ai | 11 | 曖 | C0C7 | 66D6 | A | ai4
|
---|
ai | 12 | 隘 | B969 | 9698 | A | ai4
|
---|
ai | 13 | 藹 | C4A7 | 85F9 | A | ai3
|
---|
ai | 14 | 噯 | BEBC | 566F | A | ai4
|
---|
ai | 15 | 靄 | C647 | 9744 | A | ai3
|
---|
ai | 16 | 欸 | D5D9 | 6B38 | B | ai1
|
---|
ai | 17 | 捱 | B1BA | 6371 | A | ai2
|
---|
ai | 18 | 毐 | CB48 | 6BD0 | B | ai3
|
---|
ai | 19 | 皚 | BD4A | 769A | A | ai2
|
---|
ai | 20 | 璦 | C0F5 | 74A6 | A | ai4
|
---|
ai | 21 | 靉 | F957 | 9749 | B | ai4
|
---|
ai | 22 | 嬡 | E954 | 5B21 | B | ai4
|
---|
ai | 23 | 乂 | C940 | 4E42 | B | ai4
|
---|
ai | 24 | 騃 | EF63 | 9A03 | B | ai2
|
---|
ai | 25 | 啀 | D4A9 | 5540 | C | ai2
|
---|
ai | 25 | 鴱 | EF7C | 9D31 | B | ai4
|
---|
ai | 25 | 譪 | F4CF | 8B6A | B | ai4
|
---|
ai | 26 | 堨 | D8A5 | 5828 | B | ai4
|
---|
ai | 27 | 佁 | CA64 | 4F41 | B | ai3
|
---|
ai | 28 | 昹 | CEF7 | 6639 | C | ai3
|
---|
ai | 28 | 濭 | ED54 | 6FED | B | ai4
|
---|
ai | 28 | 鑀 | F669 | 9440 | C | ai4
|
---|
ai | 29 | 娾 | D4E4 | 5A3E | C | ai2
|
---|
ai | 29 | 敳 | E1F4 | 6573 | B | ai2
|
---|
ai | 30 | 僾 | E4ED | 50FE | B | ai4
|
---|
Table 3: GB-2312 characters by pinyin + tone + frequency
Pinyin + tone | Freq | Hanzi | GB Big5 | Unicode | GB Rank
| a1 | 01 | 啊 | 0-1601 | 554A | A
|
---|
a1 | 02 | 阿 | 0-1602 | 963F | A
|
---|
a1 | 03 | 腌 | 0-7571 | 814C | B
|
---|
a1 | 04 | 锕 | 0-7925 | 9515 | C
|
---|
a1 | 99 | 吖 | 0-6325 | 5416 | C
|
---|
a2 | 01 | 啊 | 0-1601 | 554A | A
|
---|
a2 | 02 | 阿 | 0-1602 | 963F | A
|
---|
a2 | 03 | 嗄 | 0-6436 | 55C4 | C
|
---|
a3 | 01 | 啊 | 0-1601 | 554A | A
|
---|
a4 | 01 | 啊 | 0-1601 | 554A | A
|
---|
a4 | 02 | 阿 | 0-1602 | 963F | A
|
---|
a0 | 01 | 啊 | 0-1601 | 554A | A
|
---|
a0 | 99 | 阿 | 0-1602 | 963F | A
|
---|
ai1 | 01 | 唉 | 0-1606 | 5509 | A
|
---|
ai1 | 02 | 哀 | 0-1607 | 54C0 | A
|
---|
ai1 | 03 | 哎 | 0-1605 | 54CE | B
|
---|
ai1 | 04 | 埃 | 0-1603 | 57C3 | B
|
---|
ai1 | 05 | 挨 | 0-1604 | 6328 | A
|
---|
ai1 | 06 | 捱 | 0-6263 | 6371 | C
|
---|
ai1 | 99 | 锿 | 0-7945 | 953F | C
|
---|
ai2 | 01 | 挨 | 0-1604 | 6328 | A
|
---|
ai2 | 02 | 癌 | 0-1609 | 764C | B
|
---|
ai2 | 03 | 捱 | 0-6263 | 6371 | C
|
---|
ai2 | 04 | 皑 | 0-1608 | 7691 | C
|
---|
ai3 | 01 | 矮 | 0-1611 | 77EE | A
|
---|
ai3 | 02 | 蔼 | 0-1610 | 853C | B
|
---|
ai3 | 03 | 嗳 | 0-6440 | 55F3 | C
|
---|
ai3 | 04 | 霭 | 0-8616 | 972D | C
|
---|
ai4 | 01 | 爱 | 0-1614 | 7231 | A
|
---|
ai4 | 02 | 唉 | 0-1606 | 5509 | A
|
---|
ai4 | 03 | 艾 | 0-1612 | 827E | B
|
---|
ai4 | 04 | 碍 | 0-1613 | 788D | A
|
---|
ai4 | 05 | 暧 | 0-7451 | 66A7 | C
|
---|
ai4 | 06 | 隘 | 0-1615 | 9698 | B
|
---|
ai4 | 07 | 嗳 | 0-6440 | 55F3 | C
|
---|
ai4 | 08 | 瑷 | 0-7208 | 7477 | C
|
---|
ai4 | 09 | 嫒 | 0-7040 | 5AD2 | C
|
---|
ai4 | 99 | 砹 | 0-7733 | 7839 | C
|
---|
ai4 | 99 | 嗌 | 0-6441 | 55CC | C
|
---|
an1 | 01 | 安 | 0-1618 | 5B89 | A
|
---|
Table 4: GB-2312 characters by pinyin + frequency
Pinyin | Freq | Hanzi | GB Qu-wei | Unicode | GB Rank | Pinyin + tone
| a | 01 | 啊 | 0-1601 | 554A | A | a0
|
---|
a | 02 | 阿 | 0-1602 | 963F | A | a0
|
---|
a | 03 | 腌 | 0-7571 | 814C | B | a1
|
---|
a | 04 | 嗄 | 0-6436 | 55C4 | C | a2
|
---|
a | 05 | 锕 | 0-7925 | 9515 | C | a1
|
---|
a | 99 | 吖 | 0-6325 | 5416 | C | a1
|
---|
ai | 01 | 爱 | 0-1614 | 7231 | A | ai4
|
---|
ai | 02 | 唉 | 0-1606 | 5509 | A | ai1
|
---|
ai | 03 | 哀 | 0-1607 | 54C0 | A | ai1
|
---|
ai | 04 | 艾 | 0-1612 | 827E | B | ai4
|
---|
ai | 05 | 碍 | 0-1613 | 788D | A | ai4
|
---|
ai | 06 | 哎 | 0-1605 | 54CE | B | ai1
|
---|
ai | 07 | 埃 | 0-1603 | 57C3 | B | ai1
|
---|
ai | 08 | 矮 | 0-1611 | 77EE | A | ai3
|
---|
ai | 09 | 挨 | 0-1604 | 6328 | A | ai1
|
---|
ai | 10 | 癌 | 0-1609 | 764C | B | ai2
|
---|
ai | 11 | 暧 | 0-7451 | 66A7 | C | ai4
|
---|
ai | 12 | 隘 | 0-1615 | 9698 | B | ai4
|
---|
ai | 13 | 蔼 | 0-1610 | 853C | B | ai3
|
---|
ai | 14 | 嗳 | 0-6440 | 55F3 | C | ai4
|
---|
ai | 15 | 霭 | 0-8616 | 972D | C | ai3
|
---|
ai | 16 | 捱 | 0-6263 | 6371 | C | ai2
|
---|
ai | 17 | 皑 | 0-1608 | 7691 | C | ai2
|
---|
ai | 18 | 瑷 | 0-7208 | 7477 | C | ai4
|
---|
ai | 19 | 嫒 | 0-7040 | 5AD2 | C | ai4
|
---|
ai | 99 | 砹 | 0-7733 | 7839 | C | ai4
|
---|
ai | 99 | 锿 | 0-7945 | 953F | C | ai1
|
---|
ai | 21 | 嗌 | 0-6441 | 55CC | C | ai4
|
---|
an | 01 | 安 | 0-1618 | 5B89 | A | an1
|
---|
an | 02 | 案 | 0-1624 | 6848 | A | an4
|
---|
an | 03 | 按 | 0-1620 | 6309 | A | an4
|
---|
an | 04 | 暗 | 0-1621 | 6697 | A | an4
|
---|
an | 05 | 岸 | 0-1622 | 5CB8 | A | an4
|
---|
an | 06 | 黯 | 0-8786 | 9EEF | C | an4
|
---|
an | 07 | 俺 | 0-1619 | 4FFA | B | an3
|
---|
an | 08 | 胺 | 0-1623 | 80FA | C | an4
|
---|
an | 09 | 鞍 | 0-1616 | 978D | B | an1
|
---|
an | 10 | 谙 | 0-5847 | 8C19 | C | an1
|
---|
an | 11 | 庵 | 0-6654 | 5EB5 | B | an1
|
---|
an | 12 | 氨 | 0-1617 | 6C28 | B | an1
|
---|
Table 5: GB-2312 Word Frequency
Rank | Hanzi | Occurrence | Percentage
| 1 | 的 | 104096 | 2.2019
|
---|
2 | 在 | 27946 | 0.5911
|
---|
3 | 和 | 25490 | 0.5392
|
---|
4 | 了 | 24636 | 0.5211
|
---|
5 | 一 | 20385 | 0.4312
|
---|
6 | 是 | 16358 | 0.3460
|
---|
7 | 年 | 14401 | 0.3046
|
---|
8 | 个 | 10874 | 0.2300
|
---|
9 | 有 | 10354 | 0.2190
|
---|
10 | 这 | 10111 | 0.2139
|
---|
11 | 中 | 9471 | 0.2003
|
---|
12 | 多 | 9375 | 0.1983
|
---|
13 | 为 | 9209 | 0.1948
|
---|
14 | 上 | 9060 | 0.1916
|
---|
15 | 说 | 8878 | 0.1878
|
---|
16 | 不 | 8599 | 0.1819
|
---|
17 | 大 | 8216 | 0.1738
|
---|
18 | 他 | 7965 | 0.1685
|
---|
19 | 对 | 7947 | 0.1681
|
---|
20 | 人 | 7791 | 0.1648
|
---|
21 | 日 | 6957 | 0.1472
|
---|
22 | 中国 | 6876 | 0.1454
|
---|
23 | 万 | 6652 | 0.1407
|
---|
24 | 到 | 6415 | 0.1357
|
---|
25 | 等 | 6228 | 0.1317
|
---|
26 | 将 | 6061 | 0.1282
|
---|
27 | 要 | 5815 | 0.1230
|
---|
28 | 国家 | 5770 | 0.1220
|
---|
29 | 第 | 5721 | 0.1210
|
---|
30 | 月 | 5629 | 0.1191
|
---|
31 | 各 | 5532 | 0.1170
|
---|
32 | 工作 | 5412 | 0.1145
|
---|
33 | 新 | 5312 | 0.1124
|
---|
34 | 经济 | 5196 | 0.1099
|
---|
35 | 发展 | 5149 | 0.1089
|
---|
36 | 两 | 5145 | 0.1088
|
---|
37 | 还 | 5079 | 0.1074
|
---|
38 | 已 | 4935 | 0.1044
|
---|
39 | 地 | 4842 | 0.1024
|
---|
40 | 次 | 4817 | 0.1019
|
---|
41 | 问题 | 4617 | 0.0977
|
---|
42 | 以 | 4615 | 0.0976
|
---|
43 | 全国 | 4550 | 0.0962
|
---|
44 | 也 | 4481 | 0.0948
|
---|
45 | 就 | 4315 | 0.0913
|
---|
46 | 来 | 4297 | 0.0909
|
---|
47 | 名 | 4276 | 0.0904
|
---|
48 | 与 | 4243 | 0.0897
|
---|
49 | 今天 | 4166 | 0.0881
|
---|
50 | 国 | 4120 | 0.0871
|
---|
51 | 种 | 4096 | 0.0866
|
---|
52 | 从 | 4022 | 0.0851
|
---|
53 | 企业 | 4012 | 0.0849
|
---|
54 | 全 | 3968 | 0.0839
|
---|
55 | 政府 | 3938 | 0.0833
|
---|
56 | 人民 | 3892 | 0.0823
|
---|
57 | 好 | 3879 | 0.0821
|
---|
58 | 生产 | 3598 | 0.0761
|
---|
59 | 技术 | 3542 | 0.0749
|
---|
60 | 并 | 3536 | 0.0748
|
---|
61 | 进行 | 3507 | 0.0742
|
---|
62 | 都 | 3483 | 0.0737
|
---|
63 | 向 | 3479 | 0.0736
|
---|
64 | 时 | 3448 | 0.0729
|
---|
65 | 美国 | 3441 | 0.0728
|
---|
66 | 元 | 3399 | 0.0719
|
---|
67 | 会议 | 3388 | 0.0717
|
---|
68 | 后 | 3367 | 0.0712
|
---|
69 | 会 | 3304 | 0.0699
|
---|
70 | 建设 | 3275 | 0.0693
|
---|
71 | 三 | 3252 | 0.0688
|
---|
72 | 去年 | 3242 | 0.0686
|
---|
73 | 地区 | 3184 | 0.0673
|
---|
74 | 党 | 3162 | 0.0669
|
---|
74 | 下 | 3162 | 0.0669
|
---|
76 | 我国 | 3145 | 0.0665
|
---|
77 | 项 | 3094 | 0.0654
|
---|
77 | 他们 | 3094 | 0.0654
|
---|
79 | 国际 | 3076 | 0.0651
|
---|
80 | 据 | 3033 | 0.0642
|
---|
81 | 把 | 3020 | 0.0639
|
---|
82 | 能 | 2953 | 0.0625
|
---|
83 | 于 | 2911 | 0.0616
|
---|
84 | 亿 | 2840 | 0.0601
|
---|
85 | 由 | 2799 | 0.0592
|
---|
86 | 着 | 2783 | 0.0589
|
---|
87 | 我们 | 2776 | 0.0587
|
---|
88 | 使 | 2731 | 0.0578
|
---|
89 | 最 | 2700 | 0.0571
|
---|
90 | 举行 | 2672 | 0.0565
|
---|
91 | 省 | 2580 | 0.0546
|
---|
92 | 世界 | 2544 | 0.0538
|
---|
93 | 被 | 2536 | 0.0536
|
---|
94 | 同 | 2530 | 0.0535
|
---|
95 | 领导 | 2529 | 0.0535
|
---|
96 | 记者 | 2448 | 0.0518
|
---|
97 | 组织 | 2413 | 0.0510
|
---|
98 | 高 | 2412 | 0.0510
|
---|
99 | 活动 | 2395 | 0.0507
|
---|
100 | 家 | 2352 | 0.0498
|
---|