Unicode基本平面外异体字

数据来源为Unicode的TR38 Unicode Han Database (Unihan).

截止至2020年2月19日Unicode 13.0的Unihan.zip,参见unicode.org/Public/UCD/

假定信息系统已支持基本多语言平面(BMP)的CJK字符(U+3400-9FFF),统计CJK中扩展B~G的异体字共4854字,分类情况如下:

基本平面里有繁体字、简体字在扩展B~的2394字,这个数量远远超过通规表的同样扩展B~E的196字。其中包括通规字表的【蔄晛暐頔】及表外的【韡㼆】等。

基本平面里有简体字、繁体字在扩展B~的34字,详情如下:

U+217B5 U+36DF 㛟
U+21839 U+36FF 㛿
U+21883 U+36E0 㛠
U+21FB1 U+37DC 㟜
U+228CF U+3988 㦈
U+22E01 U+6319 挙
U+23236 U+6685 暅
U+2364E U+3B63 㭣
U+23781 U+3BA0 㮠
U+23BF6 U+6BF6 毶
U+23FB7 U+3CE2 㳢
U+243B1 U+3DEA 㷪
U+24ABA U+3ED8 㻘
U+24AE9 U+3ECF 㻏
U+24DFD U+3FA1 㾡
U+258A2 U+416A 䅪
U+25D5C U+41DA 䇚
U+27355 U+45BC 䖼
U+27717 U+461E 䘞
U+27735 U+464A 䙊
U+2775E U+461B 䘛
U+27A59 U+4725 䜥
U+27D73 U+478C 䞌
U+27DA7 U+478E 䞎
U+282B0 U+4880 䢀
U+282B8 U+4881 䢁
U+282E2 U+4882 䢂
U+289AB U+4980 䦀
U+289DC U+4981 䦁
U+28BC5 U+497F 䥿
U+297AF U+4B6A 䭪
U+298D1 U+4BC3 䯃
U+29D98 U+4C9E 䲞
U+311A5 U+9FD5 鿕

URO+的15字如下:

另外对于U+30FAB的⿰钅监,Unihan仅列出了对应繁体字【鑑】(7002,电报码下同),但实际上按规范简体字写法应该是【鉴】(7003,电报码同繁体鑒)---以《資治通鑑》与《资治通鉴》是同一本书,可以知道。相信这类字应该还有不少,像【詠(6102)咏(0737)、韻(7301)韵(7301)、煇(8748)辉(6540,輝)】等。

编辑于 2021-02-07 10:00