关于部分异体字实际占用两个字符的情况 #43

taowater · 2023-07-26T08:08:13Z

在实际使用库转换一些古籍文本时，有不少的文字转换失败，实际调试发现，有些异体字如𨦟，其占用两个char作为一个完整意义上的可见字符，而库中源码将字符串转为字符串数组的方式可能会将这种关联断掉，导致转换失败。实际自己的魔改实践发现，java.lang.String#codePointCount方法可以得到一个字符串中所含有的完整【字符】数量，例图二，我想请问您是否有打算兼容这种情况。

houbb · 2023-07-26T12:43:23Z

后续我有时候我看下这个问题。发自我的iPhone

…

------------------ 原始邮件 ------------------ 发件人: Zhu56 ***@***.***> 发送时间: 2023年7月26日 16:08 收件人: houbb/opencc4j ***@***.***> 抄送: Subscribed ***@***.***> 主题: Re: [houbb/opencc4j] 关于部分异体字实际占用两个字符的情况 (Issue #43) 在实际使用库转换一些古籍文本时，有不少的文字转换失败，实际调试发现，有些异体字如𨦟，其占用两个char作为一个完整意义上的可见字符，而库中源码将字符串转为字符串数组的方式可能会将这种关联断掉，导致转换失败。实际自己的魔改实践发现，java.lang.String#codePointCount方法可以得到一个字符串中所含有的完整【字符】数量，例图二，我想请问您是否有打算兼容这种情况。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

houbb · 2025-04-11T06:02:58Z

v1.9.1 已兼容支持。

        String originText = "\uD862\uDD9F";
        Assert.assertEquals(true, ZhConverterUtil.isChinese(originText));

        String text = "\uD86A\uDC43还有\uD862\uDD9F";

        Assert.assertEquals("\uD86A\uDC43还有\uD862\uDD9F", ZhConverterUtil.toSimple(text));
        Assert.assertEquals("\uD86A\uDC43還有\uD862\uDD9F", ZhConverterUtil.toTraditional(text));

houbb closed this as completed Apr 11, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于部分异体字实际占用两个字符的情况 #43

关于部分异体字实际占用两个字符的情况 #43

taowater commented Jul 26, 2023

houbb commented Jul 26, 2023 via email

houbb commented Apr 11, 2025

关于部分异体字实际占用两个字符的情况 #43

关于部分异体字实际占用两个字符的情况 #43

Comments

taowater commented Jul 26, 2023

houbb commented Jul 26, 2023 via email

houbb commented Apr 11, 2025