登录站点

用户名

密码

博客书架

文章功业

已有 2683 次阅读  2011-07-17 14:46
Ken当年创发UTF-8编码,实在已正确反映了英美字母和中日韩字元间的资讯差异。

想想,这通用字符集从16位元被迫扩充到了21位元,岂不正是「多如繁星,万码奔腾」的文字害的么? 

即便硬生生搞个汉同文 ,灭了无数重复字元,到头来双位元组仍是不敷使用。

假设推特的限制是140 个UTF-8「位元组」,那我们写中文推特的感觉,和写英文或许相去不远。

因为每个中文字占3个位元组——有时我用些生僻古字,超出了基本多语面 ,那就要占4个位元组了。

但历史的意外,让推特算的是140 个「字符」。 (不是「语素」)

如此一来,一则中文推特,就需要使用420个位元组,已经可以构成一篇博客短文。

分享 举报

评论 (0 个评论)