文章功业

已有 3874 次阅读 2011-07-17 14:46

Ken当年创发UTF-8编码，实在已正确反映了英美字母和中日韩字元间的资讯差异。

想想，这通用字符集从16位元被迫扩充到了21位元，岂不正是「多如繁星，万码奔腾」的文字害的么？

即便硬生生搞个汉同文，灭了无数重复字元，到头来双位元组仍是不敷使用。

假设推特的限制是140 个UTF-8「位元组」，那我们写中文推特的感觉，和写英文或许相去不远。

因为每个中文字占3个位元组——有时我用些生僻古字，超出了基本多语面，那就要占4个位元组了。

但历史的意外，让推特算的是140 个「字符」。 (不是「语素」）

如此一来，一则中文推特，就需要使用420个位元组，已经可以构成一篇博客短文。

评论 (0 个评论)