因为想复习一下整个计算机体系,无意间选择了从字符编码开始入手,未曾想却越陷越深。

虽然在当下,似乎 Unicode 已经大杀四方,utf-8 也已经遍地开花,但是毕竟字符编码是计算机最基础的一部分,多了解一下也许能带来许多不同的视角。

本以为我会从 ASCII 开始,再到 utf-16 的各种模式,以及 utf-8 的各种神奇操作,最后用 Emoji 来结束战斗。

让我没想到的是,『为字符编码』这件事,其实应当追溯到 18 世纪的电报时代,也许莫斯电码才是起点。

总而言之,这个学习编码的计划看起来没那么简单了,暂时考虑分隔成几个部分来学习吧。

以下是暂定的计划:

  • 摩尔斯电码

    • 最早用于电报的字符编码方式
    • 独特的输入方式
    • 探讨:莫斯电码究竟有几个基础状态?
    • 拓展:压缩,电键改造
  • Baudot code / ITA1

    • 最早的 5bit 编码
    • 独特的输入方式
    • 为什么引入 shift 来切换代码页
    • 博多式电报机的机械结构基础原理
  • Murray code / ITA2

    • 纸带为我们带来了什么?
    • 输入方式首次变为 QWERT 键盘
    • 为什么对编码做调整
  • BCD / BCDIC 编码

    • 6bit 编码
    • IBM 主导,但是百花齐放
    • 与二进制数值实现了某种程度上的『兼容』
  • EBCDIC 编码

    • 8bit 编码,与 ASCII 竞争
    • 似乎臭名昭著
    • Transcode
  • ASCII 编码

    • 什么? ASCII 是 7bit 编码?
    • ASCII 的优势
    • 原来 ASCII 也是有好几代的
    • 和 ANSI 是什么关系
  • 其它奇怪的编码

    • GOST 10859
    • ECMA-6
    • ISO 646

      • 似乎是 ASCII 造出的孽
    • Gray_code

      • 严格来说并不是一种编码,但是很有意思
  • Braille_ASCII

    • 盲文 ASCII
    • 需要补习下盲文知识
  • Unicode

    • 天下归一,为什么这么强
    • UCS2 和 UTF16
    • UCS4 和 UTF32
    • UTF-8 到底几字节?
    • UTF-7 ??
    • Emoji
  • 字符集 编码 是什么关系?