Contract
人机交互协议白皮书
摘要:
在过去,中文信息处理的输入、机器识别和输出系统采用不同的技术标准,实现方式千差万别且相互独立。为此,本人提出了一种中文信息处理可通用的人机交互标准
——人机交互协议
该协议通过一套符号系统为基础,可衍生出的各种软硬件设计和控制方法。将所有涉及中文信息处理的输入输出技术统一到一套可通用的标准下,使得涉及中文信息处理的人机交互过程不再分立于不同的系统实现。人机交互协议是基于中文的统一语言文字——华语通文作为科技领域的应用实施标准,是统一语言文字的核心设计部份。
简介:
人机交互协议是一套基于二进制编码(华韵码)和符号系统(华语通文以下简称“通文”)的规则和集合,该套规则可通用于中文信息处理的人机交互。该协议适用于各种不同原理的信息处理硬件和系统;实现以统一一致的方式对中文信息的录入、处理、传输以及基于该中文信息处理规则下实现通用人机交互界面;该协议适应不同历史时期的硬件设备以及不同载体的信息处理标准;该协议具有自成体系和自我完备的结构特征。
应用:
该协议可应用于信息传输编码:中文电报码和中文信息交换码;
应用于各种不同硬件平台的中文输入方法,如:不同数量物理按键信息设备(电脑键盘、功能手机、电子词典、游戏手柄、自定义按键信息设备),多种不同操作方式和原理的输入设备:(单键飞梭按键、触摸屏、虚拟现实输入、语音输入、脑波输入);
该人机交互协议采用人机共识性的编码,应用于机器的汉字手写识别、音频编码识别、基于中文信息编码的二维码、及各种依据该协议编码的模式化图形识别方法;
该人机交互协议定义了适用于不同硬件平台下的人机交互界面,如:二进制段位显示屏、音频编码、人机界面等。
可广泛应用于语言文字学领域:作为汉语辅助语或派生语言文字使用(如:记音字符、盲文、手语、旗语等肢体语言)
可延伸出兼具文化艺术特征的不同或表现形式的字符、人工语言文字系统和支持基于表音字的汉字改革。
人机交互协议三层结构
由下至上分别是:一、字符编码层;二、输入识别层;三、界面语言层。
三层结构涵盖了中文信息处理系统输入和输出所有环节。
第一层:字符编码层
此层定义了符号和汉字的取码规则,并开放了依据此编码符号定义的其它符号定义规则。通文字符即编码:它既是二进制数的字形编码也同是信息存储和交换码。该编码由两个
五位二进制数加上两位辅助二进制数组合而成。其中用数字 1 和 0 及间隔字符的编码表示称为“华韵码”,它与通文的字形结构是一一对应的关系。由于现在计算机及信息处理设备暂时不支持通文字符,可以通过“华韵码”作为辅助信息交换手段。
虽然该字形编码需要用到 12 位二进制数,但并不意味着该字符存储时也需要 12 位二进制数。因为本协议的定义的基本字符都是左右对称结构,所以只需要 32 位+1 个功能位二进制字符,即最少 6 位二进制数就可以对该符号进行存储。
如图:“字模”所示
该字形来源于中国传统符号和计算符号,分别由八条线段和和四个点构成,根据线段功能的划分,由两条“档线”线段、六条“爻”线段和四个“筹”点所构成。“档线”主要是起功能性作用,其中位于字模中间的“档线”是默认档线,用于
控制字符的显示模式;位于左侧的档线,在字母上用于控制文字的发音。
根据汉语拼音和字形相似程度定义以下 22 个表音字符作为基本字母,和 10 个数字符号,采用对称结构。当然基本字母并不是一定如此,原因是只要能凑齐其它非对称结构的,
由该协议定义的 44 个拼读发音,就可独立成一批新的“基本字母”。10 位二进制数加上字模左侧 1 位档线,共 11 位二进制数可组合出 2048 个符号,再加上中间默认档线,可组合出
4096 个字符,其中数字符号占 100 个。除了应用于 413 个左右的中文拼读外,其它不可“拼”字符可广泛用于基于汉语拼读方式的汉字外符号的组合和读音拼写。
基本字母表:
数字字符:
该符号系统的数字部份,抽象于传统筹算符号,在科学技术日益普及的今天,算盘计算方法逐渐被淘汰,对于理解和掌握这一“通文”符号系统,有助于保留和传承传统文化。数字字符“档线”的作用是对数字进行两两分隔,一个字符可以表达 0~99 个数字。
其中按算盘堆叠显示的字符用于数字字符,如下图所示:
数字字符都是成对出现,一个字符可容纳从 0 到 99 的范围。
该协议下定义的拼读组合与拼音组合基本相同,共 413 种左右的拼读,该“左右”结构的字符还可以更进一步扩充或压缩表示,如:以下的压缩字符由两“档线”、15 位二进制结构的表现形式:
汉字外字符发音
完全按照汉语拼音拼读规则定义,如下图所示,26 个英文字符:
拼读规则
例:
该字符定义和组合规则,采用汉字音形编码和组合,采用传统的反切的方式进行汉字发音和拼读,忽略了声调。这意味着通文相较于汉字是多对一的关系,然而如果不考虑读音,每个多音字的字形编码部分是相同且在所有汉字中是唯一的。
反切符(档线)可取左右结构字符右侧部份。
取码规则:
通文是通过汉字音形编码实现的拼写组合,本系统由三部份定义实现:
1. 字符定义,如前所述 22 个基本字母,这里不再赘述
2. 形码取码规则
3. 音码取码规则
形码取码规则:
形码部份和音码部份构成一个完整的“信息摘要”编码序列。其中容纳了汉字所有特征部件读音和发音。
基本构成:
1. 四个基本笔画:
根据汉字基本构成,抽象出
横(—)竖(|)斜(/)反斜(\,此处称为“仄”)四个基本笔画,原则上抽象为四个基本二进制组成单位:
00 横 11 竖(|)10 斜(/)01 反斜(\)
之所以称为原则上,是因为部份字形结构编码需要绕开数字表示,这样所有编码构成的字符都是可拼读的。
2.相对位置:
11 上 00 下 10 左 01 右
3.组合关系:
0 分 1 连
如:“汉”字
取基本笔画“仄”01+下一个基本笔画的相对位置:“下”00+之间组合关系:“分”0
字形结构与编码对照表 | ||||
结构名称 | 华韵码 | 拼音 | 编码是否更改 | 是否存在此结构 |
横上分 | /10010 | ri | 是 | |
横下分 | 11011 | lun | 是 | 不存在 |
横下连 | /00101 | wu | 是 | |
横右分 | 00100 | zhong | ||
横右连 | 10100 | gan | ||
横左分 | 11001 | bo | 是 | |
上分横 | /10010 | ri | 是 | |
上分竖 | 11010 | sui | 是 | |
上分斜 | 11101 | cang | 是 | |
上分仄 | 01101 | zuo | ||
竖上分 | 11010 | sui | 是 | |
竖下分 | 00011 | qin | ||
竖下连 | 10011 | fen | ||
竖右分 | 00111 | ping | 不存在 |
竖右连 | 10111 | chou | ||
竖左分 | 01011 | mei | ||
下分横 | 11011 | lun | 是 | |
下分竖 | 00011 | qin | ||
下分斜 | 00010 | xao | ||
下分仄 | 00001 | yi | ||
下连横 | /00101 | wu | 是 | 不存在 |
下连竖 | 10011 | fen | ||
下连斜 | 10010 | er | ||
下连仄 | 10001 | kai | ||
斜上分 | 11101 | cang | 是 | |
斜下分 | 00010 | xao | ||
斜下连 | 10010 | er | ||
斜右分 | 00110 | da | 不存在 | |
斜右连 | 10110 | he | ||
斜左分 | 01010 | nv | ||
右分横 | 00100 | zhong | ||
右分竖 | 00111 | ping | ||
右分斜 | 00110 | da | ||
右分仄 | 00101 | tu | 不存在 | |
右连横 | 10100 | gan | ||
右连竖 | 10111 | chou | ||
右连斜 | 10110 | he | ||
右连仄 | 10101 | sheng | ||
仄上分 | 01101 | zuo | ||
仄下分 | 00001 | yi | ||
仄下连 | 10001 | kai | ||
仄右分 | 00101 | tu | ||
仄右连 | 10101 | sheng | ||
仄左分 | 01001 | jie | ||
左分横 | 11001 | bo | 是 | |
左分竖 | 01011 | mei | ||
左分斜 | 01010 | nv | ||
左分仄 | 01001 | jie |
根据常用字和次常用字的顺序,根据上述编码取首尾相对位置的笔画、位置和连接关系
的结构,取首尾特征码合并成二进制编码序列,如:
字:
仄下分斜右分横右连斜下分横右连斜下分竖下连仄上分横
得到的特征码结果:仄下分上分横
姿:
字体拆分结构:
仄下分斜右分斜右分横右连斜下分斜右分仄下分斜下连仄右分斜上分横得到的特征码结果:
仄下分斜右分右分斜上分横
有以下拼读与拼音不同:
j、q、x,后不跟 i如:
所有韵母ü 的读音(yu、lv、nv、ju、qu、xu)全部以 nv 字符拼读:
其它拼读与拼音完全一致。
拼写与拼读规则:
汉字声母对应字母序列放的首部,字形部份字母位于字母序列的中间,韵母对应字母位于字符序列末尾,根据可拼读关系组合成一串通过拼音和“反切”拼读方式的字符组合。
通文字符定义和编码序列几乎囊括了所有的汉字特征,我们根据常用字和次常用字的顺序,取舍不同长度的“编码”,以绕开重码,便可根据语音描述特征部份以反切拼读的方式,用一串简短的特征发音字符唯一地确定一个汉字。
是指一个汉字外符号的中文发音编码的组合。如英文字符就是汉字外符号:
字符运算规则
由于通文的二进制结构,这使得通过二进制运算即可得到字形的表示。如:
字母“或”运算大或土=平
数字“或”运算: 11 或 22=22
字母“与”运算:博与分=开
数字“与”运算: 33 与 44=33
字母“非”运算:非女=生
数字“非”运算:非 55=44
通过此运算规则实现的字形组合运算,可通过有限的字符组合出新的字符,打破了过去一个编码一个字符的范式。为通文的表达、硬件设备、软件算法和辅助汉字的计算机信息输入和处理带来多种可能。
字符编码层协议的扩展:
您可以通过本协议规范设计出自己的“字体”或“文字”,便可与华语通文或中文进行转义,用于文化创意(详见:《基于华语通文的人工语言文字设计与创意》)。
第二层:输入识别层
该层主要是对上层字符编码规范下对辅助汉字信息处理的应用,适用于各类不同硬件平台下的字符编码系统及相应的输入方法
根据字模定义,不显示的爻线以两点替代,按从左到右,从上到下的顺序排列即是电报码。此电报码不仅兼容过去的发报设备,也可用xxx制的中文信息输入设备进行字符或中文录入。
十进制 | 二进制 | 拼音 | 对应发音字 | 通文字母 |
0 | 000000 | 0 | 0 | |
1 | 000001 | yi | 一 | |
2 | 000010 | xao | 小 | |
3 | 000011 | qin | 亲 | |
4 | 000100 | zhong | 中 | |
5 | 000101 | tu | 土 | |
6 | 000110 | da | 大 |
7 | 000111 | ping | 平 | |
8 | 001000 | 1 | 1 | |
9 | 001001 | jie | 皆 | |
10 | 001010 | nv | 女 | |
11 | 001011 | mei | 美 | |
12 | 001100 | 2 | 2 | |
13 | 001101 | zuo | 作 | |
14 | 001110 | 3 | 3 | |
15 | 001111 | 4 | 4 | |
16 | 010000 | 5 | 5 | |
17 | 010001 | kai | 开 | |
18 | 010010 | er | 尔 | |
19 | 010011 | fen | 分 | |
20 | 010100 | gan | 干 | |
21 | 010101 | sheng | 生 | |
22 | 010110 | he | 禾 | |
23 | 010111 | chou | 筹 | |
24 | 011000 | 6 | 6 | |
25 | 011001 | bo | 博 | |
26 | 011010 | sui | 穗 | |
27 | 011011 | lun | 论 | |
28 | 011100 | 7 | 7 | |
29 | 011101 | cang | 苍 | |
30 | 011110 | 8 | 8 | |
31 | 011111 | 9 | 9 | |
32 | 100000 | / | / | |
33 | 100001 | /yi | /xx | |
34 | 100010 | /xao | /xao | |
35 | 100011 | /qin | /qin | |
36 | 100100 | /zhong | /zhong | |
37 | 100101 | /tu | /tu | |
38 | 100110 | /da | /da | |
39 | 100111 | /ping | /ping | |
40 | 101000 | 10 | 10 | |
41 | 101001 | /jie | /jie | |
42 | 101010 | /nv | /nv | |
43 | 101011 | /mei | /mei | |
44 | 101100 | 20 | 20 | |
45 | 101101 | /zuo | /zuo | |
46 | 101110 | 30 | 30 | |
47 | 101111 | 40 | 40 | |
48 | 110000 | 50 | 50 |
49 | 110001 | /kai | /kai | |
50 | 110010 | /er | /er | |
51 | 110011 | /fen | /fen | |
52 | 110100 | /gan | /gan | |
53 | 110101 | /sheng | /sheng | |
54 | 110110 | /he | /he | |
55 | 110111 | /chou | /chou | |
56 | 111000 | 60 | 60 | |
57 | 111001 | /bo | /bo | |
58 | 111010 | /sui | /sui | |
59 | 111011 | /lun | /lun | |
60 | 111100 | 70 | 70 | |
61 | 111101 | /cang | /cang | |
62 | 111110 | 80 | 80 | |
63 | 111111 | 90 | 9 |
如(一键、二键、三键、四键、五键、六键、七键、八键、九键、十键、电脑键盘输入、单键飞梭模式输入、游戏手柄输入、触摸屏划屏输入(含逻辑输入)、虚拟现实三维空间触控输入设备与方法)
其它输入法:
基于该编码语音规范的中文语音输入方法基于该编码的乐音输入方法
基于该编码发音的中文的脑电波输入方法
人机共识:
应用于汉字手写识别方法
其中汉字字形编码囊括了汉字所有可能部件信息,可用于手写输入、汉字识别和汉字检
索,及其它汉字信息处理检索功能。人机共识的机器语音编码
按照第一层编码协议规范可自定义不同语音表达。字符的二维码
根据自定义符号或字形设计,通常来说要达到每一种“字符“互议,需要开发者完成此层字符识别功能的开发,如此不论何种自字义字符都可被尊守该人机交互协议的设备识别或转义。
包括在第一层自定义的符号在第二层输入规则和机器识别算法的实现。
第三层:界面语言层
可显示二进制编码的段位显示屏(lcd、led、oled 等)
可显示二进制编码不同分辨率人机界面
2.1.盲文
2.2.手语
可定义(略) 2.3.旗 语 可定义(略)