中文输入法杂谈:Windows 篇

8,179 字

本文主要针对 Windows 操作系统的拼音输入法们进行杂谈论述,如有错漏请及时提醒。

古往今来,人类擅长发明和使用工具。数字时代被发明并广泛使用的工具是各式各样的屏幕,计算机是这时代上半阶段的屏幕,手机等移动终端则是这时代后半阶段(已知)的屏幕。但无论屏幕如何进化,古今一辙贯穿着时代的莫过于是每位工具者在屏幕前的表达欲。不难想象,在屏幕之前,其表达欲的最终释放会以输入法的方式承继与串联。简而言之,在这个时代,只要你在屏幕前进行话语表达,你必然离不开输入法的使用,而输入法又以拼音输入法为主流。

但现状很残酷——现在的拼音输入法并不尽如人意,特别是在最为广泛使用的 Windows 系统之中,找到一款安全、好用、靠谱的拼音输入法竟然会是一件难事。面对这样的现状,不得不用一篇文章来批判一番。


最大的江湖,最臭的肉

先谈谈操作系统市场份额的江湖老大 Windows 系统中的拼音输入法们。

Windows 中的拼音输入法,粗略计算,约莫有这么几个选择——

在 8102 年,判断一个产品是否仍在正常的、活跃的开发轨道上,通常可以通过观察其官网是否开启 HTTPS,网页底部的年份是否最新一年,最近更新时间是否在一年之内等变量进行判断。于是,我经过搜索、浏览、整理各大输入法的网站、更新日志等内容,得出以下数据:

输入法名称 网站启用 HTTPS 网站年份显示 最后更新日期 版本号
搜狗输入法 2018 2018-10-09 9.1
百度输入法 2018 2017-08-18 5.4
手心输入法 2014-2017 2018-02-08 2.7
QQ输入法 无年份显示 2018-09-20 6.0.5015.400
讯飞输入法 2010-2018 2017-04-27 v2.1.1611
华宇拼音输入法 2013 2017-11-09 V6.9
小狼毫 Weasel 2018 2018-04-26 0.11.1
小小输入法 2003-2015 2018-03-04 2.5.0
多多输入法生成器 2001-2013 2017-04-24 V4测试版本
拼音加加 2011 2010-12-23 5.2正式版
谷歌拼音输入法 - - 2014-06-19 2.7.25.128

其中谷歌拼音输入法在 2018年6月已被完全撤下,不再提供下载。用户在PC上使用已安装的谷歌拼音输入法无法登录Google账号和使用其自动同步功能。其原本的官网现在仅能在互联网档案馆的时光机中找到它原来的模样。

经过浏览以上的数据与内容,相信各位读者对国内 Windows 系统中的输入法现况已经具备一定概念,也就不像论文那般一一分析解释了。鉴于中文输入法的范畴相当广阔,下面的内容我会尝试性挑着拼音输入法来述说一番。


系统自带的光环:微软拼音

严格意义上来说,现在提及的微软拼音,是必应输入法的继承者3。必应输入法曾经是搜狗输入法、QQ 输入法、谷歌拼音输入法等主流智能输入法的有力竞争者。但在 Windows 8 之后必应输入法便停止更新,团队重新编制到 Windows 的中文输入法团队之中,最终开发出现在的微软拼音。在经历了诸多版本的更新迭代后,微软拼音在更新到 Windows 10 RS2 之后的版本已算得上是一款具备可用性的输入法,诸如自定义双拼方案、自定义短语、云联想等功能都得以实现与完善。特别是在最新的 RS5 版本中,可用Win + .Win + ;来激活 emoji 和特殊符号输入框,其体验已经胜过不少所谓的主流智能输入法。当然,这些功能的实现离不开其中文输入法团队的独立,以及微软拼音的前身必应输入法所奠定的技术基础。但先扬后抑,现在微软拼音本身仍存在一些体验逻辑上的问题。

首先,微软拼音有一个很神(qí)奇(pā)的设定,它不允许以 "v" 开头的自定义短语拼音。

这个设定限制的初衷,我深以为然,但正因为了解,所以才认为其神(qí)奇(pā)。我在微软拼音的设置项中,找到一个从搜狗输入法中借鉴而来的功能——V 模式输入。从逻辑上判断,因为产品中功能之间的兼容性,开发团队用心良苦地避免 V 模式输入的触发受到自定义短语的影响,于是预先限制不允许用户以 "v" 开头的自定义短语拼音。

到这里,你会感觉实现逻辑上没有问题,甚至合情合理。然而微软拼音提供着导入自定义短语的选项,可在功能上的兼容性的追求上,这一功能却没有很好地和V 模式输入进行兼容。只要通过深蓝词库这一软件,把自己想要的词库、短语转为微软拼音自定义短语的格式 .dat 并导入到微软拼音中,即使是 "v" 开头的拼音亦可以轻松导入到自定义短语当中。毫无疑问,这是功能上自以为是的兼容性限制。乍一看入口看似闭塞,可在突破后便畅通无阻。这种伪限制,让自定义词语的自由度受到限制,反而增加突破限制的研究成本,造成用户体验的缺失。在我看来这便是一种神(qí)奇(pā)。

我认为更好的逻辑应该是,不限制 "v" 开头的自定义短语拼音,而是把微软拼音中 V 模式输入功能的触发统一改为双拼模式下才使用Shift + v。根据电脑默认的输入规则,Shift + v会出现大写的 "V" ,而自定义短语中,出现以大写 "V" 为开头的自定义短语拼音可谓少之又少,甚至不会出现,而且V 模式输入的功能也不是常用功能,仅对少数人有特殊作用。经过这样的逻辑处理既可以兼顾自定义的自由度,同时也兼顾特殊功能的实现。可惜微软产品通常会有属于产品人特有的固执与骄傲,反馈 Bug 可以被接受,但质疑功能便犯禁。

再者,涉及到 Bug 的问题,其中自定义短语的导入的功能,当一次性导入短语的数量超过某个数量,之后再添加自定义短语时界面将会卡死,相信这是架构的性能问题。而兼容性问题,跟随着 Windows 大版本更新的更新,微软拼音在某些程序软件中的兼容性确实得以优化。不过值得斟酌的是,微软拼音对于游戏内文字输入的可用性和稳定性仍存在不理想,例如腾讯游戏的打字闪退(待考察),Steam 各种游戏的无法正常弹出输入框。出于八卦,我通过观察微软拼音输入法官方微博的反馈和答复,他们虽然应该是已获知到相关 Bugs 的情况,但鉴于几个版本更新后依旧没有相关的修复,所以完全有理由相信是软件架构上的冲突的问题,可游戏和微软拼音两者究竟是谁的锅,无可奈何是黑箱。

最后针对安全隐私范畴,要谈论微软拼音的是否可信,不得不考虑到微软本身是否可信的问题。

众所周知,在中国有两家颇有名气的互联网外企可以畅通无阻的发展,一是苹果,二是微软,且微软比苹果更早地进入中国。能在中国大陆正常运作的外企,几乎可以理解为与政府无缝合作。微软拼音中提供云计算联想输入,且微软拼音是国内团队,这个设置是需要把输入的内容上传到微软国内的服务器进行分析。因而,如果对个人隐私有高度洁癖的用户,建议关闭云计算的功能,若你愿意折腾,鉴于前文所提及到的微软拼音具备着导入自定义短语的功能,在关闭云计算后,把自己的码表、词库转换为自定义短语的文件格式进行导入,把微软拼音作为一个本地输入法使用。但个人并不建议这样使用,某种程度上这属于因噎废食,甚至极端地说,只要你使用微软的 Windows 系统,对于个人隐私的后门随时都可能被打开,没有必要仅仅对一个输入法产生过多的质疑。对于这类型的用户,我更推荐你们使用下面所提及的开源类的输入法。


洁癖专属:开源输入法

小狼毫(Weasel)

在 Windows 的世界里,开源输入法之中 Rime 颇负盛名,其本身的存在已是「开源输入法」的 meme。而基于 Rime 引擎的小狼毫 Weasel 则是 Windows 系统中的输入法前端实现。在此提及一个八卦,其主要作者佛振如今似乎在百度输入法部门工作4

这个开源输入法的 Slogan 是「聪明的输入法懂我心意」,但倘若你去尝试放弃使用智能输入法并改用 Rime 输入法,你会对「聪明」这个概念产生疑问。因为「聪明」的源头并不是输入法本身的智能,而是使用者与输入法之间的默契。Rime 输入法不支持云计算,不自带数以万计的词库,没有习以为常的基于账号登录的云同步,没有贴心工具箱,其所有配置文件采用 yaml 格式,有关外观、码表、词库、输入规则的配置文件均需要自给自足,同步则需要私有云或U盘。哪怕在社区力量的驱动下使某些功能具备特有的 GUI 界面,但总体依然无法撇开高门槛的学习成本和维护成本。

但先抑后扬,凡是深度使用 Rime 的用户,都不得不发自内心地敬佩作者佛振有关输入法与中文底蕴的精髓5。其强大详尽的 Wiki 帮助文档,只要你愿意花时间与精力去研究与参考,你就能真正意义上拥有一个属于你自己的输入法。打造属于自己的输入法,这听上去是多么酷的一件事情。值得一提的是,这个输入法曾停更接近四年,在 Windows 10 刚推出时兼容性之差到达不可用的地步,本以为就此弃坑,但最近一年内连续更新了三次6,在破天荒更新中支持最新的 Windows 10 系统。

用轻浮的话语要而论之,这个输入法非常适合大脑活跃的软件折腾狂魔使用,是开源洁癖者和码表者的私货。普通人在试水时大概只会把其不弹出广告当为仅有的 Feature,而忽略其真正的精神内核。无可否认,Rime 不完美,并且可能这一辈子也不会完美,不贴心,也不智能,但考验着「聪明」,也考验着耐心。某种意义上来说,这个输入法的使用是一种历练。

华宇拼音输入法

同样开源的还有华宇拼音输入法,可能谈及华宇拼音输入法大家印象不太深,但若80后、90后出生,且小学有接触计算机课,想必会接触到华宇拼音的前身——紫光拼音输入法。当然,紫光拼音实际上也并非最早的命名,最早可追溯到李国华先生编写的「考拉输入法」,其公司被收购后由陈峰先生主持进行后续开发,并命名为「紫光拼音输入法」。

作为老牌的输入法,智能组词、智能字序调整、词库管理、增强的用户定制等功能均为首创,在中文输入法的历史上可谓导师级的存在。但在经历很长一段时间的停止更新后,被后起之秀搜狗输入法弯道超车,随后在新数字时代之后几乎没有跟进任何新功能的开发,总体的界面依旧停留在 Windows XP 时代的审美。

2014 年,华宇拼音输入法宣布核心源码开源,但在 GitHub 上观察可知,上一次源码更新已是四五年前,也就是开源后没有任何更新。不得不说,开源几乎认定华宇拼音输入法已经被弃坑,众人拾材火焰高恐怕只是一厢情愿。但同时正是因为开源,所以华宇拼音并没有死透,它正以另一种形式依然存活,为后续的技术发展奠定技术基础。当我再一次尝试使用华宇拼音输入法的过程时,回想起小学的计算机课堂上,那时候刚刚放弃使用不智能的智能ABC,紫光输入法那不需要额外多敲击空格的体验,那种对新鲜事物先进的赞叹感油然而生。

补充一点,华宇拼音输入法与 Rime 类似,开源且没有云计算联想功能,好坏利弊自辨。

小小输入法(Yong)

小小输入法是周永先生的私人作品,在开发早期是闭源的,但在后续的维护中宣布开源。小小输入法的优势在于 Windows / Linux / Android 三平台配置通用。因为有 GUI 设置界面支持,总体设置与配置比 Rime 简明,在形码支持上比 Rime 更直观易用。而从更新日期上来看,小小输入法依然保持着维护与更新,在更新日志中甚至可以看到支持二维码输入(手机端)等功能。

但由于时间关系,我对于小小输入法并没有更加细致的使用,在我的初次使用体验与印象中,小小输入法属于基层已建筑好的 Rime 加强版。同样的开源 + 无云计算联想,拥有自己的配置文件,但可以官方似乎提供额外的云同步服务,安全与否自行判断。

在关于开源输入法的分类中,我在这个二级标题中提及到「洁癖专属」,同时也在行文中多次提及「自行判断」的字眼。看似恶意调侃的设标签,但本质实是自嘲。我是打心底里接受并认同这种洁癖的,可自己却未能彻底贯彻。在大环境下,对于安全、隐私重视的矫枉过正不一定是我们惯性思维中的错误与极端。黑色之中,灰色也显得白,可灰色终究不是白。且另一个现实——洁癖并不容易,重视隐私和安全几乎与高学习成本和高门槛挂钩。能知道,是一项修养;知道后能做到,是一门修行。


不开源、小众或过气的输入法

这个分类是比较特殊的。我们通常把开源软件视为安全的、可信任的。但可信任与安全向来是相对的,开源的软件倘若真的被插入了危险的代码或存在 0-day,在未被翻查出来之前同样会一直危及计算机安全问题。开源软件不一定绝对安全,闭源软件并非绝对的不安全。正如我现在所谈论的是 Windows 系统中的输入法,这些输入法的软件前提都是建立在 Windows 这一闭源的系统之上的,因而我认为这一分类的划分是有必要的。

拼音加加

在中文输入法的历史上,若只提及华宇紫光拼音输入法而不提及拼音加加,会显得不厚道。

拼音加加,最初由曾经就职于中文之星的廖恒毅制作,先后经历过几个大版本的大改动,3.0版本之后一度采用基于.NET的开发环境,但是因为微软 Longhorn 系统发布和普及的速度迟于预期,所以重新调整为 C++ 语言开发环境。后来在各个后起之秀的借鉴和侵蚀中流失大量用户,沉沦之中,由于输入法开发团队内部的浮躁和错误抉择,其企图捆绑修改浏览器主页的流氓行为也成为拼音加加的黑历史。但无可否认作为老龄选手,拼音加加在中文输入法的发展进程中确实曾发光发热。但与华宇紫光不同,拼音加加并没有开源,其属于闭源且停止更新,现在已处于弃坑状态。考虑到其黑历史,不开源的行为不得不让人诟病,可终究是历史遗物闹不起大风大浪。

经过测试,在最新的 Windows 10 RS5 版本中,拼音加加依旧可以使用,但使用体验低于预期,中规中矩也称不上的水平。

多多输入法生成器

严格意义上,多多输入法生成器相关的输入法属于商业性质的输入法。通常情况下,在商业领域中它针对需要定制自己输入法的商家收费,对于基于其生成器的输入法的用户,其使用一般是免费的。虽然并不开源,但作为小众软件尚有口碑,基于其生成器的输入法几乎都具备着很强烈的个人特色与风格。

鉴于小鹤双拼是很多人入坑双拼的首选,所以在这些被生成出来的输入法中,以小鹤飞扬输入法较为有名,无候选词直接上屏的输入体验确实是另类的享受。就我个人而言,是比较信任这些软件的,不联网 + 无云计算联想,总体体验比较另类,适合定制输入法和便携式输入法制作,如有需要可自行搜索了解。


到底谁是商品:免费的商业性质输入法

商业性质的免费输入法中,在经历了华宇紫光、拼音加加等先辈们的技术概念贡献,继承一切中文输入优点的搜狗输入法可谓集百家之所长,当今输入法届名声已为最响亮莫过于它,输入法云计算联想的实力几乎是最强。

QQ输入法,曾经的它作为搜狗输入法的对手,以无广告作为卖点,终究还是并入到搜狗输入法的开发团队中,现在的它可简单理解为无广告的、低频率更新的搜狗输入法。

百度输入法,如果说搜狗输入法是集大成者,那么百度输入法就是集大成者的抄袭者。依靠着其背景是中国最大的姑且不讨论其好坏的中文搜索引擎,趁势而起,配合一系列流氓捆绑手段,快速侵占输入法市场。

各有各起家的缘由,也不得不佩服他们的运气与能力。三者功能强大、输入联想能力强、兼容性优秀,简单理解便是同质化严重,几乎是谁预装在电脑上就用谁。

但垄断和同质化意味着用户以为这便是中文输入法的天花板。

曾有新闻报道7称,搜狗输入法上传用户隐私的行为,且上传的过程中明文传输(无论用户是否加入「用户体验改进计划」)。明文传输,从广义上讲,即把未经过任何加密的数据进行传输,传输过程中任何人都可轻松查看到用户的全部信息,不论是密码、卡号。这个报道真伪可自行判断,但依我看,搜狗输入法算是枪打出头鸟,在当时同样不加密上传的还有百度输入法、QQ输入法等主流输入法。

新闻报道之后,搜狗本身并没有针对这件事发表什么公告,也没有因此而减少多少用户,这再一次验证了「中国人不重视隐私」看似的笑话。但在经过后续的验证,现在 Windows 系统中的搜狗输入法和百度输入法均以 HTTPS 加密进行上传,但在小众的 Mac 系统中以上智能输入法均依然采用明文上传。

另外,如果你有使用过搜狗输入法、百度输入法的经历,你应该会碰到过以下情况:引诱用户以抢占输入法开机默认、无法彻底关闭自动升级、弹出弹窗广告、捆绑软件(如:搜狗/百度浏览器、百度管家/腾讯安全管家、搜狗手机助手)的行为。

如我这一个二级标题所示,在面对用户隐私、安全、自主权的问题上,在商业性质的中文输入法圈中,究竟谁才是被摆上架的商品?中文输入法天花板的突破需要的究竟是技术的突破,还是道德的突破呢?这突破会是针对上限,还是针对下限呢?

用脑思考,用脚投票。

商业中的弃子们

在主流的商业性质的免费输入法中,有两个较为特殊的弃子,一个是谷歌拼音输入法,一个是手心输入法。

谷歌拼音输入法

谷歌拼音输入法,在前文中已提及其已被弃坑的事实,所有云计算、云同步的功能均被关闭,甚至连官网也一锅端。输入法软件本身在 Windows 最新的系统中姑且能用(存在部分兼容性问题),但体验上无疑与移动端的 Gboard 存在较大的差距。可这么一个被弃坑的存在,却是一小部分重视隐私的用户的选择。他们的考虑是,谷歌这款输入法已经被放弃,隐私不会被上传,就算被上传,在中国大陆是无法正常连接谷歌的服务器的。这种情况下无疑等同于安全和保密。我认为种说法有一定的道理,但我额外提醒一下,从安全的角度出发,被放弃的产品意味着疏于维护和漏洞修复,软件的漏洞会成为攻击的对象;从更新迭代的角度出发,抱着过于陈旧的工具,若在后续的系统更新之中输入法不能正常使用,到时候究竟是放弃输入法,还是放弃最新的系统?放弃最新的系统,永远会有更新的最新系统,到时候输入法用还是不用?这个问题确凿是值得考虑的。

另外,穿插一个关于谷歌拼音输入法和搜狗拼音输入法之间小插曲故事:

2007年4月4日,有网友根据使用情况反应:谷歌拼音的词库极其类似搜狗拼音的词库。4月8日,搜狐公司发表公开声明,说他们已从技术层面检测出谷歌拼音的确盗用了搜狗拼音的词库,并表示强烈不满。当天下午,Google出面承认谷歌拼音在实验阶段的确使用了第三方词库(即盗用搜狗词库)。

手心输入法

手心输入法,稍微搜索过相关资料的的都知道这输入法背后是 360 这家流氓公司8。可偏偏这家流氓公司却做出一款无广告、无弹窗的输入法产品。按照当年 3Q 大战的尿性,在我的理解之中,360 推出这么一款输入法本身并不为盈利,而是为了占坑保留伏击头部产品搜狗输入法的可能性。但不为盈利的商业性产品向来很难走远,特别是大公司里处处算着 KPI,小项目不盈利,在人手不足的时候直接就会被弃坑。回顾手心输入法,其官方论坛已经被关闭,在关闭之前论坛中充斥着各种暗语小广告,论坛的沦陷也证明手心输入法本身已经疏于管理和维护。

回归讨论产品本身,手心输入法可以说是主流商业性质输入法中对双拼用户是最友好的产品,无论是自带的双拼方案,还是自定义方案,甚至是辅码码表的添加,处处表露出功能强大的气息。可这么一个输入法从商业角度来看,过分追逐小众用户的功能需求,却让主流的低输入要求用户群的摸不着头脑。大众用户只在乎词库是否强大,模糊音是否到位,智能纠错是否靠谱。如前文所说,有些用户不过是把无广告视为一个 Feature,就算是双拼用户眼中强大的功能对于大众群体而言连 Feature 都谈不上,甚至被视为鸡肋和累赘。反观现在的手心输入法,词库陈旧,不支持 emoji 等表情输入,在新系统的稳定性差,经常出现内存泄漏情况,论坛关闭,出现 Bug反馈也无门。可谓「成亦无广告,败亦无广告」。

谷歌拼音输入法和手心输入法都算得上是弃子,不过根据观察与判断,手心输入法的最近更新也在一年之内,这与谷歌拼音输入法的彻底弃坑不一样。我个人的乐观预测,若在新系统中手心输入法无法正常使用,手心输入法的团队应该会作出必要的维护。

而针对手心输入法的底子是否如同表面那样无广告无弹窗的纯净,鉴于 360 的黑历史,我持保留意见。个人建议放弃使用手心输入法的云同步,并使用火绒等工具禁止其联网,词库的陈旧也没有什么优质前沿的联想,倒不如享受着本地属性的功能强大的双拼/码表输入法。


后记

标题虽然写着 Windows 篇,但实际上对于 Mac 篇、iOS 篇、Android 篇,甚至是 Linux 篇,我几乎不会尝试去动笔写,某种程度上可以说是标题党。

关于 Windows 中的拼音输入法的讨论暂时至此,在可预见的未来中,人类大脑的节能倾向会让大众自认为需要的是聪明的工具,而不是聪明的大脑。商业巨头们会垄断作为聪明的工具的中文拼音输入法,他们用大数据、人工智能等前沿技术手段把输入法的概念直接偷换为自身产品。本以为是笑话的「中国人更开放,愿用隐私换效率」,正不断侵蚀着每一个缺乏必要隐私观者的个体利益。极权之下,表达欲在内在层面被阉割,自身的意志被输入法剥削,数字时代的文字狱的触发将演变到键盘键帽的特定顺序敲击……

我想,这应该是输入法发展的最坏的预言吧。但预言的存在往往是为了被避免与克服,不是吗?

May the Force be with you...
最近一段时间,我一直在社交网络上分享一款开源免费的名为 Clash 的代理工具,但实际上我仅仅是宣传,而并非其开发者,我因此收获不少新的 Followers 确实不像话。 作为一款类 Surge 的产品,Clash 最大的优势正如其开发者 Dreamacro 所言,就是免费可用。与老牌的 Surge 高昂的售价和不菲的升级价相比,基于 MIT License 的 Clash 在具备桌面端全平台客户端,完整支持 Shadowsocks、Socks5,部分支持 V2Ray,且拥有类似于 Surge 规则分流系统的前提下,却依然保持免费。 在 Clash 官方交流群不到 50 人之时,我便已是当中一员。截止我写这篇文章的今天,这个交流群的成员人数已经达到四位数(1140 人),我也算得上是元老成员。在这人数的变化中,我通过一些观察得出一些结论,颇有意思。 人类的本质是复读机 Clash 群中几乎每天都有新人加入,虽然新人在加群时会有 Bot 提示使用教程与项目详情,但人类不知道何时培养出忽略机器人所说的话的习惯。上面是一个接一个的 Bot 指南,下面却是一个接一个的新......
Comments
Write a Comment