语音输入,会取代敲键盘

2025-06-18|葬爱咸鱼

「能说能 写」 思考一个问题:人类敲键盘输入信息,到底有多长历史? 答案是,150年。 1871年,美国人克里斯托弗·肖尔斯造出了世界上第一台实用打字机。 第二次工业革命的背景下,铸铁冶炼、冲压工艺,以及油墨带、橡胶等新技术,共同塑造了 打字机的物理形态。与此同时,铁路与电报把商业网络铺向全美。合同、发票、报价等商业 信息的传递需求暴涨。 手写太慢了,正常速度只有每分钟20-30个单词。市场迫切需要一种更高效的信息输入工 具,于是第一款商业上成功的打字机诞生了。 直到今天,我们输入信息的主要方式,仍然是那台打字机的延续——键盘。连 QWERTY 键 位布局,也沿用了 150 年前的设计。 但,键盘输入还适合我们这个时代吗? 我认为不适合了。敲键盘的信息输入速度太慢。 语音输入结合AI,信息效率更高,会取代键盘交互。 更重要的是,口语表达天然更符合人的思维方式。 敲键盘写作之前,大脑必须先把一句话想清楚,再一个字一个字敲出来。这是一个把思绪 「凝结」为书面语的过程。但是,我们平时说话、思考,并不是这样运作的。 世界上大多数人写不出几千字的文章,但大家都能顺畅地聊天交流。既然能口头表达清晰, 理论上就能写好文章。问题出在哪里呢? 问题就在于「凝结」思绪这个过程,很困难。 无论是手写还是敲键盘,都有一个大脑指挥手,再去执行,这样复杂的交互。 而说话大部分是下意识反应。比如我吃了水盆羊肉,绝大部分人写不出一千字讲水盆羊肉的 文章。 但你问我水盆羊肉好不好吃,我能立即回答好吃,羊汤很鲜,羊肉嫩滑,辣子酸辣,月牙饼 是刚出炉的麦粉香味。这些话是自然而然到嘴边的,不需要特意思考。 水盆羊肉真的很好吃啊 哪怕是复杂问题,比如你问我人类的本质是什么,我也能随口就说「人类的本质就是拉屎撒 尿」「人类的本质就是存在」。这一两句话,我也不需要思考。 这些脱口而出的句子,零散、没有结构化,不像正式写作那样条理分明。 语音输入加AI,正好解决了这个问题。我们可以想到哪说到哪,再让 AI 负责结构化、理顺 逻辑。

口语更自然、更原始,更接近真实的思考状态。语音输入大幅减少了我们大脑中「凝结」思 绪的负担。 这几年来,一个非常明显的趋势是:全球人民都不再迷恋技巧复杂、包装精美的大制作内容 了,而更愿意听播客、看短视频、刷社交媒体。 我们正在经历一场从书面语到口语的社会表达方式转变。 为什么? 因为很多书面语的「大制作」充满了陈词滥调。 比如电影、特稿、严肃文学,堆积了太多创作者的套路和潜规则。一部经典电影,它的叙事 方式、拍摄手法,可能80%都是程式化的。 而短视频、短剧充满了意想不到的火花。哪个电影导演能想出「霸道总裁爱上绝经的我」这 种剧情?想不出来的。但就是这种短视频,更加鲜活、质朴,更加接近人的原始想法。 播客也是一样。名人在文字采访里可以装深沉,用口语却必须通俗易懂。尤其是上播客,聊 天时间拉长到一个多小时,听众很容易判断嘉宾到底有没有说真话。 在信息输入端,人们越来越青睐简洁直接的内容。这种输出端的口语化趋势,自然会倒逼信 息输入端,要求更高效的输入方式,加速语音替代键盘。人们无需再用笨重的方式写,而是 可以直接说。 这其实很像有秘书班子的领导。 一个市长要在明天的环保工作动员会上发言,他显然不会自己加班逐字敲发言稿。他会口头 交代给秘书核心观点。他的语音输入可能就五六分钟。然后秘书就像一个大模型,调用和领 导互动的历史(上下文),揣摩领导的风格偏好,再查查最新文件和报道(联网搜索),然后 熬夜写稿。领导再提点修改意见。 这和我们使用AI没什么区别。在AI出现之前,领导已经把人作为AI了。 语音输入更符合人类自然的思考和口语表达习惯,绕开了将思绪「凝结」成书面文字的认知 障碍,让「能说不能写」变成「能说就能写」。 所以,我觉得,语音输入比键盘交互更高级。 技术上,语音识别已十分成熟,大模型对语音转录的结构化同样成熟。 效率上,语音远胜键盘。手写,大约每分钟25-35字。键盘,每分钟60-90个字。而正常语 速,200-250个字。语音输入的信息输入速度,远远高于键盘打字。 需求上,人们更需要直接、质朴的表达,内容消费也向口语化、真实化的方向转变。

这一切都指向一个明确的未来:语音输入会取代键盘交互。 这是由技术进步带来的信息交互方式改变。 如同冲压工艺和橡胶、油墨带催生了打字机。人们敲键盘开发的语音识别和LLM,也产生了 新的信息交互方式——语音输入、AI结构化。