这两年我对语音写作的理解,发生过一次很明显的变化。
一开始我也会盯着技术看。识别准不准,转写快不快,能不能自动分段,能不能识别不同说话人,能不能一边说一边同步到笔记软件。坦白说,这些当然重要。一个工具如果连我说的话都听不清,那我很快就不想用了。
但用久了以后,你会发现,语音写作真正改变我的地方,并不是它让我少敲了多少字,而是它让我在生活当中多了一个整理想法的入口。
你想想看,很多判断不是坐下来的时候出现的,而是在走路、聊天、洗漱、发呆的时候突然冒出来。语音写作接住的,正是这些还带着热气的片刻。
很多想法在脑子里并不是一篇文章,也不是一个完整方案。它更像一团没完全成形的雾。你隐约知道它和某件事有关,知道它有点重要,也知道里面好像有一个判断,但你一坐到电脑前,它就散了。
这时候,语音写作最有价值的地方就出来了。它允许我先不急着写漂亮,先把那团雾说出来。
语音写作的核心不是把嘴巴变成键盘,而是把模糊的念头变成可以继续处理的材料。
尤其到了 Agent 时代,这件事会变得更重要。因为 Agent 的反应速度越来越快,它不再只是等你输入一段话,然后给你一个答案。它可以帮你拆任务,写草稿,查资料,做表格,跑流程,甚至在多个工具之间来回协作。
问题就来了。Agent 已经很快了,我们自己的想法能不能跟得上?
技术不是终点,入口才是

我们平时聊语音写作,很容易聊到门槛。
比如,有没有一个好麦克风,要不要买录音笔,普通话不标准怎么办,环境有噪音怎么办,转写软件选哪一个,手机端还是电脑端更方便。
这些问题都实在,我以前也会纠结。但我现在更愿意把它们放到第二层。
第一层问题是,你到底在什么时候需要说?
比如走路的时候,洗澡之后,开完会的路上,刚刚和人聊完一个想法,或者半夜突然想到一个方向。这些时刻有一个共同点,想法正在冒出来,但你未必方便坐下来认真写。
如果这个入口没有接住,后面的技术再好也没用。
你可能也有过这种体验。某个念头出现的时候,你心里会想,等我回去记一下。结果回去以后,只剩下一句干巴巴的标题。你还记得它重要,却忘了它为什么重要。
语音写作就是用来接住这一刻的。
说到底,它不是在帮你完成最终稿,而是在帮你保住想法刚出现时的温度。这个温度很关键。因为刚出现的想法里,往往带着现场感,你为什么想到它,你被什么触动,你当时脑子里连接了哪些东西。
打字有时会过早进入修饰状态。你一边敲,一边删,一边觉得这句话不够好。说话不一样。说话更接近想法流动的样子。它粗糙,但它活着。
这就是我现在看语音写作的第一层判断,先不要把它当成写作工具,而要把它当成生活里的思考入口。有一件事很容易被忽略,入口变轻了,思考才会更愿意出现。
模糊不是问题,不说才是问题

很多人不愿意语音写作,是因为觉得自己说得乱。
我也一样。刚开始用语音记录的时候,经常会出现一堆废话。前面说了三分钟,后面发现真正想说的只有一句。中间还有很多停顿,重复,绕圈子。
但后来我发现,这不一定是坏事。
因为很多想法本来就是通过绕圈子才被说清楚的。你不是先有一个清楚的观点,再把它说出来。很多时候,是你说着说着,才发现自己真正想表达的是什么。
这件事在写作里特别明显。你一开始以为自己要写的是工具,后来发现其实要写的是生活习惯。你一开始以为自己要写的是效率,后来发现其实要写的是人与 Agent 的沟通方式。
你一开始以为自己要写的是语音输入,后来发现真正的题目是,我怎么把脑子里不成形的东西交给一个很快的系统。说来也奇怪,真正的主题经常不是想出来的,而是说出来以后才浮出来的。
这不是偏题,这是挖到了更深的一层。
语音写作最珍贵的部分,往往不是第一句话,而是你在说的过程中突然发现的那句话。
所以我现在不会要求自己一开口就有结构。我的做法很简单,先允许混乱存在。
比如我会直接说,我现在有一个想法,但还没想明白。它大概和语音写作有关,也和 Agent 有关。我觉得重点不是转写准确率,而是人在生活里怎么更快地把想法交出去。
这里面好像有一个问题,就是 Agent 越快,人越不能只靠慢慢打字来表达。你别说,这种不完整的表达,反而比憋出一段漂亮话更适合作为第一份材料。
你看,这段话并不优雅,也不适合直接发出去。但它已经把几个关键点暴露出来了,语音写作,Agent,生活场景,表达速度,模糊想法。我发现,只要这些词先落下来,后面就有了继续加工的抓手。
只要这些材料出来了,后面就可以整理。
如果不说,它可能永远停留在脑子里,变成一个我以为自己记得、其实已经丢掉的想法。
Agent越快,人的表达越要变快

Agent 时代有一个变化很微妙,以前我们和工具的关系,是人慢慢准备好指令,再把指令交给工具。现在很多 Agent 的反应速度已经快到,它更像一个随时待命的协作者。
它可以立刻追问你,可以立刻展开,可以立刻给出几个版本,也可以立刻把一个模糊任务拆成步骤。
这时候,人和 Agent 之间的瓶颈就不一定是 Agent 了,而是人怎么把自己的想法交给它。
如果每次都要打开电脑,切到输入框,组织一段文字,再慢慢敲出来,很多想法其实已经错过了最自然的表达时刻。
这就是语音写作在 Agent 时代的新位置。
它不只是写文章的工具,也不只是会议纪要的工具。它会变成一个输入层。你通过说,把脑子里的东西先交给系统。系统再帮你转写,整理,追问,改写,变成任务,变成文章,变成备忘,变成下一步行动。
比如我走在路上想到一个选题,我不需要等回到桌面前再写。我可以先说一段,这个题目要写语音写作,但不要写成工具评测。重点是生活里的使用方式。
尤其是 Agent 时代,想法和执行之间的距离变短了,人需要一个更快的表达方式。文章要从一个场景开始,不要从概念开始。你想啊,这已经足够让 Agent 继续追问了。
这段话说完以后,Agent 已经可以做很多事。它可以帮我提炼主题,可以帮我拆文章结构,可以帮我指出哪里还模糊,可以帮我生成第一版草稿,也可以问我,你说的生活场景具体是哪三个?
你会发现,人机协作开始变得像一场连续对话,而不是一次性提交作业。
这里的关键不是语音识别多神奇,而是语音让想法进入系统的速度变快了。只要进入系统,Agent 才有机会参与。
很多时候,我们不是缺少能力,而是缺少把想法交出去的动作。
说,是一种低摩擦的澄清
我越来越觉得,说话有一个很朴素的优势,它的心理门槛低。你有没有这种感觉,越想把一句话写得准确,越容易卡在第一行。
写一篇文章,你会天然想要完整。写一个方案,你会天然想要严谨。写给 Agent 的指令,你也会下意识想要说清楚。这个要求本身没有错,但它容易让人卡住。
说话不一样。你可以先说得不完整,可以先说得粗糙,可以先说我还没想明白。
这句话很重要,我还没想明白。
在打字的时候,很多人不好意思写这句话。但在语音里,它非常自然。你可以边说边想,边停顿边补充。Agent 如果跟得上,就可以在这个过程中帮你把混乱变成结构。
我现在常用一个很简单的语音模板。第一句,说我正在想什么;第二句,说这个想法从哪里来;第三句,说我还没想清楚的地方;第四句,说我希望 Agent 帮我做什么。
比如,我正在想语音写作这件事。这个想法来自于我发现自己很多判断是在走路时说清楚的,不是在电脑前敲清楚的。我还没想清楚的是,它和 Agent 时代到底有什么关系。我希望你先帮我把这个想法拆成三个可写的角度。
这段话不复杂,但很好用。
因为它不是假装自己已经清楚,而是把不清楚也交代出来。对 Agent 来说,这反而更容易合作。它知道你在哪里确定,也知道你在哪里需要它参与。
说到这里,其实也能看到语音写作和传统写作的区别。传统写作更像把一个已经想好的东西表达出来。语音写作更像把一个正在形成的东西带到台面上。
前者重结果,后者重过程,而 Agent 最适合参与的,恰恰是过程。你把过程说出来,它才有机会进入过程,而不是只在结尾替你润色。
生活里的几个具体用法
如果把语音写作放回生活里,它可以很小。不是每次都要录一大段,也不是每次都要生成文章。很多时候,它只需要接住一个瞬间,让那个瞬间不要马上丢掉。
第一种用法,是饭后散步时说一个想法。
这时候人的状态比较松,脑子会自己把白天的事情重新排列。你可能突然意识到,今天和朋友聊天时提到的一个问题,其实可以写成一篇文章。不要等。打开语音,先说两分钟。哪怕只有三句话,也比完全不记强。
第二种用法,是开完会以后立刻复盘。
不是写会议纪要,而是说自己的判断。比如这次沟通里真正卡住的点是什么,对方没有说出口的担心是什么,下一步最小动作是什么。你一说,很多隐性的判断会浮出来。
第三种用法,是睡前清空脑子。
我有时会在睡前用语音说一段,今天脑子里还挂着哪几件事,哪件事其实不用再想,哪件事明天需要交给 Agent 处理。这个动作很小,但它会把焦虑从脑子里挪到一个可处理的位置。
第四种用法,是给 Agent 下第一版任务。
不用一上来就写完美 prompt。先说人话。比如,我想做一篇公众号文章,主题是语音写作,重点不要讲工具,而要讲它怎么进入生活,怎么在 Agent 时代帮助我把模糊想法说清楚。
你先不要写,先帮我判断这个角度够不够清楚。讲道理,这比憋半小时写一条完美指令更接近真实工作,也更容易让 Agent 找到继续追问的位置。
你看,这就是一个非常自然的协作入口。
它不需要你掌握复杂技巧,也不需要你先成为 prompt 高手。你只需要愿意把半成品的想法说出来。
这件事一旦变成习惯,语音写作就不再是一个单独工具,而是你和自己、你和 Agent 之间的一层缓冲带。
语音写作是在训练一种新能力

我现在越来越不把语音写作理解成偷懒。
它当然能省打字时间,但这不是它最深的价值。
它真正训练的是一种能力,在想法还没完全清楚的时候,先把它表达出来,然后借助外部系统继续澄清。
这对很多人来说,是一个很重要的转变。
过去我们习惯在脑子里想明白,再拿出来表达。Agent 时代可能会反过来,你先把想法拿出来,在和 Agent 的互动中慢慢想明白。有意思的是,这并没有让人变懒,反而让人更愿意诚实地描述自己的不确定。
这并不是把思考外包给 Agent。相反,它要求你更诚实地面对自己的模糊。你要知道自己卡在哪里,知道自己想要什么,也知道自己还不知道什么。
语音只是入口,真正发生变化的是思考方式。也就是说,语音写作表面上是在改变输入方式,里面其实是在改变人和问题相处的方式。
当 Agent 的速度越来越快,人最重要的能力可能不是写出一条完美指令,而是能快速说出一个真实的问题,快速暴露一个模糊判断,快速把一个生活里的瞬间变成可继续推进的材料。
这就是我现在愿意持续练习语音写作的原因。
它不是为了显得先进,也不是为了追某个工具热点。它只是让我在生活里多了一个动作,当想法出现时,先说出来。
说出来,它就有机会变清楚。说出来,它就有机会被 Agent 接住。说出来,它就不再只是一团在脑子里飘过的雾。还真别说,很多长期没有推进的事,往往就差这第一次开口。
今天就先聊到这里。如果这篇文章让你多了一个判断,欢迎点个赞、在看,也可以转给一个正在摸索的人。你的反馈,会帮我判断下一篇继续往哪里写。
剑飞(wx:hujianfei008) 一个喜欢钻研的Agent系统工程师,专注于多Agent的自主运行与协作,专注于AI产业落地研究。本文共4491字。