推荐 Spokenly:把听写和 AI 润色接进日常输入

#效率工具

Table of Contents

最近在用 Spokenly 做日常输入,整体体验比我预期的好很多。

它最适合的场景不是那种正式会议转录,而是“我脑子里已经有一段话,不想再敲键盘”的时候。比如写 prompt、记想法、回复长消息、整理一段技术说明。以前这些内容我可能会先在脑子里组织一遍,然后慢慢打出来;现在更自然的方式是直接说出来,让 Spokenly 先转成文字,再交给 AI 做一次润色。

这类工具真正省时间的地方,不只是语音转文字本身,而是把“表达”从键盘输入里解放出来。很多时候,人说话的速度和连续性都比打字好,只要后面有一个足够好的润色模型,最后出来的文本反而会更顺。

我的推荐配置

我现在比较推荐的配置是:

  1. 听写模型直接用苹果自带的本地模型。
  2. AI 润色模型使用自定义 API。
  3. 自定义 API 可以接 DeepSeek,也可以接自己的 OpenAI Compatible 中转。

Spokenly 本地听写模型选择 Apple 语音分析器

听写模型这块我不太建议一上来就折腾太多。Spokenly 里可以选择在线、API、本地几种方式,如果你的系统支持 Apple 语音分析器,直接选本地的 Apple 语音分析器就很舒服。

它的优势很明确:

  • 本地运行,不需要把原始语音发出去。
  • 速度很快,适合日常短句和中长句输入。
  • 不需要额外下载很大的 ASR 模型。
  • 实时性好,按下快捷键说话就能出结果。

我对听写模型的期待其实很简单:够快、够稳、别打断表达。至于最后文字是不是 100% 优雅,并不需要在听写阶段解决,因为后面还会有 AI 润色。

为什么润色模型要自定义

Spokenly 的一个很实用的点是,它不仅能听写,还能把听写结果交给 AI 做处理。

如果只是语音转文字,最后经常会得到一段“口语化草稿”:有重复、有停顿、有语序问题,也可能缺标点。这个草稿直接发出去通常不够好,但它已经保留了核心意思。

这时候让 AI 做一次润色就刚好:

  • 把口语整理成书面表达。
  • 自动补全标点和段落。
  • 去掉重复词和犹豫词。
  • 保留原意,但让表达更清楚。

所以我觉得 Spokenly 最值得打开的不是单纯的听写能力,而是“听写 + AI 润色”这条链路。

配置 DeepSeek 或中转模型

在 Spokenly 里进入「AI 提示」或相关设置,添加一个 OpenAI Compatible 类型的提供商即可。

一般需要填三项:

字段怎么填
API 密钥DeepSeek 或中转服务提供的 key
URLAPI 服务地址,通常以 /v1 结尾
模型例如 deepseek-chat,或者中转服务提供的模型名

Spokenly 添加 OpenAI Compatible AI 提供商

如果你用 DeepSeek,模型可以填 deepseek-chat。如果你用自己的中转,就按中转服务的规则填写模型名,比如 openai/gpt-4odeepseek-chat 之类。

这里的关键是:提供商必须兼容 OpenAI API。只要它支持 OpenAI Compatible 接口,Spokenly 就可以把它当成一个自定义 AI 模型来用。

配置完成后,先点「测试并保存」。测试通过之后,Spokenly 就会把这个模型加入可用的 AI 提供商列表。

我会怎么用它

我一般不会指望第一次听写结果就是最终文本,而是把它当成一个输入草稿。

比较顺手的流程是:

  1. 按快捷键开始听写。
  2. 直接用自然语言把想法说完,不刻意追求句子完美。
  3. 让 Spokenly 调用自定义 AI 模型润色。
  4. 再人工扫一眼,确认意思没有被改偏。

这套流程对写长 prompt 尤其有用。很多时候 prompt 的难点不是打字,而是把任务背景、约束条件、期望结果一次性讲清楚。用语音输入会更接近“把需求讲给一个人听”,再用 AI 润色成结构化文字,效率会高很多。

写博客草稿、产品想法、技术方案也是类似的。先说,再整理,不要一开始就卡在措辞上。

几个使用建议

第一,听写模型用本地,润色模型用云端。前者负责快速捕捉输入,后者负责语言质量,这样分工比较清楚。

第二,AI 润色不要开得太激进。我的偏好是让它“整理表达”,而不是“重写观点”。如果模型太喜欢发挥,最后文本可能会变得很漂亮,但不一定还是你原来的意思。

第三,敏感内容要自己判断。即使听写走本地,润色阶段如果调用了 DeepSeek 或中转服务,文本仍然会发到对应 API。涉及隐私、密钥、内部信息时,最好不要交给云端模型处理。

第四,自定义中转要看稳定性。听写输入是一个高频动作,如果中转服务延迟高或者偶尔失败,体验会非常明显。能稳定返回,比单次效果更重要。

总结

Spokenly 对我来说不是一个“语音识别工具”,而是一个输入效率工具。

它把输入拆成了两层:先用本地听写模型快速捕捉想法,再用自定义 AI 模型把想法整理成可用文字。这个分工非常适合日常写作、写 prompt、做记录和处理长文本回复。

如果你已经习惯用 AI 处理文字,但还在手动打很长的输入内容,可以试试 Spokenly。听写模型直接选苹果自带的本地模型,AI 润色模型接 DeepSeek 或自己的 OpenAI Compatible 中转,基本就能得到一套很顺的输入工作流。