推荐 Spokenly：把听写和 AI 润色接进日常输入

最近在用 Spokenly 做日常输入，整体体验比我预期的好很多。

它最适合的场景不是那种正式会议转录，而是“我脑子里已经有一段话，不想再敲键盘”的时候。比如写 prompt、记想法、回复长消息、整理一段技术说明。以前这些内容我可能会先在脑子里组织一遍，然后慢慢打出来；现在更自然的方式是直接说出来，让 Spokenly 先转成文字，再交给 AI 做一次润色。

这类工具真正省时间的地方，不只是语音转文字本身，而是把“表达”从键盘输入里解放出来。很多时候，人说话的速度和连续性都比打字好，只要后面有一个足够好的润色模型，最后出来的文本反而会更顺。

我的推荐配置

我现在比较推荐的配置是：

Spokenly 本地听写模型选择 Apple 语音分析器

听写模型这块我不太建议一上来就折腾太多。Spokenly 里可以选择在线、API、本地几种方式，如果你的系统支持 Apple 语音分析器，直接选本地的 Apple 语音分析器就很舒服。

它的优势很明确：

我对听写模型的期待其实很简单：够快、够稳、别打断表达。至于最后文字是不是 100% 优雅，并不需要在听写阶段解决，因为后面还会有 AI 润色。

Spokenly 的一个很实用的点是，它不仅能听写，还能把听写结果交给 AI 做处理。

如果只是语音转文字，最后经常会得到一段“口语化草稿”：有重复、有停顿、有语序问题，也可能缺标点。这个草稿直接发出去通常不够好，但它已经保留了核心意思。

这时候让 AI 做一次润色就刚好：

所以我觉得 Spokenly 最值得打开的不是单纯的听写能力，而是“听写 + AI 润色”这条链路。

在 Spokenly 里进入「AI 提示」或相关设置，添加一个 OpenAI Compatible 类型的提供商即可。

一般需要填三项：

字段	怎么填
API 密钥	DeepSeek 或中转服务提供的 key
URL	API 服务地址，通常以 `/v1` 结尾
模型	例如 `deepseek-chat`，或者中转服务提供的模型名

Spokenly 添加 OpenAI Compatible AI 提供商

如果你用 DeepSeek，模型可以填 deepseek-chat。如果你用自己的中转，就按中转服务的规则填写模型名，比如 openai/gpt-4o、deepseek-chat 之类。

这里的关键是：提供商必须兼容 OpenAI API。只要它支持 OpenAI Compatible 接口，Spokenly 就可以把它当成一个自定义 AI 模型来用。

配置完成后，先点「测试并保存」。测试通过之后，Spokenly 就会把这个模型加入可用的 AI 提供商列表。

我一般不会指望第一次听写结果就是最终文本，而是把它当成一个输入草稿。

比较顺手的流程是：

这套流程对写长 prompt 尤其有用。很多时候 prompt 的难点不是打字，而是把任务背景、约束条件、期望结果一次性讲清楚。用语音输入会更接近“把需求讲给一个人听”，再用 AI 润色成结构化文字，效率会高很多。

写博客草稿、产品想法、技术方案也是类似的。先说，再整理，不要一开始就卡在措辞上。

第一，听写模型用本地，润色模型用云端。前者负责快速捕捉输入，后者负责语言质量，这样分工比较清楚。

第二，AI 润色不要开得太激进。我的偏好是让它“整理表达”，而不是“重写观点”。如果模型太喜欢发挥，最后文本可能会变得很漂亮，但不一定还是你原来的意思。

第三，敏感内容要自己判断。即使听写走本地，润色阶段如果调用了 DeepSeek 或中转服务，文本仍然会发到对应 API。涉及隐私、密钥、内部信息时，最好不要交给云端模型处理。

第四，自定义中转要看稳定性。听写输入是一个高频动作，如果中转服务延迟高或者偶尔失败，体验会非常明显。能稳定返回，比单次效果更重要。

Spokenly 对我来说不是一个“语音识别工具”，而是一个输入效率工具。

它把输入拆成了两层：先用本地听写模型快速捕捉想法，再用自定义 AI 模型把想法整理成可用文字。这个分工非常适合日常写作、写 prompt、做记录和处理长文本回复。

如果你已经习惯用 AI 处理文字，但还在手动打很长的输入内容，可以试试 Spokenly。听写模型直接选苹果自带的本地模型，AI 润色模型接 DeepSeek 或自己的 OpenAI Compatible 中转，基本就能得到一套很顺的输入工作流。