Deepgram Voice Agent Demo 实践记录

发表于 2026-02-08 更新于 2026-03-17 分类于开发日志

记录了花费数小时调试并成功运行 Deepgram Voice Agent Demo 的过程与心得。

今天深入测试了 Deepgram 提供的语音服务，并花费了几个小时的时间，终于成功运行了 deepgram-voice-agent-demo。这次实践不仅让我对实时语音交互（Real-time Voice AI）有了更直观的理解，也踩了不少关于环境配置和 API 调用的坑。

为什么要测试 Deepgram？（以及为什么它可能不是最终选择）

在语音转文字（STT）和文字转语音（TTS）领域，Deepgram 以其极低的延迟著称。对于构建 Voice Agent 而言，响应速度就是生命线。但我这次测试更多是为了摸清它的底细，而不是直接拍板。

运行 deepgram-voice-agent-demo 的过程并非一帆风顺，官方的 Demo 明显年久失修，环境和版本都对不上，报了一堆错，光是修补这些 Bug 就花了几个小时。

此外，在测试中发现了几个核心痛点：

多语言混排的缺失：这是最致命的一点。我需要的是一个能够听懂“中英混杂”对话的模型，而 Deepgram 官方模型目前主要针对英语，不支持多语言混排。
本质是“组装者”：它更像是一个语音服务的组装平台。如果你想用更强大的 LLM 逻辑（比如 OpenAI），还得自己准备额外的 API Key。
模型局限性：它自己提供的模型在处理复杂语言环境时显得捉襟见肘。

但有一点值得称赞：Deepgram 非常慷慨地为新用户提供了 200 美元的免费额度，这笔额度足够支持几十个小时的实时语音测试。对于开发者进行初步的技术调研来说，这无疑是非常友好的。

虽然调试过程痛苦，但最大的亮点在于学到了 Function（函数调用） 的应用。

在实时对话中，通过监听特定的意图（Intent），可以让 Agent 执行特定操作。例如：

记录于 2026 年 2 月 8 日，持续探索 AI 语音的边界。