AI Coding：OmniVoice完成声音输出

Posted 2026-05-19 Updated 2026-05- 26

By boommanpro

13~17 min read

感受

随时感受模型的进步
空杯心态
如果没有标准模板总会忘记一些事，陷入一句话需求
一定要有逻辑优化

沟通记录

第一轮：
当前项目的音频输出都是随机的，我期望能够将产品形态去做一些改变，可以实现在配置完毕后，随机输出后可以携带当时的随机配置，比如随机种子等，让我可以使用对应配置再去复现场景，达到音频音色稳定输出的目的。请实现对应功能

第二轮：
你先设计对应方案，我review后再行动

第三轮：
我需要通过web可视化的看到随机种子配置，可以通过配置在页面复现，可以通过配置在cli复现，我看你的方案里面没有体现。

1. 我的项目是clone自官方，假设官方更新时，减少代码冲突的方案是什么

2. 不需要自动保存cli，需要在执行时友好输出即可

第四轮：
对了，我还期望Voice Design部分可以批量生成，即每次随机，我可以选择随机数，默认5个，这样我不用每次点点点，并且历史生成的配置和音频都需要可以看到，这样方便筛选，并且可以有名称可以编辑，但是数据不用持久化到数据库，在页面内存即可。

第五轮：
请先将迭代方案的核心思想和具体方案写到当前项目plan中，即plan/{核心改动}/Readme.md和相关方案，然后再执行

第六轮：
请你按照方案执行，并且写相关单测，web部分也完成测试，并且将测试方案也写到plan中，然后执行

逻辑优化

## 识别出的 10+ 个问题
### 问题 1：初始需求模糊，缺少边界定义
原文 ：「随机输出后可以携带当时的随机配置，比如随机种子等」

问题 ：「比如随机种子等」——"等"字暴露了需求方自己也不清楚到底哪些参数构成"随机配置"的完整集合。随机种子只是随机性的源头，但音频生成管线中可能还有随机采样策略（top-k/top-p）、随机噪声注入、随机初始化状态等多个随机源。需求方只提到了种子，没有对"配置"做枚举或边界定义。

正确思考 ：先对当前系统的随机性来源做完整审计——哪些模块引入了随机性？每个随机源的种子/参数是什么？然后定义"配置快照"的完整 schema，而非笼统地说"随机配置"。

### 问题 2：没有定义"复现"的精度要求
原文 ：「让我可以使用对应配置再去复现场景，达到音频音色稳定输出的目的」

问题 ：「复现」和「稳定」是两个不同层次的要求。复现是确定性保证（同种子→同输出），稳定是统计性保证（输出方差可控）。如果底层依赖 GPU 浮点运算、CUDA 版本差异、模型版本差异，即使种子相同，跨环境也无法严格复现。需求方没有区分这两个层次，也没有说明是否需要跨环境复现。

正确思考 ：明确复现的精度等级——是同进程内复现？同机器跨进程复现？跨机器复现？跨版本复现？每个等级的技术约束完全不同。同时要确认底层框架（如 PyTorch）的确定性模式是否已开启。

### 问题 3：第二轮浪费了交互轮次
原文 ：「你先设计对应方案，我review后再行动」

问题 ：这是典型的"我先看看再说"式拖延。需求方在第一轮已经给出了核心意图，完全可以在第一轮就要求"先出方案再执行"。拆成两轮意味着方案设计时缺少了对第三轮才提出的关键约束（Web 可视化、CLI 复现、上游冲突）的考虑，导致方案必然返工。

正确思考 ：在第一轮就把所有已知约束一次性抛出，或者在第二轮给出约束清单而非空泛的"我 review 后再行动"。

### 问题 4：第三轮的需求是增补而非修正，暴露了第一轮的思考不完整
原文 ：「我需要通过web可视化的看到随机种子配置，可以通过配置在页面复现，可以通过配置在cli复现，我看你的方案里面没有体现」

问题 ：需求方在第一轮只说了"携带配置"和"复现场景"，没有说复现的交互入口在哪里。等到方案出来后才补充 Web 和 CLI 两个入口，这是典型的"我想到了再说"式需求管理。更严重的是——"我看你的方案里面没有体现"——这说明方案设计方也没有主动追问复现入口，双方都在做假设。

正确思考 ：需求提出时应包含完整的使用场景（User Story）：谁、在什么界面、通过什么操作、期望什么结果。而不是只描述技术目标。

### 问题 5：上游冲突问题提出时机错误
原文 ：「我的项目是clone自官方，假设官方更新时，减少代码冲突的方案是什么」

问题 ：这个问题应该在项目启动前就考虑，而不是在功能设计阶段才提出。而且这个问题的答案会深刻影响架构决策——如果采用"最小侵入"策略（配置文件外置、Hook 机制、Monkey Patch），整个功能的实现路径都会不同。在方案已经设计完之后才提这个约束，等于推翻重来。

正确思考 ：项目级约束（上游同步策略、技术栈限制、部署环境）应该在第一轮就作为硬约束声明，而非在方案评审阶段追加。

### 问题 6：第四轮是需求蔓延（Scope Creep）
原文 ：「我还期望Voice Design部分可以批量生成，即每次随机，我可以选择随机数，默认5个……历史生成的配置和音频都需要可以看到……可以有名称可以编辑，但是数据不用持久化到数据库，在页面内存即可」

问题 ：这一轮一次性追加了三个独立功能——批量生成、历史记录、可编辑名称。每个都是独立的功能点，复杂度不低。尤其是"历史生成的配置和音频都需要可以看到"——这意味着需要维护一个内存中的状态列表，包含配置快照+音频引用，还要支持筛选和名称编辑。这不是"顺便加一下"的量级。而且"数据不用持久化到数据库，在页面内存即可"这个决策本身就值得质疑——页面刷新后全部丢失，用户筛选了半天结果一刷新全没了，这个体验是否可接受？

正确思考 ：将需求拆分为独立的 Feature，按优先级排序，分批交付。批量生成和种子复现是核心功能，历史记录和名称编辑是增强功能，应该分两个迭代。同时，"内存存储"这个决策应该被挑战——至少应该用 localStorage 或 IndexedDB 做轻量持久化，否则用户体验极差。

### 问题 7：第五轮的"写 plan"要求来得太晚
原文 ：「请先将迭代方案的核心思想和具体方案写到当前项目plan中」

问题 ：在第四轮已经把需求大幅膨胀之后，才要求写 plan。这意味着前四轮的讨论都是在没有文档化的情况下进行的，方案在口头沟通中不断变形。而且"plan/{核心改动}/Readme.md"这个目录结构暗示需求方对 plan 的组织有特定期望，但直到第五轮才说明。

正确思考 ：在第二轮要求"先出方案"的时候就应该同时要求写 plan 文档。文档化应该和方案设计同步，而不是在需求已经膨胀到四轮之后才补。

### 问题 8：第六轮的测试要求缺乏具体性
原文 ：「写相关单测，web部分也完成测试，并且将测试方案也写到plan中，然后执行」

问题 ：「相关单测」——哪些模块需要单测？单测的覆盖率目标是多少？「web部分也完成测试」——是端到端测试？组件测试？视觉回归测试？「测试方案也写到plan中」——测试方案应该在设计阶段就确定，而不是在执行阶段才补。而且"然后执行"暗示测试是最后一步，但 TDD 的核心是测试先行。

正确思考 ：在方案设计阶段就定义测试策略——哪些模块需要单测（核心逻辑：种子序列化/反序列化、配置快照的完整性）、哪些需要集成测试（Web→API→音频生成的端到端流程）、哪些需要手动验证（音色一致性的人耳判断）。测试策略是方案的一部分，不是方案的附录。

### 问题 9：全程缺少对"音频生成管线"的技术理解
问题 ：整个对话中，双方都没有讨论音频生成的技术管线。随机种子只是管线的输入之一，真正影响音色的还有：模型权重版本、推理参数（temperature、classifier-free guidance）、音频后处理（降噪、归一化）、甚至硬件浮点精度。如果只保存种子而不保存完整的推理上下文，"复现"就是空谈。

正确思考 ：在需求定义阶段就要求对音频生成管线做技术审计，明确哪些参数影响输出确定性，然后定义"配置快照"的完整 schema，至少包含：随机种子、模型版本/commit hash、推理参数、框架版本、硬件信息（如果需要跨机器复现）。

### 问题 10：没有定义"配置"的序列化格式和传输协议
问题 ：「可以通过配置在页面复现，可以通过配置在cli复现」——Web 和 CLI 之间如何传递配置？是 JSON？是命令行参数？是配置文件？是 URL 参数？如果是 URL 参数，配置可能很长，URL 长度有限制。如果是文件，需要定义文件格式。如果是命令行参数，需要定义参数映射规则。这些都没有讨论。

正确思考 ：定义配置的序列化格式（推荐 JSON），定义传输方式（Web→CLI：复制 JSON 到剪贴板或导出文件；CLI→Web：通过 URL hash 传递压缩后的配置），定义配置的版本号（因为未来配置 schema 可能变化）。

### 问题 11：没有考虑错误场景和边界条件
问题 ：如果用户用旧版本的配置去在新版本上复现怎么办？如果配置中引用的模型版本不存在怎么办？如果批量生成时某个种子生成失败怎么办？历史记录的内存存储在页面崩溃时怎么办？这些都没有讨论。

正确思考 ：在方案设计中显式列出已知的错误场景和边界条件，定义降级策略。例如：配置版本不匹配时提示用户而非静默失败；批量生成部分失败时保留成功的结果并标记失败项。

## 一次性表达（如果重新来过，应该这样说） 我的项目是 clone 自官方仓库的，需要考虑与上游的代码冲突，请采用最小侵入的架构策略（如配置外置、Hook/Plugin 机制、避免修改核心文件）。

核心需求 ：当前音频输出是随机的，我需要实现"可复现的随机"——即每次随机生成后，可以提取完整的配置快照（包括但不限于随机种子、推理参数、模型版本标识），用该快照可以在 Web 界面和 CLI 中精确复现同一输出。

技术前提 ：请先对当前音频生成管线做随机性审计，列出所有影响输出确定性的随机源和参数，定义配置快照的完整 schema（含版本号），并确认底层框架的确定性模式是否已开启、跨进程/跨机器复现的可行性边界。

交互需求 ：

1. Web 界面：生成后可视化展示配置快照，支持一键复制/导出，支持通过导入配置快照复现
2. CLI：执行时友好输出配置快照（JSON 格式到 stdout），支持通过参数传入配置快照复现
3. 配置在 Web 和 CLI 之间可互操作（定义统一的序列化格式和传输方式）
Voice Design 批量生成 ：支持一次生成 N 个随机结果（N 可配置，默认 5），每个结果携带独立配置快照。生成历史在页面内存中维护（含配置快照 + 音频引用 + 可编辑名称），支持筛选和回放。 注意 ：请评估内存存储的体验风险（页面刷新丢失），如果成本可控建议用 localStorage/IndexedDB 做轻量持久化。

交付要求 ：

1. 先输出完整方案文档到 plan/{核心改动}/Readme.md ，包含：架构设计、配置快照 schema、Web/CLI 交互流程、上游冲突规避策略、测试策略（含单测范围、集成测试方案、手动验证清单）、已知边界条件和降级策略
2. 我 review 方案后再执行
3. 执行时测试与实现同步，核心逻辑先写单测
总结 ：这段沟通的核心病根是 需求方在多轮对话中逐步追加约束和功能，而每次追加都推翻或膨胀了前一轮的方案基础 。正确的做法是在第一轮就把所有已知约束（上游冲突、Web+CLI 双入口、批量生成、历史记录）和硬性要求（可复现的精度等级、配置 schema 的完整性）一次性声明，让方案设计在完整约束下一次性完成，避免返工。

编程分享, 个人常用, 大模型

相关材料

感受

沟通记录

逻辑优化