贴脚本 · 拿回成片播客
脚本里标好角色名。Agent 用 `vb tts` 给每个角色匹配音色,逐行渲染,再用 ffmpeg 把它们排到时间线上,BGM 在语音段自动避让,最后导成片 MP3 + 每个角色的分轨。响度默认按 Apple Podcasts 规范走。
脚本里标好角色名。Agent 用 `vb tts` 给每个角色匹配音色,逐行渲染,再用 ffmpeg 把它们排到时间线上,BGM 在语音段自动避让,最后导成片 MP3 + 每个角色的分轨。响度默认按 Apple Podcasts 规范走。
从 `vb tts providers` 中挑选,跟本集一起保存。第 13 集同一角色再现 · 继续这个声音 · 不漂移、不需要重新讲。
稳定撑住对话节奏 · 中性美式英语 · 节奏轻盈
能带情绪 · 表达丰富 · 中英切换不掉档
语音段自动避让 · 平滑循环铺满 28 分钟
语音段把 BGM 在其下方压低 8dB —— 这里画出前 35 秒,看到混音具体怎么搭起来的。
标好"谁说什么"——"[主持人]:"、"[嘉宾]:"、自定义都行。纯文本 / Markdown / .docx / Fountain 剧本格式都吃。Agent 从上下文判断语气、年龄、能量,再挑音色。
双人播客带 BGM?广告片三个时长?有声书一章带角色音?告诉 Agent 最终是给谁看,对应的处理链路(BGM 避让 / 响度目标 / 章节标记)就自动到位。
产物 .zip 落到你的 Drive:可直接发布的 master.mp3、每个角色的分轨、BGM 分轨、响度合规报告(集成 / 真峰值 / 动态范围)。要二次修,把分轨交给你的剪辑,不用从头跑。
多数 AI 配音工具就是把片段串起来,过渡很糟。这里 Agent 调 ffmpeg 做 sidechain 压缩,BGM 在语音段自动让位,每行加入淡入淡出,再用 LUFS 把各角色响度拉齐 —— 不会突然嘉宾比主持人响一倍。
Agent 会读脚本上下文("创始人 40 岁出头、沉稳但直接")挑相称的音色 —— 一旦选定,后续同一角色始终用同一音色。映射存为一份小 .json,下一集 / 下一章自动一致。
不同发布场景响度规范不同 —— Apple Podcasts 集成 -16 LUFS、广电 -23、社媒 -14。选好目标,Agent 会测最终混音、不达标重渲染。合规报告打包进 zip,平台不会因响度退回你的上传。
主持人分轨、嘉宾分轨、BGM 分轨可以直接拖进 ProTools / Logic / Audition。不是"AI 黑盒"——每一层都暴露、每个音量都标注。Agent 干了无聊的 80%,你后期补关键的 20%。
哪个语种 / 语气合用哪个。`vb tts` 暴露 ElevenLabs(暖、英文为主)、OpenAI tts-1-hd(干净、多语种)、字节豆包(普通话 / 粤语 / 方言最佳)等。Agent 按脚本挑;要指定厂商在对话里说一声("只用 ElevenLabs"),全部可选见 `vb tts providers`。