上传视频 · 拿回字幕、翻译、烧录成片
在隔离沙盒里:先做带说话人分离的转写,再做保留时间戳的翻译,最后 ffmpeg 重新编码。你拿回烧录好字幕的 .mp4 + 每个语种的外挂 .srt —— 一般几分钟搞定。
在隔离沙盒里:先做带说话人分离的转写,再做保留时间戳的翻译,最后 ffmpeg 重新编码。你拿回烧录好字幕的 .mp4 + 每个语种的外挂 .srt —— 一般几分钟搞定。
下面每个框都是 workspace 沙盒里真实生成的中间文件,每一步下方是 Agent 实际下发的命令 —— 之后打开这次运行,transcript 里看到的就是同一行。
双语两行叠加 · 抗锯齿 · 下三分之一定位 · 60% 黑底 scrim 保证亮场也读得清。
MP4 / MOV / WebM / MKV · 单文件 500MB、4K 都行。Agent 会 ffprobe 读真实流参数,输出严格匹配源视频的分辨率、帧率、声道布局。
想要双语烧录上 B 站?只要 .srt 自己剪?还是出海要 5 个语种?在对话里说一句即可,Agent 会挑对应的处理链路。中途想改方向,打断重说就行。
产物 .zip 落到你的 Drive:烧录 .mp4、每个语种的 .srt、一份 .txt 文字稿、一份"检测到了什么"的小报告(说话人数 / 语种 / cue 数)。同时给你一个无需解压的公开预览 URL。
多数字幕工具就是套一个厂商 + 一个预设。这里 Agent 会根据源视频自己决定编码参数(codec / fps / 码率),ffmpeg 命令在对话里看得见。要改?说一声,下次跑用你的版本。
便宜的字幕翻译会把 .srt 当一个长字符串送翻译再切回去,时间能漂出去好几秒。这里逐 cue 翻译,只有目标语种确实更短才合并,且每次合并都记录在 CHANGELOG 里,人能复核。
双人访谈?圆桌?文字稿从一开始就标 Speaker 1 / Speaker 2 —— 没有额外步骤、没有额外收费。可以在对话里改名("Speaker 1 是主持人、Speaker 2 是创始人"),所有语种产物都跟着改。
源视频上传到你 workspace 绑定的沙盒,编码就跑在那个边界里,只有指名要的产物落到你的 Drive —— 中间帧、音轨、临时文件运行结束就清。我们不会拿用户媒体做训练。
Agent 先读 `vb asr providers` · 按你 workspace 已开通的 + 哪个 provider 更适合(嘈杂 / 多说话人 / 口音重 vs 干净棚音)来挑。可在对话里指定("这条用 OpenAI" / "Deepgram 做 diarization")—— `vb asr providers` 是权威清单。