上传视频 · 拿回字幕、翻译、烧录成片

在隔离沙盒里:先做带说话人分离的转写,再做保留时间戳的翻译,最后 ffmpeg 重新编码。你拿回烧录好字幕的 .mp4 + 每个语种的外挂 .srt —— 一般几分钟搞定。

看一眼你能拿到什么

产物清单
1 页 / 共 4·产物清单
烧录后画面
2 页 / 共 4·烧录后画面
.srt 样例
3 页 / 共 4·.srt 样例
多语种对照
4 页 / 共 4·多语种对照

沙盒里看 · ffmpeg 处理流水线

下面每个框都是 workspace 沙盒里真实生成的中间文件,每一步下方是 Agent 实际下发的命令 —— 之后打开这次运行,transcript 里看到的就是同一行。

input.mp4
184MB · 4K · 60fps · AAC
ffprobeffprobe -v quiet -show_streams input.mp4
audio.wav
单声道 · 16kHz
vb asrvb asr transcribe audio.wav --provider whisper-large --diarize
subtitles.en.srt
412 个 cue · 已分离说话人
write_filewrite_file subtitles.en.srt
subtitles.zh.srt
逐 cue 翻译 · 时间戳保留
translate_cuestranslate_cues subtitles.en.srt --target zh-CN --collapse-on length-overflow
output.mp4
192MB · 双语叠加
ffmpegffmpeg -i input.mp4 -vf 'ass=bilingual.ass' -c:a copy -preset fast output.mp4
落到 Drive
发布主旨.字幕烧录.mp4
192 MB
subtitles.en.srt
32 KB
subtitles.zh-CN.srt
28 KB

烧录后帧 · 观众看到的样子

双语两行叠加 · 抗锯齿 · 下三分之一定位 · 60% 黑底 scrim 保证亮场也读得清。

keynote · stage shot
今天我们要发布的,是过去十八个月里最让我们感到自豪的一件事。
Today we're announcing something we've quietly been the proudest of in the last 18 months.
00:00:14
output.mp4·H.264 / 60fps / 2.1 Mbps AAC

它怎么工作

步骤 01

上传源视频

MP4 / MOV / WebM / MKV · 单文件 500MB、4K 都行。Agent 会 ffprobe 读真实流参数,输出严格匹配源视频的分辨率、帧率、声道布局。

步骤 02

告诉 Agent 怎么交付

想要双语烧录上 B 站?只要 .srt 自己剪?还是出海要 5 个语种?在对话里说一句即可,Agent 会挑对应的处理链路。中途想改方向,打断重说就行。

步骤 03

取走产物包

产物 .zip 落到你的 Drive:烧录 .mp4、每个语种的 .srt、一份 .txt 文字稿、一份"检测到了什么"的小报告(说话人数 / 语种 / cue 数)。同时给你一个无需解压的公开预览 URL。

为什么用 Vecbase 做这件事

沙盒里跑真 ffmpeg · 不是托管 "字幕 SaaS"

多数字幕工具就是套一个厂商 + 一个预设。这里 Agent 会根据源视频自己决定编码参数(codec / fps / 码率),ffmpeg 命令在对话里看得见。要改?说一声,下次跑用你的版本。

保留时间戳的翻译 · 不是"段落翻译"

便宜的字幕翻译会把 .srt 当一个长字符串送翻译再切回去,时间能漂出去好几秒。这里逐 cue 翻译,只有目标语种确实更短才合并,且每次合并都记录在 CHANGELOG 里,人能复核。

默认开启说话人分离

双人访谈?圆桌?文字稿从一开始就标 Speaker 1 / Speaker 2 —— 没有额外步骤、没有额外收费。可以在对话里改名("Speaker 1 是主持人、Speaker 2 是创始人"),所有语种产物都跟着改。

视频不会出你的 workspace

源视频上传到你 workspace 绑定的沙盒,编码就跑在那个边界里,只有指名要的产物落到你的 Drive —— 中间帧、音轨、临时文件运行结束就清。我们不会拿用户媒体做训练。

常见问题

Agent 先读 `vb asr providers` · 按你 workspace 已开通的 + 哪个 provider 更适合(嘈杂 / 多说话人 / 口音重 vs 干净棚音)来挑。可在对话里指定("这条用 OpenAI" / "Deepgram 做 diarization")—— `vb asr providers` 是权威清单。

90 秒内,拿到你的成品

登录后把任务交给 Agent —— 成品自动落到你的 Drive。