把 PDF 还原成可以改的 Word 文档

表格还是表格,分栏还是分栏,连扫描件里的文字都还原成能编辑的文字。拿到的 .docx 是真正的 Word 文档,不是一堆没格式、还要你重新整理的纯文本。

看一眼你能拿到什么

封面与摘要
1 页 / 共 4·封面与摘要
三个押注
2 页 / 共 4·三个押注
预算分配表
3 页 / 共 4·预算分配表
决策与附录
4 页 / 共 4·决策与附录

保留版式,不是抽文本

大多数"PDF 转 Word"工具给你的就是一坨没格式的段落。Vecbase Agent 是重建整份文档 —— 表格还是表格、分栏还是分栏、字体也对得上。

转换前
broken

原 PDF · 表格散乱、分栏断裂

转换后
table

DOCX · 表格仍是表格、字体已对齐

沙盒里发生的每一步 —— 都是真实工具调用
parse_pdfReducto · layout-aware
run_pythonpandoc + table-detect
edit_fileoutput.docx

同一套设置 · 对整个 Drive 文件夹批量跑

一份满意之后,把这套设置保存一下,指向 Drive 里一个文件夹 —— Agent 会用同样设置把里面所有 PDF 都转一遍,晚上跑也行。

Acme · PDF 批量转换

扫描件 OCR · 保留表格与分栏 · 输出 .docx + 抽出的 .xlsx · 镜像原 Drive 目录结构

已调用 132 次@ops-team 制作
Drive / 法务 / 2026-供应商合同已完成
MSA-Acme-2026Q1.docx
78 KB
SOW-Lumen-平台合作.docx
82 KB
NDA-Fieldstone-3月.docx
91 KB
批量运行 · 文件夹内 14 份 PDF · 已生成 14 份 .docx · 0 错误

它怎么工作

步骤 01

把 PDF 拖进来

常规 PDF 或扫描件都行。Vecbase 会一页一页看过去,自己判断是直接抽文字还是从图里识别。

步骤 02

告诉 Vecbase 你要拿来做什么

一句话就够 ——"我要改里面的表格"、"我要粘到 Notion"、"把表格抽成 Excel"。输出会跟着你下一步的用途变。

步骤 03

下载 .docx

通常 10–40 秒,长扫描件可能要 1–2 分钟。文件同时归档到你的 Drive,Word / Pages / Google Docs 都能直接打开。

为什么用 Vecbase 做这件事

还是原来那个样子,不是一坨文字

表格出来是真的 Word 表格,单元格直接能改。分栏还是分栏,标题字号对得上原稿。字体会换成你电脑上最接近的那一款,不会被压成一坨 Calibri。

扫描件也能读出真文字

页面如果只是图片,Vecbase 会先把上面的文字读出来,再重建文档。识别不那么确定的页会单独标出来 —— 你一眼就知道该重点检查哪几页。

每次转换都自动存到 Drive

原 PDF 和新生成的 .docx 都会放进你私有的 Drive 里。随时重新下载、生成分享链接,或者交给 Vecbase 接着干下一件事 —— 不会再"那文件刚才放哪了"。

整个文件夹一次转完

一份转得满意?把那套设置保存下来。指向 Drive 里的一个文件夹,Vecbase 会按同样的方式把里面所有 PDF 都转一遍,挂着晚上跑也行 —— 设置一样、效果一样。

常见问题

能。Agent 会识别图片型页面,在沙盒里跑 OCR(Tesseract + 版式感知),再重建文档。混合型 PDF(部分页是原生文字、部分是扫描)会按页分别处理。

90 秒内,拿到你的成品

登录后把任务交给 Agent —— 成品自动落到你的 Drive。