数据洗干净 · 配方也留下

丢进一份乱糟糟的导出 —— 4 种日期格式、币种混着写、重复行、乱码。你的 Drive 里会出现两个文件:洗干净的表格,以及完成清洗的小段 Python 脚本。下个月数据又来了?自己跑一遍这个脚本就行,或者直接发给工程同学。

看一眼你能拿到什么

清洗后的数据
1 页 / 共 2·清洗后的数据
清洗报告
2 页 / 共 2·清洗报告

看沙盒洗数据 · 实时终端

不搞静默黑盒。Agent 在隔离沙盒里跑真 pandas,每一步动了什么、推断了什么、哪些标黄让你拍板,全在眼前。

沙盒 stdout · 实时输出isolated
[02:14:09]pandas.read_csv('crm-export-messy-may.csv', encoding='auto')
[02:14:11]detected encoding: utf-8-sig
[02:14:11]rows: 14,832 · cols: 11
[02:14:12]trimmed whitespace · 412 cells
[02:14:13]normalized currency · $/¥/€ → USD float · 84 cells
[02:14:13]row 1247 日期歧义: '05/06/2024' 可能是 DD/MM 或 MM/DD
[02:14:13]↳ 参考邻行推断为 MM/DD(置信度 87%)
[02:14:14]merged industry variants · FinTech | Fintech | FIN-TECH → Fintech · 23 cells
[02:14:15]parsed dates → ISO YYYY-MM-DD · 4 formats unified · 18 cells
[02:14:16]repaired CP1252→UTF-8 mojibake on accented names · 47 cells
[02:14:17]dropped exact duplicates · 6 rows · logged to dupes_removed
[02:14:18]6 行疑似重复 · 等你复核
[02:14:18]saved: cleaned.xlsx (2.1 MB)
[02:14:18]saved: scripts/crm-cleanup-2026-05.py (3.2 KB)
$
同一条流水线 · 工具调用视角
read_csv编码自动识别
run_pythonclean.py · 7 列归一
run_pythonvalidate.py · 14,832 行
write_xlsx+ Changes sheet
write_python_script保存到 Drive

不仅是干净数据 · 还是下次能用的配方

两个文件落到你的 Drive —— 洗净的 .xlsx,和 Agent 实际写出来做这件事的 Python 脚本。下个月新数据来了再跑一次 —— 规则不变,不再需要 Vecbase。或者直接发给数据工程师。

已存到 Drive
CRM-导出-洗净-2026-05.xlsx
2.1 MB
已清洗
crm-cleanup-2026-05.py
3.2 KB
下月可重跑

挂个每月 1 号的定时,从 /imports/crm-latest.csv 取数 —— 同一套规则、零干预。

crm-cleanup-2026-05.pyPython
1import pandas as pd
2from rules import INDUSTRY_MAP, REGION_MAP
3
4# 自动生成 · 2026-05-11 02:14 UTC
5df = pd.read_csv("crm-export.csv", encoding="utf-8-sig")
6
7df["arr_usd"] = (
8 df["arr"].str.replace(r"[\$,€¥]", "", regex=True)
9 .str.replace("K", "e3").astype(float)
10)
11
12df = df.assign(
13 industry=df["industry"].str.upper().map(INDUSTRY_MAP),
14 region=df["region"].map(REGION_MAP),
15 last_contact=pd.to_datetime(df["last_contact"], errors="coerce"),
16)
本地运行 · python cleanup.py crm-export-june.csv

它怎么工作

步骤 01

丢进乱糟糟的文件

把 CSV / TSV / Excel / JSON 拖进来。编码、分隔符、表头行、列类型 Agent 自己会判断 —— 哪怕导出工具发挥得很自由也没关系。

步骤 02

告诉 Agent 你眼里的 “干净”

在对话里把规则说清楚 —— "只保留美元"、"小于 500 美元的去掉"、"行业用标准 SIC 列表"、"邮箱为空标出来,别删"。拿不准的 Agent 会先问你,绝不会偷偷扔掉数据。

步骤 03

拿到清洗结果 + 脚本

两个文件落到你的 Drive:洗好的表格,以及一份小段 Python 脚本(`cleanup.py`),随时可以重跑。设成每周自动跑、发给数据工程师、或者下次新数据来时自己再跑一遍都行。

为什么用 Vecbase 做这件事

你眼睛容易跳过的脏,它一眼挑出来

日期格式混搭、数值列里混着币种符号、编码不对导致的乱码、同一个行业三种写法 —— Agent 在动手之前会先把这些都找出来。

给你的不只是文件,还有脚本

每次清洗都会在你 Drive 里留下一份真 Python 脚本。下个月数据来了自己跑就行;想改某条规则,任何编辑器都能打开。第一次跑完之后不用再回 Vecbase 也行。

拿不准的,先问你再动

疑似重复、判断不准、可疑的离群值 —— Agent 都单独放到 "needs review" sheet 里附上上下文给你看,绝不会悄悄删。边界情况由你拍板。

百万行的文件 · 浏览器卡了也没关系

三百万行的导出,浏览器直接卡死。传到这里就跟你的笔记本无关了 —— 真内存、真处理能力,在远端跑。传完就可以走开,回头拿成品。

常见问题

通过上传 UI 是 200 MB。再大的话,先扔到 workspace bucket 里,告诉 Agent 路径即可 —— 它会通过沙盒流式处理。百万行级别是常规操作。

90 秒内,拿到你的成品

登录后把任务交给 Agent —— 成品自动落到你的 Drive。