数据洗干净 · 配方也留下
丢进一份乱糟糟的导出 —— 4 种日期格式、币种混着写、重复行、乱码。你的 Drive 里会出现两个文件:洗干净的表格,以及完成清洗的小段 Python 脚本。下个月数据又来了?自己跑一遍这个脚本就行,或者直接发给工程同学。
丢进一份乱糟糟的导出 —— 4 种日期格式、币种混着写、重复行、乱码。你的 Drive 里会出现两个文件:洗干净的表格,以及完成清洗的小段 Python 脚本。下个月数据又来了?自己跑一遍这个脚本就行,或者直接发给工程同学。
不搞静默黑盒。Agent 在隔离沙盒里跑真 pandas,每一步动了什么、推断了什么、哪些标黄让你拍板,全在眼前。
两个文件落到你的 Drive —— 洗净的 .xlsx,和 Agent 实际写出来做这件事的 Python 脚本。下个月新数据来了再跑一次 —— 规则不变,不再需要 Vecbase。或者直接发给数据工程师。
挂个每月 1 号的定时,从 /imports/crm-latest.csv 取数 —— 同一套规则、零干预。
把 CSV / TSV / Excel / JSON 拖进来。编码、分隔符、表头行、列类型 Agent 自己会判断 —— 哪怕导出工具发挥得很自由也没关系。
在对话里把规则说清楚 —— "只保留美元"、"小于 500 美元的去掉"、"行业用标准 SIC 列表"、"邮箱为空标出来,别删"。拿不准的 Agent 会先问你,绝不会偷偷扔掉数据。
两个文件落到你的 Drive:洗好的表格,以及一份小段 Python 脚本(`cleanup.py`),随时可以重跑。设成每周自动跑、发给数据工程师、或者下次新数据来时自己再跑一遍都行。
日期格式混搭、数值列里混着币种符号、编码不对导致的乱码、同一个行业三种写法 —— Agent 在动手之前会先把这些都找出来。
每次清洗都会在你 Drive 里留下一份真 Python 脚本。下个月数据来了自己跑就行;想改某条规则,任何编辑器都能打开。第一次跑完之后不用再回 Vecbase 也行。
疑似重复、判断不准、可疑的离群值 —— Agent 都单独放到 "needs review" sheet 里附上上下文给你看,绝不会悄悄删。边界情况由你拍板。
三百万行的导出,浏览器直接卡死。传到这里就跟你的笔记本无关了 —— 真内存、真处理能力,在远端跑。传完就可以走开,回头拿成品。
通过上传 UI 是 200 MB。再大的话,先扔到 workspace bucket 里,告诉 Agent 路径即可 —— 它会通过沙盒流式处理。百万行级别是常规操作。