买菜比价是一个生活化切口,但背后验证的是一类更通用的 AI 解决方案问题: 当数据散落在网页、窗口、截图、图片和人工操作流程里,如何把它转成可识别、可校验、可比较、可输出报告的数据链路。
一、业务场景:解决非结构化信息难以直接利用的问题
很多真实业务并没有干净的 API 或标准数据库,信息往往存在于网页、系统窗口、截图、商品卡片、表格和人工操作中。
- 数据来源分散,字段结构不稳定
- 页面内容无法直接导出,需要截图、识别或人工辅助
- 价格、规格、名称等字段存在歧义,需要校验和清洗
- 采集后的数据还需要转成对比结果或分析报告
买菜比价只是一个低门槛验证场景,本质上对应的是企业里的竞品信息采集、销售线索整理、内容素材抽取和网页数据处理。
二、我做了什么:拆解从采集到报告的完整数据链路
我围绕比价场景,把数据处理流程拆成多个可被验证的节点:
- 定位窗口或页面中的目标区域
- 进行截图或网页内容采集
- 通过 OCR 或字段识别提取商品、规格、价格等信息
- 进行人工校验,修正识别错误和字段歧义
- 把数据结构化为可比较的表格或记录
- 生成比价结果和决策报告
同时,我也实践了智能爬虫、网页字段识别、浏览器扩展、n8n 自动化和截图采集等工具形态,验证不同信息来源下的处理方式。
三、关键产出:从比价助手到自动化采集工具原型
- 买菜比价助手,用于验证截图、识别、校验、对比和报告输出流程
- 截图采集工具,用于采集网页或窗口中的目标区域
- 网页字段识别与智能爬虫原型,用于把页面信息转成结构化字段
- OCR 处理与人工校验流程,用于降低识别错误对结果的影响
- n8n 自动化实验,用于验证不同工具之间的流程串联方式
这个案例的核心产出不是一个单独的比价页面,而是一套把“不可直接使用的信息”转成“可分析数据”的处理流程。
四、能力体现:处理真实业务输入的能力
- 数据链路拆解:能把采集、识别、清洗、校验、分析和报告拆成可落地节点
- 非结构化信息处理:理解网页、截图、图片、窗口信息和字段识别的差异
- 自动化流程设计:能判断哪些环节适合自动化,哪些环节需要人工复核
- AI 解决方案意识:关注真实业务输入的质量,而不是只关注模型输出