我要投稿

Dify工作流的使用(三)表格OCR

发布日期：2025-03-17 18:58:04 浏览次数： 2630

作者：冒泡的肥皂

微信搜一搜，关注“冒泡的肥皂”

通过前面的文章，我们基本可以了解到知识库的建立和大模型使用的一些基本流程。今天分享下工作流视觉模型的一个demo，如果前面的内容了解了这里其实也很简单了

dify工作流的使用(二)" data-itemshowtype="0" target="_blank" linktype="text" data-linktype="2">DeepSeek+Dify工作流的使用(二)
DeepSeek+Dify工作流的使用(一)插入代码
DeepSeek+Dify打造数据库查询专家修正(一)
DeepSeek+Dify打造数据库查询专家
Dify个人助理本地搭建快速入门

分享个点吧（不专业

如果之前写过简单的123或者猫狗识别的（可以自己再网上找demo跑跑），就会有个疑惑的写的这个demo和大模型之间的区别是什么？或者一些开源的某个方面专业的模型例如那个u2net抠图的当然这个不是文本的，它应该不影响有这个疑惑吧。
昨天偶然看的一个关于大模型介绍的一个视频收获（纯个人理解）：因为之前接触和了解的都是一些转专门的模型（也没几个），所以对大模型是有个很模糊的概念不知所云就知道参数量很大和专业的模型中间的关系是不知道的，听了之后发现其实大模型后面会有些专门的小模型再里面的会有个中间层(transformer专业名词)做一些转发进行处理的（提示词很大程度是干这个的）。

本期分享借助工作流做一个表格OCR的demo

之前的文章有分享过一些对特定表格处理的demo。方式这里简单说下
最基础的是用OPENCV定制化识别表格，但是没有直接文字识别的方法
还有一些专门的模型PaddleOCR、阿里读光有线和无线表格识别算法模型
会python/c++的可以本地试下上面说的模型。如果要自己编译通过其他方式调用是有点费劲的
之前写的文章：java表格识别PaddleOcr总结
今天分享下用大模型进行识别可以自行试下效果和关注下模型费用的问题可以做个对比（上面说的模型可以看官网有费用价格表的）。
差别接大模型可能API简单点吧，另外返回的识别数据专业模型可以有坐标的（也可能是我提示词的原因）。这个需要自己注意点。实际用可以根据自己的实际情况定夺，这里分享下只是说多了一种方式吧。

整体的流程概叙

简单的工作流

测试的图片

效果

注意事项

首先模型那里需要选择视觉模型才可以（不然的话其他模型会一直提示没有文件的上传的）
写入适当的提示词

#角色：你是一位精通OCR表格提取专家
#任务：你的任务是对用户上传图片中表格的内容进行提取，提取内容为字符串形式

其他的跟之前介绍的工作流demo基本一样

【重磅】一键接入扣子、Dify，FastGPT等开发平台

立即开通>>

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-22

如何使用Dify搭建自己的工作流？

2025-05-19

N8N 与 Dify 的核心区别与应用场景对比

2025-05-19

Dify集成飞书文档API指南

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

大家都在问

如何使用Dify搭建自己的工作流？

2025-05-22

Docker 部署 dify 连接 ollama 模型报错？

2025-04-27

从开发角度对比 dify 和 n8n：哪个更适合你？

2025-04-15

Dify 实现DeepResearch工作流拆解并再看升级版Dify能否搭建出Manus？

2025-03-20

打开日本市场背后，Dify 是怎么做 AI 全球化的？

2024-12-19

Dify v0.8.1：如何使用 OpenAI 的 o1 系列模型构建 LLM 应用？

2024-09-13

六大智能体平台大比拼：Coze如何脱颖而出？

2024-09-13

如何增强 Dify 的知识库检索能力？

2024-08-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB