我要投稿

Alibaba出品:OmniParser通用文档复杂场景下OCR抽取

发布日期：2024-12-17 12:33:03 浏览次数： 1986

作者：CourseAI

微信搜一搜，关注“CourseAI”

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前言技术，免费分享业界实战案例与课程，助力您全面拥抱AIGC。

三大OCR任务统一抽取

文本识别
关键信息提取
表格识别

Omniparser框架以及核心思想

作者采用基于文本中心点的连贯输入和输出模式，在两个阶段，将同一文本划分为三个部分：

在stage1阶段：

结构中心点序列化（Structured points）:即标记重要信息区域的中心位置，并打上标签

在stage2阶段：

多边形区域序列化（Polygon）：定位Structured points，得到文本的多边形区域
文本内容序列化（content）：定位Structured points，得到文本内容

通过两阶段、三种序列方式可以有效地压缩原始的长序列。

此外，该框架使用空间和字符导向的窗口提示，增强对文本空间排列和单词语义的理解。

通过上图表格解析任务，我们可以知道omniparser的OCR解析流程。

首先，对图片进行编码(image encoder)
然后，在stage1，利用视觉模型对表格、文本内容、重要信息进行中心点定位
接着，在stage2，将定位的区域，经过区域解码（region decoder），得到polygon Sequence
同时，在stage2, 将定位的重要信息，进行文本内容序列化解码（content decoder），得到文本内容content sequence
最后，综合polygon Sequence和content sequence二者的信息，生成文本的定位信息（text spotting）、表格的序列信息（table recognition）和重要信息（key information extraction）

【重磅】一键接入扣子、Dify，FastGPT等开发平台

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-26

本地AI对话神奇，ChatWise到底有什么用？

2025-05-21

Gemini接管搜索、全家桶秒变通用Agent ，以及Google Glass is so back！｜直击Google I/O

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

大家都在问

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

我为什么要卸载DeepSeek ？

2025-03-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部