我要投稿

一个端到端的 OCR 模型，炸裂开源！

发布日期：2024-09-29 18:57:50 浏览次数： 2307

作者：逛逛GitHub

微信搜一搜，关注“逛逛GitHub”

GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型，它能够识别和提取文本，还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容，极大地拓宽了 OCR 技术的应用范围。

模型大小仅 1.43GB，下面列出来在各个场景的效果，感兴趣的往下看。

? 项目特点

① 多语言、多模态识别：GOT-OCR 2.0 支持多种语言和模态的文本识别，无论是印刷体还是手写体，都能准确识别。

② 多样化输入输出：支持照片、文档、切片等多种输入格式，输出格式包括纯文本、Markdown、TikZ、SMILES、Kern 等，满足不同场景的需求。

③ 长文本处理能力：解码器支持 8K 最大长度的 token，能够处理长文本场景，适用于学术论文、法律文件等长文本资料。

④ 高级功能：包括交互式 OCR 功能、动态分辨率策略、多页 OCR 技术支持，提供更加灵活和高效的 OCR 解决方案。

如下是 GOT 和其他 OCR 模型的对比评分，取得了非常不错的成绩。

OCR 识别效果

公式：

大段文字：

提取文字：

提取某一坐标的文字：

论文：

特殊字符 OCR：

其他语言：

开源地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0
论文地址：https://arxiv.org/pdf/2409.01704

历史盘点

逛逛 GitHub 每天推荐一个好玩有趣的开源项目。历史推荐的开源项目已经收录到 GitHub 项目，欢迎 Star：

地址：https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业