我要投稿

YOLO-World：基于视觉语言模型的实时开放词汇物体检测

发布日期：2024-07-18 08:34:08 浏览次数： 3391

Paper：YOLO-World: Real-Time Open-Vocabulary Object Detection
Abs：https://arxiv.org/abs/2401.17270
Code：https://github.com/AILab-CVC/YOLO-World

在自然图像与视频目标检测与识别领域，传统方法通常在预定义类别的数据集上训练，无法识别数据集中未出现的目标类别，缺乏零样本检测能力，识别能力有限。

【重磅】一键接入扣子、Dify，FastGPT等开发平台

立即开通>>

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

来自Tencent AI Lab、ARC Lab、Tencent PCG 以及华中科技大学的研究者们在 CVPR 2024 上提出了基于视觉语言建模的开放词汇YOLO-World模型，并探索针对YOLO检测器的大规模数据预训练方法，赋予 YOLO 模型零样本检测能力与语言理解能力，在推理速度和零样本检测精度上均领先先前工作。

YOLO-World模型目前已经在腾讯内部多项业务中落地，并与海外多家公司达成商业合作。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业