只需将感知推理能力拆分,2B大模型就能战胜20B!国产新框架高效处理视觉任务
上海AI Lab联合南京大学、香港中文大学等机构推出了Prism框架,该框架通过显式解耦视觉语言模型的感知和推理能力,提供了一种更高效的处理视觉语言任务的方案。Prism框架将任务处理拆分为感知阶段和推理阶段,通过固定框架中的LLM测试不同VLM的感知能力,或固定VLM测试推理能力。团队利用Prism框架对现有VLMs的感知和推理能力进行了解耦分析,并在框架内整合了轻量级VLM和强大LLM,表现出卓越的性能和效率。
发布日期:
2024-07-30 04:53:25