微信扫码
添加专属顾问
我要投稿
2024年12月12日,上海AI实验室推出多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive),该模型可以通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并可通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。
书生·浦语灵笔首发于2023年10月,经过历次迭代,已具备图文理解、图文混合创作、超高分辨率图像分析、超长多模态上下文等多项能力,获得了开源社区的广泛关注和好评,全系列模型累计下载量超过200万次。
书生·浦语灵笔2.5-OL基于书生·浦语2.5大语言模型(InternLM 2.5)研发,采用了多模块通专融合的架构方案,通过多模态实时感知及记忆编码的快系统和多模态复杂推理大模型的慢系统协同,实现多模态实时交互功能。
书生·浦语灵笔2.5-OL的效果实测,展现了高质量的实时视频语音交互能力,不仅支持高精度的实时视觉感知和语音对话,还创新地提出了多模态长期记忆的功能,可以准确回忆看过的内容。例如在演示视频中帮助用户找到遗忘在桌子上的矿泉水,并且回忆起桌子上还有盆栽。
技术报告地址:
https://arxiv.org/pdf/2412.09596
开源模型地址:
https://huggingface.co/internlm/internlm-xcomposer2d5-ol-7b
代码仓库地址:(文末点击阅读可直达,欢迎star)
https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-OmniLive
感知模块:
实时感知音频、视频输入,对音频信号进行语音识别和音频分类,对视觉信号抽取视觉特征:
音频感知:研究人员训练了一个轻量的音频多模态大模型,实时监听输入的音频流,同时进行语音识别和音频分类,理解人类语音内容和识别背景声音。
视觉感知:通过视觉编码器实时抽取视觉特征。
记忆模块:
持续对输入的视觉特征进行多层级的记忆压缩,不断进行视觉记忆编码压缩,支持根据指令对视觉记忆的高效检索。
短时记忆压缩:对短期视频片段内进行记忆压缩,形成精确的短期记忆。
长期记忆压缩:对短期记忆进一步压缩,形成高压缩比的长期记忆。
记忆查询:根据指令查询长期记忆,召回指令相关的短期记忆片段,用于思考模块的多模态理解。
思考模块:
判断语音输入是否为需要响应的用户指令,避免误触发影响使用体验。对于需要影响的用户需求,结合指令查询视觉记忆,并回答问题。
判断用户指令是否需要响应。
调用记忆模块查询历史视觉记忆,用于多模态理解和推理, 并回答用户问题。
调用外部语音合成模块合成最终语音输出。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-27
Dify工具插件开发和智能体开发全流程实战
2025-05-27
一个让工作效率翻倍的AI神器,Cherry Studio你值得拥有!
2025-05-27
Docext:无需 OCR,本地部署的文档提取神器,企业数据处理新选择
2025-05-26
太猛了,字节把GPT-4o级图像模型开源了!
2025-05-26
Qwen3硬核解析:从36万亿Token到“思考预算”
2025-05-26
蚂蚁集团开源antv的MCP服务:AI智能体与数据可视化的桥梁如何搭建?
2025-05-26
MinerU:高精度纸媒文档解析与数据提取一站式解决方案
2025-05-26
顶级开发者默默换掉了基础大模型
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-12-26
2024-08-13
2025-05-26
2025-05-25
2025-05-23
2025-05-17
2025-05-17
2025-05-17
2025-05-16
2025-05-14