我要投稿

能思考、有记性、不插话，终于可以和AI好好聊天了！书生·浦语灵笔2.5-OL多模态实时交互大模型全面开源

发布日期：2024-12-17 12:23:39 浏览次数： 2043

作者：书生Intern

微信搜一搜，关注“书生Intern”

2024年12月12日，上海AI实验室推出多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)，该模型可以通过视觉和听觉实时观察和理解外部世界，自动形成对观察到内容的长期记忆，并可通过语音与人类用户进行对话交谈，提供更自然的大模型交互体验。

书生·浦语灵笔首发于2023年10月，经过历次迭代，已具备图文理解、图文混合创作、超高分辨率图像分析、超长多模态上下文等多项能力，获得了开源社区的广泛关注和好评，全系列模型累计下载量超过200万次。

书生·浦语灵笔2.5-OL基于书生·浦语2.5大语言模型（InternLM 2.5）研发，采用了多模块通专融合的架构方案，通过多模态实时感知及记忆编码的快系统和多模态复杂推理大模型的慢系统协同，实现多模态实时交互功能。

书生·浦语灵笔2.5-OL的效果实测，展现了高质量的实时视频语音交互能力，不仅支持高精度的实时视觉感知和语音对话，还创新地提出了多模态长期记忆的功能，可以准确回忆看过的内容。例如在演示视频中帮助用户找到遗忘在桌子上的矿泉水，并且回忆起桌子上还有盆栽。

技术报告地址：

https://arxiv.org/pdf/2412.09596

开源模型地址：

https://huggingface.co/internlm/internlm-xcomposer2d5-ol-7b

代码仓库地址：（文末点击阅读可直达，欢迎star）

https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-OmniLive

【重磅】一键接入扣子、Dify，FastGPT等开发平台

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

在科幻电影畅想的未来世界中，AI助手发挥着辅助人类的重要作用，例如：《流浪地球》中的MOSS、《钢铁侠》中的J.A.R.V.I.S.等。这些AI助手不仅具有强大的知识和思考能力，还可以实时感知外部环境变化，记住观察到的事物细节，与人类自然对话交流，并适时地为人类提供实际帮助。

在现实应用中，具有实时视频语音交互功能的多模态大模型，可以让具身机器人、可穿戴智能硬件、移动设备更好地感知世界进而服务人类，具有广阔的应用前景。

书生·浦语灵笔2.5-OL支持实时视觉感知和语音对话，还创新地提出了多模态长期记忆的功能。通过分别设计多模态实时交互大模型中的感知、记忆和思考功能模块，可实现并发的世界感知、长短期记忆、多模态思考三项核心功能，并提供了完整的系统协同和集成方案。

目前，书生·浦语灵笔2.5-OL已完全开源了模型参数、系统集成推理和前后端应用部署的全套方案，支持免费商用申请。

书生·浦语灵笔2.5-OL的整体架构和三个核心模块的具体设计如下：

感知模块：

实时感知音频、视频输入，对音频信号进行语音识别和音频分类，对视觉信号抽取视觉特征：

音频感知：研究人员训练了一个轻量的音频多模态大模型，实时监听输入的音频流，同时进行语音识别和音频分类，理解人类语音内容和识别背景声音。
视觉感知：通过视觉编码器实时抽取视觉特征。
记忆模块：

持续对输入的视觉特征进行多层级的记忆压缩，不断进行视觉记忆编码压缩，支持根据指令对视觉记忆的高效检索。

短时记忆压缩：对短期视频片段内进行记忆压缩，形成精确的短期记忆。
长期记忆压缩：对短期记忆进一步压缩，形成高压缩比的长期记忆。
记忆查询：根据指令查询长期记忆，召回指令相关的短期记忆片段，用于思考模块的多模态理解。

思考模块：

判断语音输入是否为需要响应的用户指令，避免误触发影响使用体验。对于需要影响的用户需求，结合指令查询视觉记忆，并回答问题。

判断用户指令是否需要响应。
调用记忆模块查询历史视觉记忆，用于多模态理解和推理，并回答用户问题。
调用外部语音合成模块合成最终语音输出。

书生·浦语灵笔2.5-OL 的系统流程设计如下：

1. 前端

前端使用JavaScript开发，可启用摄像头和麦克风捕捉视频和音频流输入，并将其推送到SRS服务器，同时与后端建立WebSocket连接，监听音频输出和中断信号。
前端在接收到音频输出时播放音频，接收到中断信号时暂停音频播放并丢弃待处理的音频。

2. SRS服务器

SRS（Simple Realtime Server）是一款简单高效的实时音视频服务器，负责接收和传输音频流、视频流数据。

3. 后端服务器

后端与前端建立WebSocket连接后，将从SRS服务器拉取流媒体，并启动独立进程分别读取音频和视频。
音频进程持续读取音频流并检测语音的开始和结束：

- 检测到语音活动开始时，后端向前端发送中断信号以暂停当前播放的音频，同时向视频进程发送备份信号保存当前记忆状态（记忆快照）。

- 检测到语音活动结束时，语音分类和识别进程对音频进行背景音分类和语音识别，并将结果送入到大语言模型待处理队列。

视频进程读取视频帧并保存到视频帧队列。记忆进程负责识别、提取并存储记忆，并在收到语音检测进程的备份信号后保存当前记忆状态以便后续检索。
大语言模型进程判断待处理的指令是否需要模型响应，并根据检索到的记忆对于需要响应的指令进行文字回复。
语音合成进程将把文字回复结果转换为音频输出并发送到前端。

书生·浦语灵笔2.5-OL的完整应用部署方案已开源，支持使用LMDeploy部署4-bit实时交互应用，并支持免费商用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-27

Dify工具插件开发和智能体开发全流程实战

2025-05-26

太猛了，字节把GPT-4o级图像模型开源了！

2025-05-26

蚂蚁集团开源antv的MCP服务：AI智能体与数据可视化的桥梁如何搭建？

2025-05-26

MinerU：高精度纸媒文档解析与数据提取一站式解决方案

2025-05-26

顶级开发者默默换掉了基础大模型

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

大家都在问

蚂蚁集团开源antv的MCP服务：AI智能体与数据可视化的桥梁如何搭建？

2025-05-26

拆解OpenAI最大对手的杀手锏：为什么会是MCP？

2025-05-25

从基础大模型到场景适配，企业如何做好商业化最后一公里？

2025-05-23

AI 开源框架：Dify、Zylon、AutoGPT、Flowise、LangChain、React-Flow怎么选？

2025-05-17

刚刚，OpenAI丢出最强编程智能体Codex！倒反天罡——新上线功能竟是微软Copilotb鼻祖？

2025-05-17

刚刚，OpenAI发布自主编码代理Codex，程序员的工作将被彻底颠覆？

2025-05-17

告别谷歌！阿里开源ZeroSearch大模型搜索成本直降88%，性能竟超原版？

2025-05-16

事实证明千问qwen3小模型才是企业的生产力，他究竟能做什么呢？

2025-05-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部