微信扫码
添加专属顾问
我要投稿
SpeechLLM 是一种多模态语言模型 (LLM),专门用于分析和预测对话中说话者的元数据。这种先进的模型集成了语音编码器,可将语音信号转换为有意义的语音表示。这些嵌入与文本指令相结合,然后由 LLM 处理以生成预测。
该模型输入16 KHz的语音音频文件,并预测以下内容:
SpeechActivity:音频信号是否包含语音(True/False)
文字记录:音频的 ASR 文字记录
发言者的性别(女/男)
演讲者的年龄(青年/中年/老年)
说话者的口音(非洲/美洲/凯尔特/欧洲/大洋洲/南亚/东南亚)
说话者的情绪(快乐/悲伤/愤怒/无所谓/沮丧)
Github:https://github.com/skit-ai/SpeechLLM
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-27
Dolphin-API:字节Dolphin多模态文档解析模型API化全攻略
2025-05-26
本地AI对话神奇,ChatWise到底有什么用?
2025-05-25
从BGE到 CLIP,从文本到多模态,Embedding 模型选型终极指南
2025-05-25
AI Agent到底哪家强?横评五款主流Agent
2025-05-24
AI Agent协议A2A交互细节详解
2025-05-23
技术思考:小尺寸+两阶段式多模态文档解析模型Dolphin思路评析及PP-OCRv5更新
2025-05-22
Alivia VLM:企业级视觉智能体在门店场景落地实战
2025-05-21
Gemini接管搜索、全家桶秒变通用Agent ,以及Google Glass is so back!|直击Google I/O
2024-09-12
2024-06-14
2024-06-17
2024-08-06
2024-08-30
2024-05-30
2024-11-28
2024-10-07
2024-10-16
2024-04-21