我要投稿

AI对口型：腾讯开源数字人关键技术

发布日期：2024-09-26 08:37:43 浏览次数： 2388

作者：开源项目解析

微信搜一搜，关注“开源项目解析”

前言

文生图技术（Text-to-Image Synthesis）已经取得了显著的进展，可以生成高质量的图像，而文本到语音（Text-to-Speech，TTS）和语音到文本（Speech-to-Text，STT）技术也已经相对成熟，能够提供自然流畅的语音转换。ChatGPT作为大型语言模型，在文本对话方面展现了出色的性能。

在这样的背景下，AI对口型的实现成为了数字人技术发展的一个关键瓶颈。如果AI能够实现对口型，那么结合GPT生成的文本对话和文生图技术，可以创造出更加真实和自然的数字人。这种数字人可以应用于虚拟助手、在线教育、远程医疗咨询等多个领域，提供更加丰富和个性化的交互体验。

项目介绍

VideoReTalking是一个基于深度学习技术的开源项目，它能够将给定的音频与视频中的嘴型进行同步，从而生成一个看起来与音频内容相匹配的新视频。这个项目由腾讯人工智能实验室、西安电子科技大学和清华大学联合开发，其主要目的是通过输入一个视频和一个音频文件，生成一个新的视频，其中人物的嘴型会与音频同步，从而呈现出更为逼真和自然的对话效果。

VideoReTalking系统可以将目标分解为三个连续的任务：

【重磅】一键接入扣子、Dify，FastGPT等开发平台

立即开通>>

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

具有规范表情的面部视频生成

音频驱动的口型同步

以及用于提高照片真实感的面部增强

给定一个头部说话的视频，它首先使用表情编辑网络根据相同的表情模板修改每一帧的表情，从而产生具有规范表情的视频。然后，将该视频与给定的音频一起输入到口型同步网络以生成口型同步视频。最后，通过身份感知面部增强网络和后处理来提高合成面部的照片真实感。所有这些步骤都基于学习的方法，并且所有模块都可以在顺序管道中处理，无需任何用户干预。

VideoReTalking在商务和教育等领域都有广泛的应用。在商务领域，企业可以利用它进行视频会议，与全球各地的合作伙伴进行实时交流，减少商务差旅的费用，提高工作效率和合作质量。在教育领域，学生可以通过视频会议与老师进行远程教学，为那些身处偏远地区或无法亲临教室的学生提供更多的学习机会。

VideoReTalking是一项前沿的技术，其精确的口型同步功能使得数字人的表现更为自然和逼真，为视频会议、远程教育等领域带来了革命性的变化。

结语

VideoReTalking项目为视频编辑和语音合成领域带来了新的可能性，使得人们能够更加方便地生成逼真、自然的对话视频。

腾讯开源VideoReTalking项目是一个强大且高效的AI对嘴型工具