煮熟的鸭子飞了

阿里云自研EMO模型上线通义:用照片+音频生成唱歌视频

EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院开发的框架,一个音频驱动的 AI 肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。

「阿里云自研EMO模型上线通义:用照片+音频生成唱歌视频:https://aduck.win/238」

阿里云今日宣布,通义实验室研发的 AI 模型 ——EMO 正式上线通义 App,并开放给所有用户免费使用。借助这一功能,用户可以在歌曲、热梗、表情包中任选一款模板,然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。

据介绍,通义 App 首批上线了 80 多个 EMO 模板,包括热门歌曲《上春山》《野狼 Disco》等,还有网络热梗 “钵钵鸡”“回手掏” 等。EMO 官网入口:

「阿里云自研EMO模型上线通义:用照片+音频生成唱歌视频:https://aduck.win/238」
官方项目主页:https://humanaigc.github.io/emote-portrait-alive/
arXiv 研究论文:https://arxiv.org/abs/2402.17485
GitHub:https://github.com/HumanAIGC/EMO(模型和源码待开源)

EMO 主要特点:

「阿里云自研EMO模型上线通义:用照片+音频生成唱歌视频:https://aduck.win/238」
退出移动版