谷歌推出AI模型Vlogger,可根据图片和音频生成人物讲话视频
科技IT 2024-03-20 user639632
3月18日消息,据外媒报道,谷歌的6名研究人员联合开发了一种新的AI模型Vlogger,用户只需要输入一张肖像照片和一段音频内容,该模型就能生成不同长度的逼真视频。
Vlogger是一种适用于虚拟肖像的多模态Diffusion模型,使用MENTOR数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过2200小时的影片。
据称,Vlogger旨在支持与人类用户的自然对话,这个新工具可以用作演示、教育、叙述等方面的解决方案。
这个新模型可以作为一个人工智能代理,人们可以和它交谈,同时也可以编辑视频。
据了解,Vlogger主要应用之一是编辑现有的视频,例如,Vlogger可以改变主题的表情,或者调整嘴巴和眼睛的闭合状态,从而改变视频的情绪和信息传递。
Vlogger的另一个方面是视频翻译,它采用特定语言的现有视频,并改变嘴唇和面部表情以适应新的音频。用户可以修改现有的视频以适应不同语言的动态。谷歌研究人员提供的一个例子是翻译成西班牙语的英文原版视频。
通过Vlogger,谷歌的研究人员似乎正在测试视频中人工智能的边界,同时也重新定义了用户应该如何使用这些图像到视频的服务。
The End
相关阅读
- 比特网早报:字节内部人士回应起诉实习生,阿里云通义开源推理大模型QwQ
- 引领未来交通 Parasoft 携手 eVTOL迈入软件安全智能化时代
- 比特早报:黄仁勋回应AI芯片定价问题,腾讯2023年实现营收6090.15亿元
- 广州无人驾驶装备工作指引正在编制:积极推进跨区自动驾驶道路测试,17 家企业累计测试超 130 万小时 2441 万公里
- 东软睿驰与瑞萨电子达成合作伙伴关系,强化汽车软硬件协同创新
- 格创东智亮相半导体AI主题活动,分享“三化四步”智能转型方法论
- 比特网早报:马斯克预测AI将超越所有人类的智力,OpenAI欲转营利性公司
- 创新驱动 磁性材料行业的新篇章 -周维娜:用技术缔造行业未来
- Arm 亮相 COMPUTEX 2024:预计 2025 年底超过 1000 亿台 Arm 设备可用于 AI
- 比特网早报:OpenAI实现100亿美元年度经常性收入,7月将升级讯飞星火X1