谷歌推出AI模型Vlogger，可根据图片和音频生成人物讲话视频_科技IT

谷歌推出AI模型Vlogger，可根据图片和音频生成人物讲话视频

科技IT 2024-03-20 user639632

3月18日消息，据外媒报道，谷歌的6名研究人员联合开发了一种新的AI模型Vlogger，用户只需要输入一张肖像照片和一段音频内容，该模型就能生成不同长度的逼真视频。

Vlogger是一种适用于虚拟肖像的多模态Diffusion模型，使用MENTOR数据库进行训练，该数据库中包含超过 80 万名人物肖像，以及累计超过2200小时的影片。

据称，Vlogger旨在支持与人类用户的自然对话，这个新工具可以用作演示、教育、叙述等方面的解决方案。

这个新模型可以作为一个人工智能代理，人们可以和它交谈，同时也可以编辑视频。

据了解，Vlogger主要应用之一是编辑现有的视频，例如，Vlogger可以改变主题的表情,或者调整嘴巴和眼睛的闭合状态，从而改变视频的情绪和信息传递。

Vlogger的另一个方面是视频翻译，它采用特定语言的现有视频，并改变嘴唇和面部表情以适应新的音频。用户可以修改现有的视频以适应不同语言的动态。谷歌研究人员提供的一个例子是翻译成西班牙语的英文原版视频。

通过Vlogger，谷歌的研究人员似乎正在测试视频中人工智能的边界，同时也重新定义了用户应该如何使用这些图像到视频的服务。

The End

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

谷歌推出AI模型Vlogger，可根据图片和音频生成人物讲话视频

分类导航

最新文章

本栏文章

随机文章

友情链接

谷歌推出AI模型Vlogger，可根据图片和音频生成人物讲话视频

相关阅读

分类导航

最新文章

本栏文章

随机文章

友情链接