如果你最近看到一些看起来非常逼真但内容怪异的视频,很可能是用谷歌 Gemini 中的 Veo3 AI 视频生成技术制作的。它在视频帧的连贯性、自动生成音频以及无缝对嘴方面表现出色,这些都是其他模型如 Runway AI 或 OpenAI 的 Sora 所无法比拟的,这也是它极受欢迎的原因之一。上周,Veo3 向所有 Gemini 订阅用户更广泛开放,并且正在进行另一项升级,使其更加诱人。

谷歌宣布,Veo3 现在可以将现有图片转换成视频。该功能面向部分地区的 Gemini Pro 和 Gemini AI Ultra 付费订阅用户开放。借助这项新功能,订阅用户可以将包括手机相册中的照片在内的图片转换成带声音的视频片段。
以下是谷歌给出的示例:
谷歌表示,这项功能今天开始在 Gemini 的网页版界面逐步推出,并将在接下来的几天内登陆安卓和 iOS 移动应用。
此外,图片转视频功能已经在谷歌的 AI 电影制作工具 Flow 上可用。Flow 提供了更强的场景构图、镜头效果控制,甚至允许用户存储 AI 生成的元素(称为“配料”)以便在多个场景中重复使用。
值得注意的是,使用 Gemini 生成的视频存在一定限制。生成的视频最长仅支持 8 秒,分辨率最高为 720p,且采用 16:9 的宽高比。此外,由于 Gemini Pro 订阅费用较低(每月 20 美元),谷歌对该用户设置了每月最多 100 次生成的上限,并且仅将音频生成功能开放给价格更高的 Gemini AI Ultra 订阅用户(每月 250 美元)。
所有用 Veo3 生成的视频都会带有明显的水印和隐藏的 SynthID 签名,因此很容易识别为 AI 生成内容。除了有助于限制虚假信息传播外,这些水印还可能帮助谷歌识别并限制 YouTube 上 AI 生成视频的变现,这也是谷歌最新遏制 AI 内容泛滥计划的一部分。
谷歌的公告发布仅几周后,MidJourney 推出了其视频生成工具。但与 Gemini 不同的是,MidJourney 只允许使用真实照片作为参考图像来生成 AI 图像,然后将其转换成短视频,且不支持音频。