有没有想过直接给 Gemini 传个 MP3,让它帮你解释里面的内容?这功能可能很快就要来了,因为我们在 Gemini 安卓版应用中发现了支持音频文件的早期迹象。

在 Google 应用测试版 16.30.59.sa.arm64 版本中,我们成功激活了一个新的文件附件功能,可以在与 Gemini 聊天时上传音频文件,比如 MP3。上传后,Gemini 会显示一个新建议:“实时讨论这个内容”。听起来很有前景,但目前这个功能还无法正常使用。
上传音频文件后,你可以选择输入普通问题,或者选择“实时讨论”。但无论哪种方式,Gemini 都似乎无法真正理解或有意义地回应音频内容。有时它会完全忽略音频,有时则会自信地编造答案(如下面第三张截图所示),不过这类“幻觉”现象并非只出现在音频文件或 Gemini 上。



不过,这一切的发展方向其实并不难猜测。在开发者端,Gemini 已经通过 API 支持音频输入。你可以向它传入音频,并让它描述听到的内容、做总结,或者转录说话内容。它甚至能处理诸如“从2:30到3:29”的时间戳请求,支持的格式包括 MP3、WAV 和 FLAC。
这很可能就是谷歌在安卓应用上正在努力实现的功能——只是目前还没完全实现。现在来看,这更像是一个占位符,而非完整的功能,而且也没有保证它何时或是否会正式推出。不过,鉴于 Gemini 应用中图片上传功能已经广泛开放,支持音频似乎是合乎逻辑的下一步。