尽管生成式 AI 系统功能强大,但其开放式的灵活性有时也会带来困扰,尤其是当我们难以向这些系统准确说明所需输出类型时。这也是像 Gemini 的“音频概览”这类预设解决方案如此吸引人的原因之一:我们只需提供源材料,就能清楚地知道将获得怎样的虚拟播客。今天,我们来看看 Gemini 在另一项潜在新功能——“故事书”生成上的最新进展。

几个月前,我们首次在谷歌 Android 应用的 16.19.42.sa.arm64 测试版中发现了有关“故事书”的线索。当时该功能尚未公开,但 Gemini 已在开发与“故事书”相关的模块,同时还有“时间轴”和“思维导图”。后两者是我们已经熟悉的 NotebookLM 功能,而“故事书”则显得比较新颖(这里有点文字游戏的意味)。
当时我们还无法真正体验这些功能,只有这些名字作为线索。但现在,我们有了一些新的进展可分享。大约一周前,TestingCatalog 报告了对 Gemini 网页版的一些分析,记录了谷歌在“故事书 Gemini Gem”上的工作。而在我们深入解析谷歌最新的 16.26.64.sa.arm64 版本时,又发现了更多关于“故事书”的资源。
首先,我们发现了一个新动画,看起来确实很像我们想象中的“故事书”形象。虽然我们还没能看到它完整生成内容的实际效果,但很明显它的目标是将丰富的插图与故事元素融合,打造出小孩子会喜欢的那种内容。
正如我们开头所说,AI 工具非常灵活,而事实证明,Gemini 用户已经开发出一些类似的解决方案,其中甚至有几个明确命名为“故事书”和“故事书 AI”。虽然我们认为谷歌是在独立打造这款工具,但这些现有的作品或许能为我们提供一些它未来发展方向的线索。


目前,当我们向 Gemini 提供一张图片时,它会显示一个“创建故事书”的按钮,但功能仅限于此。同样,当我们用 PDF 文件提示 Gemini 时,也会出现“时间轴”和“思维导图”选项。不过,目前这些功能在 Android 版 Gemini 上都还不能正常使用(尽管“时间轴”和“思维导图”可以通过网页版 NotebookLM 访问)。
根据我们迄今观察到 Gemini 在媒体内容生成方面(尤其是通过 Imagen 和 Veo)的表现,“故事书”功能有望非常出色。不过,我们也不会过早下结论,会继续努力,为大家带来这个即将推出工具的实际示例。