Gemini应用程序终于扩展到音频文件

as22 发表于 2025-9-9 13:55:05

9月9日消息，据The Verge报道，谷歌周一对其Gemini驱动的产品进行了三项重大更新：Gemini应用程序现在接受音频文件；搜索可以处理五种新语言；NotebookLM以博客文章、学习指南、测验等形式创建报告。

根据Google Labs和Gemini副总裁Josh Woodward周一在X上发布的帖子，音频文件兼容性是Gemini应用程序的“#1请求”。

免费Gemini用户每天最多可播放10分钟的音频和5次免费提示。与此同时，AI Pro或AI Ultra用户可以上传长达三个小时的音频。所有Gemini提示最多可容纳10 个不同文件格式的文件，包括ZIP文件。

此外，根据公司博客的介绍，得益于Gemini 2.5与Google搜索的整合，谷歌搜索的AI模式现已推出五种新语言选项：印地语、印尼语、日语、韩语和巴西葡萄牙语。“随着这一扩展，更多用户现在能够用自己偏好的语言提出复杂问题，同时更深入地探索网络。”

Gemini驱动的NotebookLM软件还根据用户上传的文档、文件和其他媒体，以80多种语言的新报告样式的形式进行更新。

（尽管Gemini应用刚刚才加入音频功能，但NotebookLM早已具备这一能力，使其定位为一款能够帮助用户在不同格式文件中发现规律的研究工具。）

标准报告格式包括学习指南、简报文档和博客文章。此外，最新版NotebookLM还新增了抽认卡和测验功能。用户可选择自行创建的格式，并灵活调整报告的结构、语气和风格。据公司对X平台帖子的回应称，这一功能预计将于本周内“全面上线”。

过去一个月，谷歌一直在疯狂推出令人眼花缭乱的人工智能相关功能。Gemini于8月开始自动回忆过去对话中的用户详细信息和偏好，同月，免费用户可以访问 Workspace的视频生成软件Vids。9月，Photos升级到最新的视频生成软件Veo 3，让免费用户能够根据自己的个人静态图片创建4秒长的无声视频。

页: [1]

随客社区's Archiver

Gemini应用程序终于扩展到音频文件