Google推出Gemini 2.0,是Google迄今为止功能最强大的AI模型;继Gemini 1.0和1.5在多模态和长文本理解方面取得的进展之后,Gemini 2.0原生具备代理能力,为AI应用带来全新可能性。
▲Google推出Gemini 2.0,是Google迄今为止功能最强大的AI模型。
Gemini 2.0系列中Gemini 2.0 Flash实验性质的模型,今天起开放给所有Gemini 用户和开发者:Gemini 用户可以通过桌面和行动网页版体验,开发者则可通过Google AI Studio和Vertex AI 使用。此外,Gemini 2.0也会提升Google搜索AI 摘要还有更多产品的功能,带来更强大的推理能力,处理更复杂的主题和多层次的问题。
Google 暨 Alphabet 首席执行官 Sundar Pichai 的分享:
信息是人类进步的内核。这就是为什么过去 26 多年来,我们一直专注在自己的使命:汇整全球的信息,使它更容易被获取、为大家所用。也正因为如此,我们持续拓展 AI 的极限,让它能够整理各种管道输入的信息,并且通过任何方式输出,让大家觉得真的好用。
这是我们去年 12 月推出 Gemini 1.0 时的愿景。Gemini 1.0 和 1.5 是第一个原生多模态的模型,在多模态的特性和更长的处理脉络有显著的进展,能够跨文本、视频、图像、音频和代码来理解,并且处理量大很多的信息。
现在,数百万的开发者正在使用 Gemini 进行程序开发。而且在 Gemini 的帮助下,我们所有产品,包括 7 项拥有 20 亿用户的产品,也都焕然一新,同时也催生新的产品。NotebookLM 就是一个很好的例子,它会备受青睐,是因为多模态和超长脉络处理能力,能够赋予人类更多可能。
过去一年当中,我们持续投入资源,开发出更具代理性的模型,这代表它们可以更了解你所处的世界,提前多思考几步,并在你的指导下代替你去采取行动。
现在,我们很高兴为这个代理式 AI 的时代,推出我们的下一代模型:Gemini 2.0,这是我们截至目前为止功能最强大的模型。因为在多模态上的新进展,例如原生图像和音频的输出、以及原生使用工具的能力,让我们能够建构新的 AI 代理,更靠近通用型助理的愿景。
今天,我们把 2.0 模型交给开发者和我们信任的测试者。我们也正在努力尽快把它集成到我们的产品里,首先是 Gemini 和 Google 搜索。从今天开始,我们将 Gemini 2.0 Flash 实验性质的模型开放给所有 Gemini 用户;我们也推出「深度研究」(Deep Research)的新功能,通过高端的逻辑推理和更长的脉络处理能力,来扮演研究助理的角色,代替你探索复杂的主题和汇整报告。从今天起,你就可以在 Gemini Advanced 上体验这项功能。
没有任何产品的转型比 Google 搜索更受到 AI 的影响。我们的 AI 摘要的服务,已经触及 10 亿人,让他们能够提出全新类型的问题,因此迅速成为我们有史以来最受欢迎的搜索功能之一。接下来,我们预计将 Gemini 2.0 的高端推理能力导入 AI 摘要,用来处理更复杂的主题和多层次的问题,包括高等数学方程序、多模态的查找和编写程序。本周我们会开始进行有限的测试,并预计将在明年初更大范围地推出。未来一年,我们也会继续将 AI 摘要扩展到更多国家和地区、支持更多语言。
2.0 版本能有所突破,是因为我们十年来的投资,在 AI 领域独辟蹊径、全方位创新的做法。
它被创建在客制化的硬件上,像是我们的第六代 TPU Trillium。TPU 为 Gemini 2.0 的训练和推理提供 100% 的支持,而今天,Trillium 也已经全面开放,客户可以运用它来进行开发。
如果说 Gemini 1.0 重在信息的组织与理解,而 Gemini 2.0 则是更上一层楼,聚焦于实用性。我期待这个新时代的无限可能!
Google DeepMind 首席执行官 Demis Hassabis 和 Google DeepMind 首席技术官 Koray Kavukcuoglu,代表 Gemini 团队分享
我们持续在 AI 领域发展,过去一年的成果更是不可思议。今天,我们发表了 Gemini 2.0 模型系列中的第一个模型:Gemini 2.0 Flash 的实验性版本。它是我们技术最前端的内核模型,具有低延迟和强化的性能,且规模庞大。
我们也同步展示由 Gemini 2.0 原生多模态模型支持的几个雏形案例,分享我们针对代理式 AI 最先进的研究。
Gemini 2.0 Flash
Gemini 2.0 Flash 的基础,是我们目前为止最受开发者欢迎的模型 1.5 Flash,在同样快速的回应时间内具有更强的性能,相当成功。值得注意的是,2.0 Flash 甚至在重要的基准测试里,以两倍的速度超越了 1.5 Pro。2.0 Flash 还有其他新功能。除了支持图像、视频和音频等多模态输入之外,2.0 Flash 现在还支持多模态输出,例如原生地同时生成图像、文本,还有从文本转成语音、可调整的多语言音频。它原生就可以调用 Google 搜索、运行代码,以及用户自定义的第三方工具。
我们的目标是安全、快速地把我们的模型交给大家。过去的一个月里,我们一直分享 Gemini 2.0 的早期实验版本,并获得开发者很正面的回馈。
现在,Gemini 2.0 Flash 实验模型将通过 Google AI Studio 和 Vertex AI 中的 Gemini API 开放给开发者,所有开发者都可使用多模态输入和文本输出;加入早期测试的伙伴则可以使用文本转语音和原生图像生成的功能。明年 1 月将全面开放使用,届时也会有更多模型的尺寸。
为了协助开发者打造动态、具交互性的应用程序,我们还发布了一个新的多模态 Live API,它具有即时音频、视频串流输入以及使用多个组合工具的能力。有关 2.0 Flash 和多模态 Live API 的更多信息,请参阅我们的开发者博客。
Gemini 2.0 在我们的 AI 助理、Gemini 应用程序中开放使用
同样从今天开始,全球 Gemini 用户都可以通过桌面和行动网页版的模型下拉式功能表,选取能提升对话品质的 2.0 Flash 实验版本,并且很快也会在 Gemini 应用程序中开放。借助这个新模型,用户可以体验到更有帮助的 Gemini 助理。
明年初,我们会将 Gemini 2.0 扩展到更多 Google 的产品上。
通过 Gemini 2.0 解锁代理式 AI 的体验
Gemini 2.0 Flash 的原生用户接口操作功能,以及多模态推理、长脉络处理、复杂指令遵循与规划、组合函数调用、原生工具使用和改善的延迟率等共同运作,实现了全新等级的代理式 AI 体验。
AI 代理的实际应用是一个充满可能性的研究领域,令人兴奋。我们正在用一系列可以帮助人们运行任务、完成工作的雏形,来探索这个前瞻的领域。其中包括:新一代的 Project Astra,是我们探索通用 AI 助理未来功能的研究雏型;新的 Project Mariner,从浏览器开始着手,探索人机交互的未来;以及 Jules,一个由 AI 支持、可以协助开发者的代码代理。
我们仍处于早期开发阶段,但很期待看到受信任测试者如何使用这些新功能,以及我们可以获得哪些学习,以便未来能够更广泛地应用在产品中。
Project Astra:在现实世界中采用多模态理解的代理
自从我们在 I/O 上推出 Project Astra 以来,我们一直从受信任的测试者使用 Android 手机上的情况汲取经验。他们宝贵的回馈帮我们更了解如何实际应用通用 AI 助理,包括在安全和道德上的考量。用 Gemini 2.0 打造的最新版本,提升了包含:
更流畅的对话:Project Astra 现在能够以多种语言和混合语言进行对话,并且更能理解口音和不常见的词汇。
新工具使用:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、智能镜头和地图,在日常生活中更像助理一样实用。
更强的记忆力:我们改善了 Project Astra 记忆事情的能力,同时确保你掌控一切。它现在可以记忆长达 10 分钟的内容,并且记住过去你和它进行的更多对话,因此能更加个人化。
改善的延迟:通过新的串流能力和原生音频理解,代理能以和人类对话大致相同的延迟来了解语言。
我们正在努力将这些类型的功能引入 Google 产品中,例如我们的 AI 助理 Gemini 应用程序,以及眼镜等其他形式的设备。我们也开始把受信任测试者的计划扩展到更多人,包括有一组人,很快就会在雏形眼镜上测试 Project Astra。
Project Mariner:可以帮助你完成复杂任务的代理
Project Mariner 是一个使用 Gemini 2.0 构建的早期研究雏形,从你的浏览器开始,去探索人机交互的未来。这个研究的雏形,能够理解和推理浏览器屏幕中的信息,包括文本、代码、图像和表单等网页元素,然后通过实验性的 Chrome 扩充程序,用这些信息来为你完成任务。
WebVoyager 基准测试,会去评测代理在现实世界的网络上端到端的表现,而 Project Mariner 达到了 83.5% 的高水准。
现在还为时过早,但 Project Mariner 让我看到,它在技术上已经可以做到在浏览器上穿梭;虽然现在并不是永远都准确、而且完成任务的速度很慢,但随着时间的推移,这会迅速得到改善。
为了安全、负责任地构建 Project Mariner,我们正在积极研究新类型的风险和缓解措施,同时让真人参与其中。例如,Project Mariner 只能在浏览器的活动分页中输入、滚动或点击,并且在采取某些敏感操作(例如购买商品)之前会要求用户进行最终确认。
受信任的测试者现在开始使用实验性的 Chrome 扩充程序测试 Project Mariner,同时,我们也开始和网络生态系互相讨论研究。
Jules:给开发者的代理
接下来,我们将探讨 AI 代理如何通过 Jules 协助开发者——Jules 是一种实验性、由 AI 驱动的代码代理,直接集成到 GitHub 工作流程里。它可以在开发者的指导和监督下解决问题、制定计划并运行计划。这项工作,是我们构建全方位 AI 代理的长远目标之一,期盼它能在各个领域,包括编程方面,都能发挥作用。
游戏和其他领域的代理
Google DeepMind 长期以来一直通过游戏,来帮助 AI 模型更能遵循规则、规画和逻辑推理。例如,就在上周,我们推出了 Genie 2,我们的 AI 模型可以仅从单个图像中创造出无穷无尽的可玩 3D 世界。在这一传统的基础上,我们使用 Gemini 2.0 构建了代理,可以帮你在电玩游戏的虚拟世界中导航。它可以仅根据屏幕上的动作来推理游戏,并在即时对话中提供下一步操作的建议。
我们正在和 Supercell 等领先的游戏开发者合作,探索这些代理的运作方法,测试它们在各种游戏中解释规则和挑战的能力,从「部落冲突」等策略游戏到「卡通农场」等仿真经营游戏。
除了充当虚拟游戏伙伴之外,这些代理甚至可以利用 Google 搜索,把你和网络上丰富的游戏知识连在一起。
除了探索虚拟世界中的代理功能外,我们也正在尝试把 Gemini 2.0 的空间推理能力应用在机器人的技术,从而帮助现实生活中的代理。虽然现在还言之过早,但是我们已经可以想见能在现实世界中提供协作的 AI 代理,潜力无穷、令人振奋。
你可以在 labs.google 了解更多关于这些研究雏形和实验的信息。
在代理式 AI 的时代,采取负责任的开发方式
Gemini 2.0 Flash 和我们的研究雏形使我们能够在 AI 研究的最前线,测试、迭代新功能,而这些功能最终都会让 Google 的产品带来更多帮助。
在我们开发这些新技术的同时,我们认识到它所连带的责任,以及 AI 代理为安全保障带来的许多问题。这就是为什么我们要采取探索性和渐进式的开发方式,对多个雏形进行研究,用迭代的方式实施安全训练,与受信任的测试者和外部专家合作,并运行广泛的风险评估以及安全保障评估。
例如:
我们的安全流程有一部分,是我们和我们的责任与安全委员会 (Responsibility and Safety Committee,RSC)、也是我们一直都有的内部审查小组合作,以识别、了解潜在的风险。
Gemini 2.0 的推理能力,大幅提升了 AI 辅助红队测试的效率。它不但能侦测风险,还能自动生成评估报告和训练数据,有效降低风险。这表示我们能更有效率地提升模型安全性,并且能够大规模的进行。
随着 Gemini 2.0 的多模态增加了输出时潜在的复杂性,我们将继续评估和训练模型的图像和音频输入和输出,以帮助提高安全性。
在 Project Astra 中,我们致力于预防用户无意间与 AI 代理分享敏感信息,并已内置隐私控制功能,方便用户删除对话纪录。此外,我们也持续研究如何确保 AI 代理提供可靠的信息,且不会在未经授权的情况下擅自运行操作。
在 Project Mariner 中,我们要确保模型能学会优先遵循用户的指令,而非受制于第三方恶意指令的操控。换句话说,它能识别潜藏于外部来源的恶意指令,并防范滥用。如此一来,便能有效保护用户,不会受到藏在电子邮件、文档或网站里的诈骗和网络钓鱼手法侵害。
我们坚信,构建 AI 的唯一途径就是从一开始就采取负责任的方式,并且随着我们推进模型和代理,我们将继续优先考虑,把安全和责任作为我们模型开发流程的关键要素。
Gemini 2.0、AI 代理及其他
今天的发布,可以说替我们揭开 Gemini 模型崭新的篇章。随着 Gemini 2.0 Flash 的发布,以及一系列探索代理可能性的研究雏形,我们已经在 Gemini 时代见证了一个令人兴奋的里程碑。我们期待在构建通用人工智能的过程中,继续安全地探索所有新的可能性。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除