谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 宣布推出 Gemini 2.0,该模型代表了谷歌变革人工智能雄心的下一步。
在推出 Gemini 1.0 模型一年后,此次重大升级融合了增强的多模式功能、代理功能和创新的用户工具,旨在突破人工智能驱动技术的界限。
回顾谷歌 26 年来组织和让世界信息可访问的使命,Pichai 表示,“如果 Gemini 1.0 是关于组织和理解信息,那么 Gemini 2.0 则是为了让信息变得更加有用。”
Gemini 1.0 于 2022 年 12 月发布,是谷歌首个原生多模态 AI 模型。第一代模型在理解和处理文本、视频、图像、音频和代码方面表现出色。其增强版 1.5 版本因其长上下文理解能力而受到开发人员的广泛欢迎,支持以生产力为重点的 NotebookLM 等应用程序。
现在,借助 Gemini 2.0,谷歌旨在加速人工智能作为通用助手的作用,能够生成原生图像和音频、更好地推理和规划,并具有现实世界的决策能力。用 Pichai 的话来说,这一发展代表着“代理时代”的曙光。
Pichai 解释说:“我们一直在投资开发更多的代理模型,这意味着它们可以更多地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。”
今天发布会的核心内容是 Gemini 2.0 Flash 的试验版,它是 Gemini 第二代旗舰型号。它建立在前代产品的基础上,同时提供更快的响应时间和更先进的性能。
Gemini 2.0 Flash 支持多模式输入和输出,包括能够结合文本生成原生图像以及生成可控的文本转语音多语言音频。此外,用户还可以从原生工具集成(例如 Google 搜索)甚至第三方用户定义函数中受益。
开发人员和企业将通过Google AI Studio和Vertex AI中的 Gemini API 访问 Gemini 2.0 Flash ,而更大的模型尺寸计划于 2024 年 1 月广泛发布。
为了实现全球可访问性,Gemini 应用现在采用了聊天优化版 2.0 Flash 实验模型。早期采用者可以在桌面和移动设备上体验此更新的助手,移动应用即将推出。
Google 搜索等产品也通过 Gemini 2.0 得到了增强,能够处理高级数学问题、编码查询和多模式问题等复杂查询。
Gemini 2.0 的推出带来了引人注目的新工具,展示了其功能。
其中一个功能是深度研究,它充当人工智能研究助手,通过将信息汇编成综合报告,简化了调查复杂主题的过程。另一项升级增强了搜索功能,使用支持 Gemini 的人工智能概览来处理复杂的多步骤用户查询。
该模型使用谷歌第六代张量处理单元 (TPU)(称为 Trillium)进行训练,Pichai 指出它“为 Gemini 2.0 的 100% 训练和推理提供动力”。
Trillium 现已可供外部开发人员使用,使他们能够从支持 Google 自身进步的相同基础架构中受益。
与 Gemini 2.0 一同构建的还有实验性的“代理”原型,旨在探索人机协作的未来,其中包括:
Project Astra 于今年早些时候在 I/O 大会上首次亮相,它利用 Gemini 2.0 的多模态理解来改善现实世界的 AI 交互。值得信赖的测试人员已经在 Android 上试用了这款助手,并提供了反馈,帮助改进了其多语言对话、记忆保留以及与 Google 搜索、Lens 和 Maps 等工具的集成。Astra 还展示了接近人类的对话延迟,目前正在进一步研究其在可穿戴技术中的应用,例如原型 AI 眼镜。
Project Mariner 是一款实验性的网络浏览助手,它利用 Gemini 2.0 的功能对浏览器中的文本、图像和表单等交互元素进行推理。在初步测试中,它在 WebVoyager 基准测试中完成了 83.5% 的端到端网络任务成功率。使用 Chrome 扩展程序的早期测试人员正在帮助完善 Mariner 的功能,同时 Google 评估安全措施,以确保该技术仍然易于使用且安全可靠。
Jules 是一款专为开发者打造的 AI 助手,可直接集成到 GitHub 工作流程中以解决编码难题。它可以自主提出解决方案、生成计划并执行基于代码的任务 – 所有这些都在人工监督下完成。这项实验性工作是 Google 长期目标的一部分,旨在创建跨各个领域的多功能 AI 代理。
为了将 Gemini 2.0 的触角伸向虚拟环境,Google DeepMind 正与 Supercell 等游戏合作伙伴合作开发智能游戏代理。这些实验性的人工智能伙伴可以实时解读游戏动作、提出策略建议,甚至通过搜索获取更广泛的知识。Gemini 2.0 的空间推理如何支持机器人技术的研究也在进行中,为未来的物理世界应用打开大门。
随着人工智能能力的扩展,谷歌强调优先考虑安全和道德考虑的重要性。
谷歌声称,Gemini 2.0 经过了广泛的风险评估,并在责任与安全委员会的监督下降低了潜在风险。此外,其嵌入式推理能力允许进行高级“红队测试”,使开发人员能够评估安全场景并大规模优化安全措施。
谷歌还在探索保护用户隐私、防止滥用和确保人工智能代理可靠的保障措施。例如,Project Mariner 旨在优先处理用户指令,同时抵御恶意提示注入,防止网络钓鱼或欺诈交易等威胁。同时,Project Astra 中的隐私控制使用户可以轻松管理会话数据和删除偏好。
皮查伊重申了公司对负责任开发的承诺,他表示:“我们坚信,打造人工智能的唯一方法是从一开始就负责任。”
随着 Gemini 2.0 Flash 的发布,谷歌距离其打造一个能够转变跨领域交互的通用助手的愿景更近了一步。