Google深夜狙击OpenAIGemini 2.0登场!全面转向Agent多模态输入输出，免费随便玩

阅读热度：更新时间：2024-12-16

在OpenAI宣布连发12天更新后，Google选择12月11日深夜（在OpenAI发布更新之前），发布新模型Gemini 2.0。

图片来源：Google官网截图

在多次发布被OpenAI精准狙击后，Google扳回一局，发布了Gemini 2.0，直指Agent使用。Agent功能，也称为智能体功能，通常指的是AI能够感知环境、执行任务并在一定程度上独立做出决策的能力，也就是能更自动化完成任务的功能。

此次Google似乎赌对了。OpenAI凌晨两点的发布，主要宣布了和Apple Intelligence的合作，一个普遍被期待能与Agent能力强相关的合作。

Google，则一次性发布了四个Agent相关的功能：

Project Astra，能够在Gemini应用中直接调用Google Lens和地图功能帮用户解决问题；

Project Mariner（海员项目），Chrome浏览器的实验性功能，可以通过提示词直接帮用户浏览网页做任务；

Jules，可以嵌入GitHub的编程Agent，使用自然语言描述问题，就能直接生成可以合并到GitHub项目中的代码；

游戏Agent，能够实时解读屏幕画面，直接在你打游戏的时候通过和你语音交流，给你AI打法提示。

据悉，Gemini 2.0 Flash及API免费可用！可以通过Google AI Studio和Vertex AI中的Gemini API使用，基本不要钱，每分钟*多15个提问，每天*多1500个提问。明年初全面开放。

谷歌Gemini 2.0炸裂功能

Gemini 2.0 Flash是2.0家族*个模型，主推原生多模态输入输出+Agent，速度比1.5 Pro快两倍，关键性能指标甚至超过了1.5 Pro！支持原生工具调用、以及实时音视频流输入等新功能。

速度更快，多模态、文本、代码、视频、空间理解和推理能力全面提升！新能力比如空间理解，视频理解等可以通过Googele AI Studio的Starter Apps来体验；

例如1，Gemini 2.0对空间的理解，利用Spatial Understanding，上传一张图片，Gemini快速进行图像中的物体检测和标注，并生成结构化的数据（JSON格式）。它的设计直观，用户可以通过简单的交互操作快速获得检测结果。这种工具可能用于机器学习训练数据准备、图像分析或计算机视觉研究等场景；

例如2，Gemini 2.0地图交互，利用Map explorer，show一下世界上*有意思的大城市；

全新输出模态：支持文本、音频和图像的集成响应，多语言原生音频输出，8种高品质语音，多种语言和口音！原生图像输出，还能进行多轮编辑迭代直到生成满意的图像；

原生工具使用：Gemini 2.0可以直接调用Google搜索、代码执行等工具，还能通过函数调用使用自定义的第三方函数！

多模态实时API：支持实时音视频流输入，还能进行语音活动检测，甚至可以集成多个工具完成复杂任务！现在通过Stream Realtime就可以体验；

例如，把电脑屏幕交给Gemini 2.0接管，它可以在你与模型实时交互的同时进行搜索和编码。

谷歌正在积极探索AI“代理”的应用，目标是打造能够自主理解、规划和执行任务的智能助手。他们已经推出了一系列Agent原型（目前仅供测试人员使用），展示了AI代理在不同领域的巨大潜力：

Jules，你的AI编程伙伴：想象一下，你的团队刚完成了一轮bug排查，一堆bug亟待修复。现在，你可以把Python和JavaScript的编码任务交给Jules。它与你的GitHub工作流无缝集成，可以异步处理bug修复和其他耗时的任务，让你专注于核心开发工作。Jules会创建全面的、多步骤的计划来解决问题，高效地修改多个文件，甚至能准备pull requests，直接将修复提交到GitHub！更重要的是，Jules赋予开发者更多自主权：你可以随时查看Jules创建的计划，提供反馈或要求调整，并轻松审查和合并Jules编写的代码。

Colab数据科学代理，你的AI分析师：繁琐的数据分析Colab数据科学代理帮你搞定！只需用自然语言描述你的分析目标，Colab就能自动生成一个完整的notebook，并在几分钟内提供洞察。所有分析都基于一个可运行的Colab notebook，保证结果的可靠性和可重复性。这将极大地加速你的研究和数据分析进程。

Project Mariner，重新定义人机交互：Project Mariner旨在探索人机交互的未来，从浏览器开始。它是一个实验性的Chrome扩展程序，可以让AI代理在你的浏览器中执行各种任务，例如查找信息、填写表格、甚至与网站进行交互。

Gemini Advance模式：谷歌在*版中推出一项名为"深度研究"的新代理功能，这是一个研究助手，可以深入研究复杂的主题，并为你创建带有相关来源链接的报告，感觉这是直接写科研论文的节奏。

游戏和其他领域的AI代理：DeepMind在游戏AI领域积累了丰富的经验，现在他们将Gemini 2.0应用于游戏代理的开发。例如，一个AI伙伴陪你一起玩游戏，还能提供专业的指导，游戏体验将提升到一个全新的层次！更牛的是，这些代理还能连接到Google搜索，获取海量的游戏知识，成为你真正的游戏专家！目前，他们正与Supercell等游戏开发商合作，在“部落冲突”和“卡通农场”等游戏中测试这些代理。

谷歌推出突破性量子芯片

谷歌9日宣布推出最新量子芯片Willow。谷歌首席执行官孙达尔·皮柴称其为迈向打造实用量子计算机的重要一步。

谷歌在官方博客刊文说，Willow取得了两项重大成就：首先，使用更多量子比特进行扩展，可大幅度减少错误，解决了量子纠错领域近30年来一直试图攻克的关键难题。另外，在标准基准计算测试中，Willow展示了非常高的性能。

量子比特利用叠加态来进行计算，对环境扰动极其敏感。通常量子比特越多，发生的错误就越多，而新研究有助解决这一难题。这一已发布在《自然》杂志上的研究显示，在Willow芯片中使用的量子比特越多，系统的错误率越低，“取得了‘低于阈值’的历史性成就，即在增加量子比特数量的同时降低错误率”。

谷歌量子人工智能实验室创始人和领导者哈特穆特·内文说，作为*个低于阈值的系统，这是迄今为止*可信的可扩展逻辑量子比特原型。Willow芯片的推出让量子计算向商业应用方向迈进了一大步。下一步挑战是展示量子芯片超越经典计算机，又能解决现实问题的能力。

内文还表示，谷歌首创的随机电路采样(RCS)基准，已被*用于量子计算领域，是当今量子计算机可完成的难度*高的经典基准。Willow基于该基准取得了惊人表现，在不到五分钟的时间完成了当今领先的超级计算机需要10的25次方年才能完成的计算，“这一令人难以置信的数字超出了物理学中已知的时间尺度，远远超过了宇宙年龄”。

内文说，人工智能和量子计算将被证明是当代*具变革性的两项技术，先进的人工智能将从量子计算中受益匪浅。这也是他将实验室命名为量子人工智能的原因。

相关文章