AI赋能的Chrome浏览器已经到来：从内容展示器演变为内容理解者

让我直接为您翻译这篇文章：

我叫Dora。多年来，我一直看着Chrome安静地躺在我的程序坞里——可靠、快速，几乎隐形。然后谷歌在上个月将Gemini Nano集成到它里面，一切都改变了。

没有戏剧化的改变。不是那种会让你想向任何人宣布的方式。但足够让我注意到我的工作流程在它周围微微弯曲。

实际上改变了什么

我花了三周时间进行了适当的测试，大部分时间是在研究会议期间，我通常会被大量标签淹没。

引起我注意的功能并不华丽。它是Chrome现在如何处理多个标签页的方式，当你试图理解某个庞大的东西时。

我打开了五篇关于AI内存约束的文章——这是一个我从GPT-4上下文窗口扩展以来一直在跟踪的主题。通常，我会读每一篇，在脑子里松散地保留这些想法，试图注意它们重叠的地方。这很慢。也很容易迷失思路。

现在有一个侧边栏。你用快捷键打开它，Chrome将当前页面作为上下文拉入。然后你可以添加其他标签页——如果你愿意，一次可以添加全部五个。你得到的是类似于临时的、浏览器原生的RAG系统，类似于Google在其Gemini文档中描述的，但直接存在于你的浏览器中。

我用不同的主题集群运行了四次这个测试。效果比我预期的要好。该模型同时处理文本和图像，所以图表和截图与段落一起被处理。我不必复制粘贴任何内容或切换工具。平均而言，它将我的综合时间从大约25分钟缩短到不到10分钟。

有一个快捷键——我的设置上是Ctrl + Space——即使Chrome不在焦点中也能拉起Gemini面板。感觉不像打开应用程序，更像是轻拍一个始终存在的层，就在表面下方。

“帮我写”选项现在在右键菜单中显示，只要有文本框的地方。在实际工作环境中，我可能用过它大约十几次——回复复杂的电子邮件、起草项目简介。这不是魔法，但它是立即的。浏览器知道我在哪个页面上，我可能在回复什么。上下文已经加载了。

这些单独来看都不是突破性的。但合在一起，它们改变了我在网上移动信息的语法。

十多年来，Chrome的工作是渲染——将代码转换为像素，如Chromium项目架构文档所述。它不关心这些像素意味着什么。它是一个管道，不是参与者。

现在它开始理解内容。这是一种不同类型的工具。

结果产生了两个转变：

首先，浏览器开始在信息完全到达你之前过滤它。它消化、总结、连接。你不再是你打开的所有内容的首个处理器。这反映了研究人员所说的”认知卸载”——将心理努力外包给外部工具。

其次，当你在写作或回复时，浏览器理解你的背景。它从被动记录器转变为更接近协作者的东西。不完全是共同作者——更像是一个非常细心的助手，他读过你读过的相同内容。

我不认为这是革命性的。但它确实感觉像是与界面的一种不同关系。

谷歌显然目标是他们称之为”Agent网页”——不仅仅理解页面，而且在页面上采取行动的浏览器。

逻辑很直接：如果Chrome知道你在预订网站上，知道你想要明天的票，为什么它不应该为你完成交易呢？

现在，大多数AI代理感觉像是原型——在理论上有趣，在实践中有局限。隐私问题还没有解决。信任还不存在。

但这个版本的Chrome是不同的。它现在可用，以真正减轻认知负担的方式。它不是试图取代你的判断力——它只是处理你的大脑曾经自动做的一些繁重工作。

我仍在映射的限制。多标签功能在大约10个页面之前上限，然后性能开始下降。图像识别很好，但不完美——在我的一个测试中，它错过了一个关键的数据可视化。

还有一个我不断围绕的问题：什么时候有用的综合变成被动消费？有一次我完全跳过了一篇文章，只是读AI摘要。那感觉不对。该工具应该压缩努力，而不是替代思考。

我不认为这会一夜间改变一切。但我确实认为它代表一个临界值。

浏览器正在变成除了显示工具之外的东西。它们开始以有限、特定的方式进行思考。一旦这种能力存在，就很难想象回到纯粹的被动渲染。

对于整天与信息打交道的人——作家、研究人员、任何从分散的来源拼凑理解的人——这很重要。不是因为它令人印象深刻，而是因为它悄悄地消除了你没有意识到已经习惯的摩擦。

我仍在学习它如何适应。但我还没有关闭它。

这通常是一个好兆头。