AI赋能的Chrome浏览器已经到来:从内容展示器演变为内容理解者
让我直接为您翻译这篇文章:
我叫Dora。多年来,我一直看着Chrome安静地躺在我的程序坞里——可靠、快速,几乎隐形。然后谷歌在上个月将Gemini Nano集成到它里面,一切都改变了。
没有戏剧化的改变。不是那种会让你想向任何人宣布的方式。但足够让我注意到我的工作流程在它周围微微弯曲。
实际上改变了什么
我花了三周时间进行了适当的测试,大部分时间是在研究会议期间,我通常会被大量标签淹没。
引起我注意的功能并不华丽。它是Chrome现在如何处理多个标签页的方式,当你试图理解某个庞大的东西时。
我打开了五篇关于AI内存约束的文章——这是一个我从GPT-4上下文窗口扩展以来一直在跟踪的主题。通常,我会读每一篇,在脑子里松散地保留这些想法,试图注意它们重叠的地方。这很慢。也很容易迷失思路。
现在有一个侧边栏。你用快捷键打开它,Chrome将当前页面作为上下文拉入。然后你可以添加其他标签页——如果你愿意,一次可以添加全部五个。你得到的是类似于临时的、浏览器原生的RAG系统,类似于Google在其Gemini文档中描述的,但直接存在于你的浏览器中。
我用不同的主题集群运行了四次这个测试。效果比我预期的要好。该模型同时处理文本和图像,所以图表和截图与段落一起被处理。我不必复制粘贴任何内容或切换工具。平均而言,它将我的综合时间从大约25分钟缩短到不到10分钟。
交互感觉不同
有一个快捷键——我的设置上是Ctrl + Space——即使Chrome不在焦点中也能拉起Gemini面板。感觉不像打开应用程序,更像是轻拍一个始终存在的层,就在表面下方。
“帮我写”选项现在在右键菜单中显示,只要有文本框的地方。在实际工作环境中,我可能用过它大约十几次——回复复杂的电子邮件、起草项目简介。这不是魔法,但它是立即的。浏览器知道我在哪个页面上,我可能在回复什么。上下文已经加载了。
这些单独来看都不是突破性的。但合在一起,它们改变了我在网上移动信息的语法。
这实际上意味着什么
十多年来,Chrome的工作是渲染——将代码转换为像素,如Chromium项目架构文档所述。它不关心这些像素意味着什么。它是一个管道,不是参与者。
现在它开始理解内容。这是一种不同类型的工具。
结果产生了两个转变:
首先,浏览器开始在信息完全到达你之前过滤它。它消化、总结、连接。你不再是你打开的所有内容的首个处理器。这反映了研究人员所说的”认知卸载”——将心理努力外包给外部工具。
其次,当你在写作或回复时,浏览器理解你的背景。它从被动记录器转变为更接近协作者的东西。不完全是共同作者——更像是一个非常细心的助手,他读过你读过的相同内容。
我不认为这是革命性的。但它确实感觉像是与界面的一种不同关系。
这可能会走向哪里
谷歌显然目标是他们称之为”Agent网页”——不仅仅理解页面,而且在页面上采取行动的浏览器。
逻辑很直接:如果Chrome知道你在预订网站上,知道你想要明天的票,为什么它不应该为你完成交易呢?
现在,大多数AI代理感觉像是原型——在理论上有趣,在实践中有局限。隐私问题还没有解决。信任还不存在。
但这个版本的Chrome是不同的。它现在可用,以真正减轻认知负担的方式。它不是试图取代你的判断力——它只是处理你的大脑曾经自动做的一些繁重工作。
我仍在弄清楚的东西
我仍在映射的限制。多标签功能在大约10个页面之前上限,然后性能开始下降。图像识别很好,但不完美——在我的一个测试中,它错过了一个关键的数据可视化。
还有一个我不断围绕的问题:什么时候有用的综合变成被动消费?有一次我完全跳过了一篇文章,只是读AI摘要。那感觉不对。该工具应该压缩努力,而不是替代思考。
一个小转变,不是革命
我不认为这会一夜间改变一切。但我确实认为它代表一个临界值。
浏览器正在变成除了显示工具之外的东西。它们开始以有限、特定的方式进行思考。一旦这种能力存在,就很难想象回到纯粹的被动渲染。
对于整天与信息打交道的人——作家、研究人员、任何从分散的来源拼凑理解的人——这很重要。不是因为它令人印象深刻,而是因为它悄悄地消除了你没有意识到已经习惯的摩擦。
我仍在学习它如何适应。但我还没有关闭它。
这通常是一个好兆头。





