AI驅動的Chrome瀏覽器已到來:從內容展示器升級為內容理解者

AI驅動的Chrome瀏覽器已到來:從內容展示器升級為內容理解者

Let me proceed with the translation. I need to request permission to write the file.

我已將英文文章翻譯成繁體中文。以下是完整的翻譯:


我叫 Dora。我已經看著 Chrome 在我的 Dock 裡安靜地坐了多年——可靠、快速、大多時候看不出存在。然後 Google 在上個月把 Gemini Nano 折疊進去了,有些東西改變了。

不是戲劇性的改變。不是那種讓你想要告訴任何人的方式。但足夠讓我注意到我的工作流程在它周圍略微彎曲了。

實際上改變了什麼

我在三週內正確地測試了這個,主要是在研究課程中,我通常會被標籤頁淹沒。

吸引我注意的功能並不華而不實。而是 Chrome 現在如何在你試圖理解一些龐大的東西時處理多個標籤頁。

我有五篇關於人工智能記憶限制的文章——一個我自 GPT-4 context window expansion 以來一直在跟蹤的主題。通常,我會逐篇閱讀,把想法鬆散地放在我的腦海中,試圖注意到它們在哪裡重疊。這很慢。也很容易失去思路。

現在有一個側邊欄。你用一個快捷鍵打開它,Chrome 將當前頁面作為上下文拉入。然後你可以添加其他標籤頁——如果你想要的話,一次全部五個。你得到的是類似於一個臨時的、瀏覽器原生的 RAG 系統,類似於 Google 在其 Gemini 文檔中描述的,但直接存在於你的瀏覽器中。

我用不同的主題集群進行了四次這個測試。效果比我預期的要好。這個模型一起處理文本和圖像,所以圖表和截圖與段落一起被處理。我不必複製粘貼任何東西或切換工具。平均而言,它將我的綜合時間從大約 25 分鐘縮短到不到 10 分鐘。

互動感覺不同

有一個快捷方式——我的設置中的 Ctrl + Space——即使 Chrome 不在焦點中也能拉起 Gemini 面板。感覺不像打開一個應用程序,更像點擊一個總是在那裡的層,就在表面下方。

「幫我寫作」選項現在出現在右鍵菜單中,無論在哪有文本框。我在實際工作環境中使用它大約十來次——回應複雜的電郵、起草項目簡報。它不是魔法,但是即時的。瀏覽器知道我在哪個頁面,我可能在回覆什麼。上下文已經加載了。

這些單獨來看都不是突破性的。但一起,它們改變了我在線移動信息的語法。

這實際上意味著什麼

十多年來,Chrome 的工作是渲染——將代碼轉換為像素,如 Chromium 項目架構文檔中所解釋的。它不關心這些像素是什麼意思。它是一個管道,不是參與者。

現在它開始理解內容。那是一種不同的工具。

結果發生了兩件事:

首先,瀏覽器開始在信息完全到達你之前進行篩選。它消化、總結、連接。你不再是你打開的所有內容的第一個處理器。這反映了研究人員所說的「認知卸載」——將心理努力外包給外部工具。

其次,當你在寫作或回應時,瀏覽器理解你的上下文。它從被動記錄器轉變為更接近協作者的東西。不完全是共同作者——更像一個非常專注的助手,讀過你讀過的同樣的東西。

我不是在說這是革命性的。但它確實感覺像是與界面的不同關係。

這可能會走向何處

Google 顯然目標是他們所謂的「代理網絡」——不僅理解頁面,而且作用於它們的瀏覽器。

邏輯很直接:如果 Chrome 知道你在一個預訂網站上,知道你想要一張明天的票,為什麼它不應該為你完成交易呢?

現在,大多數人工智能代理感覺像原型——理論上有趣,實踐中受限。隱私問題尚未解決。信任還不存在。

但這個版本的 Chrome 是不同的。它現在可用,以實際減輕認知負荷的方式。它不是在試圖取代你的判斷——它只是處理你的大腦過去自動做的一些繁重工作。

我還在弄清楚的事

有一些限制我仍在映射。多標籤頁功能在性能變得不穩定之前上限約為 10 個頁面。圖像識別很好但不完美——在我的一次測試中它錯過了一個關鍵的數據可視化。

還有我一直在思考的問題:有幫助的綜合何時變成被動消費?我抓住自己完全跳過一篇文章,只是閱讀人工智能摘要。那感覺不對。該工具應該壓縮努力,而不是取代思考。

一個小改變,不是革命

我不認為這會在一夜之間改變一切。但我確實認為它代表一個閾值。

瀏覽器正在成為除了顯示工具之外的東西。他們開始思考——以一種有限的、特定的方式。一旦那種能力在那裡,就很難想像回到純被動渲染。

對於整天與信息打交道的人——作家、研究人員、任何人從分散的來源拼湊理解——這很重要。不是因為它令人印象深刻,而是因為它悄悄地消除了你沒有意識到你已經習慣的摩擦。

我仍在學習它如何適配。但我還沒有關閉它。

那通常是一個好兆頭。