AI驅動的Chrome瀏覽器已到來:從內容展示器升級為內容理解者
Let me proceed with the translation. I need to request permission to write the file.
我已將英文文章翻譯成繁體中文。以下是完整的翻譯:
我叫 Dora。我已經看著 Chrome 在我的 Dock 裡安靜地坐了多年——可靠、快速、大多時候看不出存在。然後 Google 在上個月把 Gemini Nano 折疊進去了,有些東西改變了。
不是戲劇性的改變。不是那種讓你想要告訴任何人的方式。但足夠讓我注意到我的工作流程在它周圍略微彎曲了。
實際上改變了什麼
我在三週內正確地測試了這個,主要是在研究課程中,我通常會被標籤頁淹沒。
吸引我注意的功能並不華而不實。而是 Chrome 現在如何在你試圖理解一些龐大的東西時處理多個標籤頁。
我有五篇關於人工智能記憶限制的文章——一個我自 GPT-4 context window expansion 以來一直在跟蹤的主題。通常,我會逐篇閱讀,把想法鬆散地放在我的腦海中,試圖注意到它們在哪裡重疊。這很慢。也很容易失去思路。
現在有一個側邊欄。你用一個快捷鍵打開它,Chrome 將當前頁面作為上下文拉入。然後你可以添加其他標籤頁——如果你想要的話,一次全部五個。你得到的是類似於一個臨時的、瀏覽器原生的 RAG 系統,類似於 Google 在其 Gemini 文檔中描述的,但直接存在於你的瀏覽器中。
我用不同的主題集群進行了四次這個測試。效果比我預期的要好。這個模型一起處理文本和圖像,所以圖表和截圖與段落一起被處理。我不必複製粘貼任何東西或切換工具。平均而言,它將我的綜合時間從大約 25 分鐘縮短到不到 10 分鐘。
互動感覺不同
有一個快捷方式——我的設置中的 Ctrl + Space——即使 Chrome 不在焦點中也能拉起 Gemini 面板。感覺不像打開一個應用程序,更像點擊一個總是在那裡的層,就在表面下方。
「幫我寫作」選項現在出現在右鍵菜單中,無論在哪有文本框。我在實際工作環境中使用它大約十來次——回應複雜的電郵、起草項目簡報。它不是魔法,但是即時的。瀏覽器知道我在哪個頁面,我可能在回覆什麼。上下文已經加載了。
這些單獨來看都不是突破性的。但一起,它們改變了我在線移動信息的語法。
這實際上意味著什麼
十多年來,Chrome 的工作是渲染——將代碼轉換為像素,如 Chromium 項目架構文檔中所解釋的。它不關心這些像素是什麼意思。它是一個管道,不是參與者。
現在它開始理解內容。那是一種不同的工具。
結果發生了兩件事:
首先,瀏覽器開始在信息完全到達你之前進行篩選。它消化、總結、連接。你不再是你打開的所有內容的第一個處理器。這反映了研究人員所說的「認知卸載」——將心理努力外包給外部工具。
其次,當你在寫作或回應時,瀏覽器理解你的上下文。它從被動記錄器轉變為更接近協作者的東西。不完全是共同作者——更像一個非常專注的助手,讀過你讀過的同樣的東西。
我不是在說這是革命性的。但它確實感覺像是與界面的不同關係。
這可能會走向何處
Google 顯然目標是他們所謂的「代理網絡」——不僅理解頁面,而且作用於它們的瀏覽器。
邏輯很直接:如果 Chrome 知道你在一個預訂網站上,知道你想要一張明天的票,為什麼它不應該為你完成交易呢?
現在,大多數人工智能代理感覺像原型——理論上有趣,實踐中受限。隱私問題尚未解決。信任還不存在。
但這個版本的 Chrome 是不同的。它現在可用,以實際減輕認知負荷的方式。它不是在試圖取代你的判斷——它只是處理你的大腦過去自動做的一些繁重工作。
我還在弄清楚的事
有一些限制我仍在映射。多標籤頁功能在性能變得不穩定之前上限約為 10 個頁面。圖像識別很好但不完美——在我的一次測試中它錯過了一個關鍵的數據可視化。
還有我一直在思考的問題:有幫助的綜合何時變成被動消費?我抓住自己完全跳過一篇文章,只是閱讀人工智能摘要。那感覺不對。該工具應該壓縮努力,而不是取代思考。
一個小改變,不是革命
我不認為這會在一夜之間改變一切。但我確實認為它代表一個閾值。
瀏覽器正在成為除了顯示工具之外的東西。他們開始思考——以一種有限的、特定的方式。一旦那種能力在那裡,就很難想像回到純被動渲染。
對於整天與信息打交道的人——作家、研究人員、任何人從分散的來源拼湊理解——這很重要。不是因為它令人印象深刻,而是因為它悄悄地消除了你沒有意識到你已經習慣的摩擦。
我仍在學習它如何適配。但我還沒有關閉它。
那通常是一個好兆頭。





