Apple SHARP: 一秒內將任何照片轉換成3D

Apple SHARP: 一秒內將任何照片轉換成3D

Apple 推出 SHARP:AI 秒級將 2D 照片轉化為 3D 場景

Apple 推出了 SHARP(Sharp Monocular View Synthesis),一個能將單張 2D 照片在一秒內轉化為逼真 3D 表現的 AI 模型。這項突破性進展大幅縮短了 3D 場景重建所需的時間和輸入要求。

什麼是 SHARP?

SHARP 是 Apple 全新的 AI 模型,用於單眼 3D 視圖合成—從單張照片建立 3D 場景的能力。與傳統方法相比,後者需要從多個角度拍攝數十張圖像,而 SHARP 只需一張照片。

該模型採用 高斯飛濺 技術,將 3D 場景表現為位於空間中的小型、模糊色彩和光線團集合。這種方法可實現快速渲染和高視覺品質。

SHARP 如何運作?

傳統的高斯飛濺方法需要從不同角度拍攝多張照片來重建 3D 場景。SHARP 透過單次神經網路前向傳遞消除了此要求。

過程如下:

  1. 輸入:單張 2D 照片
  2. 處理:神經網路預測 3D 高斯參數
  3. 輸出:完整 3D 場景表現,耗時不到一秒

Apple 在合成和真實世界資料上訓練了 SHARP,使該模型能學習深度感知和幾何模式,從而能從 2D 影像進行 3D 重建。

性能改進

根據 Apple 的研究論文,SHARP 相比之前的最先進方法實現了顯著改進:

指標改進幅度
LPIPS(感知品質)提升 25-34%
DISTS(結構相似性)提升 21-43%
處理速度快約 1000 倍
輸入要求單張圖像 vs. 數十張

該模型還展示了 零樣本泛化 能力,即使在未特別訓練過的影像類型上也能表現良好。

主要功能

速度

SHARP 在標準 GPU 硬體上可在一秒內處理影像—比起可能需要數分鐘或數小時的先前方法快三個數量級。

品質

該模型產生的逼真 3D 表現能準確捕捉原始照片的深度、光線和空間關係。

可及性

SHARP 僅需單張影像,使 3D 場景重建可供任何擁有照片的人使用,無需專業多攝像頭設置。

限制

SHARP 有一個顯著限制:它能準確渲染原始照片視角的 鄰近視點,但無法合成場景中完全未見的部分。

例如,如果您拍攝建築物正面的照片,SHARP 可以建立 3D 視圖,顯示圍繞該正面視角的細微角度變化。但它無法生成建築物背面或側面的視圖,這些在原始照片中未被捕捉。

此限制是刻意設計的—它使系統能保持速度和穩定性,同時保持現實輸出,而非幻化未見內容。

潛在應用

空間計算

SHARP 可透過將現有照片庫轉化為 3D 記憶來增強 Apple Vision Pro 和空間計算體驗。

擴增實境

從照片快速進行 3D 重建可加速 AR 內容建立和更沉浸式體驗。

遊戲和娛樂

遊戲開發者和內容製作者可使用 SHARP 從參考照片快速打造 3D 環境原型。

電子商務

產品照片可轉化為 3D 視圖,讓客戶從多個角度檢視商品。

房地產和建築

單張房產照片可生成 3D 漫遊預覽供潛在買家查看。

開源可用性

Apple 已讓 SHARP 開源並在 GitHub 上提供。研究人員和開發者已在各種應用中試驗該模型,包括:

  • 影片處理(將 SHARP 應用於影片幀)
  • 專業成像領域
  • 與其他 3D 工具和流程的整合

SHARP 與其他方法的比較

方法所需影像數處理時間品質
傳統攝影測量50-200+數小時
NeRF(神經輻射場)20-100數分鐘至數小時
先前高斯飛濺20-50數分鐘
Apple SHARP1不到 1 秒

2D 至 3D 的未來

SHARP 代表朝著即時 3D 內容建立邁出的重要一步。隨著這些模型的改進,我們可能會看到:

  • 智慧型手機攝像頭中的即時 3D 轉換
  • 自動 3D 照片庫
  • 與 AR/VR 平台的無縫整合
  • 為藝術家和設計師打造的全新創意工具

Apple 選擇開源 SHARP 表明該公司看重社群開發和該技術的採用。

結論

Apple 的 SHARP 模型證明了高品質 3D 場景重建現在可在不到一秒的時間內從單張影像進行。雖然在未見視點方面存在限制,但速度和可及性的改進使其成為 3D 內容建立的重大進展。

對於有興趣試驗 SHARP 的開發者和研究人員,該模型已在 GitHub 上提供。隨著開源社群在此基礎上進行開發,預期將在遊戲、AR/VR、電子商務和創意產業中看到創新應用。