Google推出AI世界生成工具Project Genie 開放公眾高門檻體驗
人工智慧的研究正從靜態的文字與圖像生成,邁向動態、可互動的模擬世界。Google旗下深度思考公司(DeepMind)於去年夏季發表的「Genie 3」模型,近期透過「Project Genie」項目首度向公眾開放有限度的體驗。這個被稱為「世界模型」的AI系統,能根據用戶的指令生成並模擬出一個可供探索的互動環境,標誌著生成式AI向更具沉浸感與動態性的方向發展。然而,此次體驗的門檻極高,僅限於美國境內年滿18歲、且訂閱了Google每月250美元頂級AI方案的用戶。
高門檻測試:每月250美元與嚴格地域限制
Project Genie的初始訪問設置了多重限制,反映出其仍處於早期測試階段。首先,用戶必須是Google「AI Ultra」方案的訂閱者,該方案月費高達250美元。其次,體驗資格僅開放給居住在美國、年滿18歲的用戶。此種高牆式的測試策略,旨在控制初期使用者規模,便於收集深度反饋並管理運算資源負載。
核心互動:從草圖到探索的三大模式
項目主要提供三種互動模式,展現了Genie 3從創建到遊玩的完整流程:
- 世界草繪:此階段由Google的另一個圖像生成模型「Nano Banana Pro」負責。用戶需描述想創造的世界、定義角色,並選擇視角(第一人稱、第三人稱或等角視圖)。接著,模型會先產生一張「草圖」供用戶預覽並調整,隨後Genie 3才據此生成完整的可互動世界。
- 探索:在生成世界後,用戶便能以所選的視角進入其中,進行自由的移動與探索。系統會模擬環境中的基本物理互動,讓體驗更具真實感。
- 混音:此模式允許用戶對他人已創建並分享的世界進行修改與再創作,輸入新的提示詞來改變場景樣貌,體現了生成式AI的協作與可塑性。
技術定位:非遊戲引擎的模擬實驗
需要明確的是,Genie 3並非傳統的「遊戲引擎」。雖然其輸出畫面看似遊戲場景,也能模擬基礎互動,但並不包含遊戲常見的任務、規則或進程系統。它的核心目標是測試AI在理解物理世界、生成連貫空間並即時響應用戶動作方面的能力。
目前,出於技術與資源限制,每次生成的互動體驗長度上限為60秒,輸出解析度為720p,幀率為24fps。這些限制表明,該技術距離流暢、長時間的沉浸式模擬仍有很長的路要走。
對未來發展的啟示
儘管當前體驗門檻高且時長有限,但Project Genie的開放具有象徵性意義。它讓外界得以一窺頂尖AI實驗室如何訓練能夠理解並模擬動態環境的「世界模型」。此類技術的長期應用潛力巨大,不僅可能革新遊戲與虛擬實境的創作方式,更對機器人訓練、自動駕駛模擬乃至新藥發現等科學研究領域具有深遠影響。
對於香港的科技研究者與愛好者而言,雖然暫時無法親身體驗,但此項目的公開展示了生成式AI的下一個前沿戰場:從生成單一的媒體內容,邁向創造複雜、可互動的動態系統。這預示著未來的人機互動,可能將在由AI即時生成、無窮變化的虛擬環境中進行。