AI要做「大世界模型」－岳林品質大觀園

AI要做「大世界模型」

〈AI教母李飛飛：大語言模型不夠看！AI要做「大世界模型」〉

【2025全球大趨勢｜企業】「這是真正以人類為中心的AI，而空間智慧就是它的下一個突破點。」AI教母、史丹佛人本人工智慧研究中心（HAI）院長、World Labs執行長李飛飛認為，在大語言模型之外，要「看」得更遠。

語言充滿了視覺比喻。像是眼見為憑、一張照片勝過千言萬語、眼不見為淨等。這是因為人類透過視覺汲取了大量的意涵。

從語言到視覺

時至今日，我們正經歷一場AI的現代版寒武紀大爆發。似乎每一週都會有一項令人驚嘆的新工具推出。一開始，生成式AI革命是由ChatGPT等大型語言模型推動的，這些模型可以模仿人類的語言智慧。

作為電腦視覺領域的領導者，李飛飛長期以來被譽為“AI教母”。從她在斯坦福大學的研究，到開創性的ImageNet項目，再到她的最新創業公司World Labs，李飛飛一直走在人工智慧技術的最前沿。如今，李飛飛的World Labs公司再獲2.3億美元融資，迅速成為人工智慧領域的一匹黑馬。本文將帶你深入瞭解李飛飛的公司、她的核心技術理念——“大世界模型”和“空間智能”，以及這個項目將如何塑造未來的AI格局。

李飛飛的創業夢想：建構未來的空間智能

李飛飛創業的消息，早已不是什麼新鮮事。自從她離開Google的人工智慧團隊後，市場一直在猜測她將如何再度引領AI技術的革新。然而，這家名為World Labs的公司一直保持神秘，直到最近才逐步公開其業務領域和技術願景。

首先，值得關注的是，World Labs在成立僅三個月後，便獲得了超過3億美元的投資，估值突破10億美元。這家初創公司由李飛飛與她的學生賈斯汀·約翰遜（Justin Johnson）共同創立，並迅速引起了科技和投資界的廣泛關注。那麼，李飛飛的新公司到底專注於什麼樣的技術呢？答案是“空間智能”和“大世界模型”。

李飛飛指出，人工智慧領域目前的火爆熱點集中在語言智能上，尤其是大語言模型（如ChatGPT）所推動的語言生成和理解能力的提升。然而，李飛飛認為，除了語言智能外，人類智能還有一個非常重要的組成部分，那就是“空間智能”。空間智能指的是生物能夠通過感知、理解空間環境，並在三維世界中行動的能力。李飛飛認為，想要讓AI取得進一步的突破，不僅要提升AI的語言智能，還要讓AI具備空間智能。

空間智能的核心：感知、理解、行動

那麼，什麼是空間智能？李飛飛在一次活動中首次詳細闡述了這一概念。她將空間智能分為三個關鍵部分：視覺化為洞察、看見成為理解、理解導致行動。這意味著AI不僅要能夠“看到”物體，還要能理解這些物體之間的關係，以及它們在三維空間中的位置，最終能夠通過這種理解做出合理的行動決策。

人類的空間智能是通過數百萬年的進化發展而來的。這種能力使我們可以從腦海中的三維畫面轉化為具體的行動，比如用手把想像的東西畫出來，或者通過建築技能來建造一座城市。AI想要具備這種能力，需要結合電腦視覺、3D生成、增強現實等多種技術。

大世界模型：AI的下一個技術突破

World Labs的核心產品被稱為“大世界模型”（Large World Model，LWM）。這個模型的目標是通過AI生成一個三維世界，並讓AI能夠與之互動。這一模型的核心能力在於感知、理解、推理和生成，最終讓人類可以與3D世界進行互動。李飛飛解釋道，AI的空間智能並不僅僅是簡單的視覺識別，而是讓AI能夠像人類一樣理解並在三維環境中做出合理的反應。

那麼，為什麼這個模型如此重要？首先，3D生成和空間智能是推動未來AI技術發展的關鍵方向之一。李飛飛指出，如今AI已經能夠通過簡單的提示生成圖像和視訊，而接下來的挑戰是如何在3D領域進一步突破。這不僅僅是技術上的演進，還涉及到對現實世界的模擬與理解。

李飛飛認為，大世界模型將成為推動AI革命的下一個突破口，就像當年的ImageNet項目幫助深度學習和神經網路取得了巨大的進展一樣。ImageNet是李飛飛在2007年發起的圖像資料庫項目，極大推動了電腦視覺的研究。如今，李飛飛希望通過World Labs的大世界模型項目，為AI在3D世界中的應用帶來類似的技術變革。

從2D到3D：AI的進化路徑

近年來，AI技術在圖像生成和視訊生產領域取得了顯著進展。許多生成式AI模型（如DALL·E、Midjourney等）能夠根據簡單的文字描述生成高度逼真的圖像。這些技術已經在廣告、設計、影視製作等領域產生了深遠影響。然而，李飛飛認為，當前的AI生成技術仍然侷限於二維空間，而未來的突破在於如何讓AI從2D進化到3D。

大世界模型的目標是讓AI不僅能夠生成三維世界，還能在這個三維世界中與人類互動。這將為諸如虛擬現實（VR）、增強現實（AR）、機器人技術、自動駕駛等領域帶來巨大的變革。例如，AI可以通過感知和理解物理世界，幫助自動駕駛汽車更準確地識別路況，或是為機器人賦予更強的感知和操作能力。

不僅如此，李飛飛還認為，隨著大世界模型的完善，AI將具備在3D空間中生成創意內容的能力。例如，藝術家、設計師和工程師可以利用AI生成的三維世界進行創作，甚至可能會出現機器人藝術家。這一願景讓人們看到了AI技術未來更多的可能性。

明星團隊與頂級投資者的加持

除了技術上的創新，World Labs的創始團隊也是一大亮點。除了李飛飛外，賈斯汀·約翰遜（Justin Johnson）是這家公司的聯合創始人之一。賈斯汀曾是李飛飛的學生，目前在密歇根大學擔任助理教授，並在電腦視覺和深度學習領域有著深厚的研究背景。此外，團隊中的其他成員也都是電腦視覺、圖形學領域的頂尖專家。

例如，本·米爾登霍爾（Ben Mildenhall）是神經輻射場（NeRF）技術的提出者，他的博士論文為AI在3D圖形生成領域帶來了重要突破。克里斯托夫·拉斯納（Christoph Lassner）則專注於3D重建和渲染技術，曾在Meta和Epic Games擔任研究科學家。這些技術大牛的加入，使得World Labs成為AI技術前沿研究的聚集地。

不僅如此，World Labs還吸引了許多頂級投資者的青睞。最近一輪2.3億美元的融資由a16z、NEA和Radical Ventures領投，輝達的風投部門也參與其中，甚至包括AI領域的著名學者傑弗裡·辛頓（Geoffrey Hinton）和傑夫·迪恩（Jeff Dean）、Google前CEO埃裡克·施密特（Eric Schmidt）、LinkedIn創始人裡德·霍夫曼（Reid Hoffman）等人都參與了投資。

這些投資者對World Labs的前景充滿信心，尤其是李飛飛在AI技術領域的遠見和團隊的強大實力使得這家公司在成立不久就備受矚目。

AI的未來：從語言智能到具身智能

正如李飛飛所言，空間智能是AI未來發展的關鍵方向之一。而這一技術的潛力不僅僅限於生成3D圖像或視訊，還包括讓AI在物理世界中擁有行動能力。這也讓我們看到了AI技術從“語言智能”向“具身智能”演進的可能性。

具身智能意味著AI不僅能夠理解和生成語言，還能通過對空間的感知和理解，與物理世界進行互動。這對於自動駕駛、機器人技術等應用場景尤為重要。李飛飛認為，未來的AI將不再僅僅是依賴文字生成和自然語言處理，而是能夠通過大世界模型，與物理世界中的事物進行互動和合作。

這種空間智能的實現，將為AI的應用場景帶來更多的可能性。例如，AI可以幫助工廠自動化生產，提高生產效率；在醫療領域，具身智能的機器人可以輔助醫生進行複雜的手術操作；在教育領域，AI可以為學生提供虛擬現實中的互動教學體驗。這些都是未來AI技術的潛在應用場景。

AI的下一個十年

總的來說，李飛飛的World Labs無疑代表著AI技術的一個重要方向——空間智能和大世界模型。通過感知、理解和生成3D世界，World Labs正在為AI的下一次技術革命鋪平道路。這不僅僅是AI技術的一次演進，也是推動人類與AI更加緊密互動的一次突破。

隨著AI技術的不斷進步，我們可以預見未來的工作和生活方式將被徹底改變。而李飛飛和她的團隊正在引領這場變革，將AI從語言智能推向具身智能的新時代。未來的大世界模型是否能夠如她所願，成為AI發展的下一個里程碑？讓我們拭目以待。

※取材網路

文學館

林公孚

岳林品質大觀園

林公孚發表在痞客邦留言(0) 人氣()

岳林品質大觀園

以分享品質管理相關知識為主

AI要做「大世界模型」

歷史上的今天

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY