黑色丝袜美腿性爱一区二区,玖玖亚洲精品国产,国产精品日韩欧美一区2区3区,国产免费A∨片在线观看不卡

      關(guān)于ZAKER 合作
      愛范兒 1小時(shí)前

      李飛飛萬(wàn)字訪談:空間智能是 AI 的下一個(gè)前沿領(lǐng)域

      在 AI 的世界里,大語(yǔ)言模型已經(jīng)讓人們感到驚艷。李飛飛卻說(shuō),真正的突破還在后頭。她認(rèn)為,AI 如果不能理解三維世界,那它就不算完整。這是她的下一個(gè)瘋狂目標(biāo)。

      兩天前,Y Combinator 在其 YouTube 頻道更新了李飛飛在舊金山的 AI 創(chuàng)業(yè)學(xué)校進(jìn)行的訪談視頻。在這次的談話內(nèi)容中,李飛飛回顧了 ImageNet 項(xiàng)目的創(chuàng)建,從物體識(shí)別到如今生成模型這一路,深度學(xué)習(xí)的飛速發(fā)展,重點(diǎn)提到了她目前正攻克人工智能最困難的一項(xiàng)前沿領(lǐng)域:空間智能。

      李飛飛目前是空間智能公司 World Labs 的創(chuàng)始人兼 CEO,該公司致力于構(gòu)建大型世界模型,以感知、生成和與 3D世界交互。她在這次的對(duì)談交流中也提到了關(guān)于 3D 世界建模對(duì)通用人工智能(AGI)重要性的原因,以及為什么空間智能可能比語(yǔ)言更難實(shí)現(xiàn)等系列問題。

      省流速看版:

      這是機(jī)器學(xué)習(xí)領(lǐng)域一次范式的轉(zhuǎn)變

      ImageNet 的誕生不僅是李飛飛的個(gè)人夢(mèng)想,更是計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域的一次范式轉(zhuǎn)變。她分享自己那時(shí)只是對(duì)「讓機(jī)器看見」充滿執(zhí)念,這種執(zhí)著和努力,創(chuàng)造了數(shù)據(jù)、GPU 和神經(jīng)網(wǎng)絡(luò)結(jié)合在一起的重要時(shí)刻。而現(xiàn)在,她有了新的執(zhí)著,打算繼續(xù)引領(lǐng)一場(chǎng)新的 AI 革命。

      我們要讓空間智能成為 AI 的新戰(zhàn)場(chǎng)

      從物體識(shí)別到場(chǎng)景理解,AI 逐步開始有能力理解復(fù)雜的視覺信息。而新一輪的轉(zhuǎn)變來(lái)到了當(dāng)前 AGI 的時(shí)代,她相信,世界不是純粹生成性的,只有讓 AI 理解三維世界,才能真正邁向 AGI。大語(yǔ)言模型的數(shù)據(jù)獲取是簡(jiǎn)單的,空間智能模型才是她下一需要攻克的難題。

      World Labs 的具體細(xì)節(jié) 我無(wú)法透露太多

      當(dāng)被問到 World Labs 暢想的應(yīng)用場(chǎng)景,以及與當(dāng)前 LLMs 的架構(gòu)有何區(qū)別時(shí);李飛飛說(shuō)軟硬件的融合,以及實(shí)現(xiàn)元宇宙,都會(huì)需要他們的空間智能。而與實(shí)現(xiàn) LLMs 不同,她提到人類對(duì) 3D 世界感知不強(qiáng),難度很大,但相信自己的團(tuán)隊(duì),有著世界上最聰明的人,和他們一起可以在 2D 世界解決這個(gè)問題。

      在 AI 領(lǐng)域,永遠(yuǎn)不要害怕失敗

      訪談最后,李飛飛分享了自己的成長(zhǎng)經(jīng)歷,無(wú)論是從一開始移民美國(guó)求學(xué),到斯坦福人工智能實(shí)驗(yàn)室主任,谷歌副總裁,以及現(xiàn)在開始創(chuàng)業(yè),她說(shuō)自己始終是從零開始的心態(tài),埋頭苦干。她也鼓勵(lì)年輕人追隨自己的興趣和好奇心,勇敢地面對(duì)挑戰(zhàn),去解決那些不可能的難題。

      原視頻:https://youtu.be/_PioN-CpOP0

      以下是訪談實(shí)錄,編譯略作調(diào)整

      機(jī)器學(xué)習(xí)領(lǐng)域需要一次范式的轉(zhuǎn)變

      主持人:我非常激動(dòng)能夠請(qǐng)到李飛飛博士,她在人工智能領(lǐng)域有著非常長(zhǎng)的職業(yè)生涯。我相信很多人都知道她。你也被譽(yù)為「人工智能的教母」,你創(chuàng)立的第一個(gè)項(xiàng)目之一就是 2009 年的 Imagenet,距今已經(jīng) 16 年了。這個(gè)項(xiàng)目已經(jīng)被引用超過 80000 次,它實(shí)際上為人工智能奠定了一個(gè)重要的基石——數(shù)據(jù)問題。能談?wù)勥@個(gè)項(xiàng)目是如何誕生的嗎?那時(shí)的工作真的是開創(chuàng)性的。

      李飛飛:是的,首先感謝 Diana、Gary 以及在場(chǎng)的每一個(gè)人邀請(qǐng)我來(lái)到這里。我非常激動(dòng)能夠在這里,因?yàn)槲腋杏X自己和大家一樣。我現(xiàn)在也是一名企業(yè)家,剛剛創(chuàng)辦了一家公司,所以非常興奮能夠在這里。

      是的,你說(shuō)得對(duì),實(shí)際上我們幾乎是在 18 年前構(gòu)思了這個(gè)項(xiàng)目,時(shí)間真的是飛快。那時(shí)我還是第一年來(lái)到普林斯頓大學(xué)當(dāng)助理教授。那時(shí)的人工智能和機(jī)器學(xué)習(xí)的世界和現(xiàn)在完全不同。那時(shí)數(shù)據(jù)非常少,至少在計(jì)算機(jī)視覺領(lǐng)域,算法根本無(wú)法工作。那時(shí)沒有產(chǎn)業(yè),公眾也幾乎不知道「人工智能」這個(gè)詞。但仍然有一群人從人工智能的奠基人開始,比如 John McCarthy,然后是像 Jeff Hinton 這樣的人。我覺得我們都有一個(gè)人工智能的夢(mèng)想,我們真的非常希望讓機(jī)器具備思考和工作能力。而我的個(gè)人夢(mèng)想就是讓機(jī)器具備視覺能力,因?yàn)橐曈X是智能的基石,視覺智能不僅僅是感知,更是理解世界并在世界中做事情。

      所以我當(dāng)時(shí)非常執(zhí)著于「讓機(jī)器看見」這個(gè)問題。在我癡迷地開發(fā)機(jī)器學(xué)習(xí)算法的過程中,我們確實(shí)嘗試過神經(jīng)網(wǎng)絡(luò),但并沒有成功。我們轉(zhuǎn)向了支持向量機(jī)等其他方法,但有一個(gè)問題一直困擾著我,那就是泛化問題。如果你從事機(jī)器學(xué)習(xí)工作,你必須理解,泛化是機(jī)器學(xué)習(xí)的核心數(shù)學(xué)基礎(chǔ)和目標(biāo)。為了讓這些算法能夠泛化,數(shù)據(jù)是至關(guān)重要的,但當(dāng)時(shí)在計(jì)算機(jī)視覺領(lǐng)域幾乎沒有數(shù)據(jù)。而我正好是第一代開始接觸數(shù)據(jù)的研究生,因?yàn)槲沂堑谝淮娮C了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的出現(xiàn)的研究生。

      時(shí)間來(lái)到大約 2007 年,我和我的學(xué)生決定必須做出一個(gè)大膽的嘗試。我們賭機(jī)器學(xué)習(xí)領(lǐng)域需要一次范式的轉(zhuǎn)變,而這個(gè)轉(zhuǎn)變必須由數(shù)據(jù)驅(qū)動(dòng)的方法引領(lǐng)。但當(dāng)時(shí)并沒有足夠的數(shù)據(jù)。所以我們想,既然沒有數(shù)據(jù),那我們就去互聯(lián)網(wǎng)下載數(shù)十億張圖片,這是我們能在互聯(lián)網(wǎng)上找到的最大數(shù)量,然后我們就構(gòu)建一個(gè)全球的視覺分類體系,利用這個(gè)體系來(lái)訓(xùn)練和評(píng)估機(jī)器學(xué)習(xí)算法。正是因?yàn)檫@個(gè)原因,ImageNet 項(xiàng)目應(yīng)運(yùn)而生且真正付諸實(shí)踐。

      數(shù)據(jù)和開源迎來(lái)了深度學(xué)習(xí)的春天

      主持人:確實(shí),直到出現(xiàn)一些有前景的算法,才開始有所突破。直到 2012 年 AlexNet 的問世,這才是通向人工智能的第二個(gè)關(guān)鍵因素,獲得足夠的計(jì)算能力并投入足夠的資源。而算法則揭示了一個(gè)關(guān)鍵時(shí)刻,那就是當(dāng)你用數(shù)據(jù)為人工智能播下種子時(shí),社區(qū)開始逐漸找出更多的解決方案,這為人工智能的發(fā)展提供了動(dòng)力,對(duì)吧?

      李飛飛:在 2009 年,我們發(fā)布了一篇小論文,僅作為 CVPR Poster。

      從 2009 年到 2012 年,直到 AlexNet 的問世,那三年里我們真的相信數(shù)據(jù)會(huì)驅(qū)動(dòng)人工智能,但我們幾乎沒有任何明確的信號(hào)表明這個(gè)方法有效。

      所以我們做了幾件事情,首先,我們決定開源。我們從一開始就認(rèn)為必須將其開源,供整個(gè)研究社區(qū)使用,大家一起合作解決這個(gè)問題。

      其次,我們創(chuàng)建了一個(gè)挑戰(zhàn)賽,因?yàn)?strong>我們希望全世界最聰明的學(xué)生和研究人員都來(lái)參與這個(gè)問題的解決。這就是我們所說(shuō)的 ImageNet 挑戰(zhàn)賽。每年我們都會(huì)發(fā)布一個(gè)測(cè)試數(shù)據(jù)集,整個(gè)平臺(tái)的 ImageNet 數(shù)據(jù)用于訓(xùn)練,但我們會(huì)發(fā)布單獨(dú)的測(cè)試數(shù)據(jù)集,并邀請(qǐng)大家公開參與。

      最初的幾年實(shí)際上是在設(shè)定基準(zhǔn)。當(dāng)時(shí)的性能錯(cuò)誤率大約在 30% 左右,雖然不是零錯(cuò)誤,也不是完全隨機(jī),但表現(xiàn)并不出色。但到了第三年,2012 年,我也有在我出版的書里寫過這段經(jīng)歷。

      ▲ ImageNet 挑戰(zhàn)賽第一名是 SuperVision

      我仍然記得,那是夏末,我們正在將所有 ImageNet 挑戰(zhàn)賽的結(jié)果在我們的服務(wù)器上運(yùn)行。某天深夜,我收到了我研究生發(fā)來(lái)的消息,告訴我有一個(gè)結(jié)果非常突出,應(yīng)該去看看。我們仔細(xì)查看后,發(fā)現(xiàn)這是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。那時(shí)它還不是 AlexNet,而是 Geoffrey Hinton 團(tuán)隊(duì)的一項(xiàng)工作,叫做「SuperVision」。這是一個(gè)非常巧妙的詞匯玩弄,結(jié)合了「super」和「supervised learning」(監(jiān)督學(xué)習(xí))。我們看了 SuperVision 做的工作,這其實(shí)是一個(gè)老算法,卷積神經(jīng)網(wǎng)絡(luò)早在 1980 年代就已經(jīng)發(fā)布,只是算法上做了一些調(diào)整,但最初看到它時(shí),我們真的很驚訝,居然會(huì)有如此巨大的突破。

      當(dāng)然,接下來(lái)大家都知道了,我們?cè)诋?dāng)年的 ICCV(國(guó)際計(jì)算機(jī)視覺大會(huì))佛羅倫薩的 ImageNet 挑戰(zhàn)賽工作坊上展示了這個(gè)成果,Alex Krizhevsky 和他的團(tuán)隊(duì)也來(lái)了,很多人也都來(lái)了。如今,大家都把這一刻稱為 ImageNet 挑戰(zhàn)賽的 「AlexNet 時(shí)刻」。

      我還想補(bǔ)充一點(diǎn),不僅僅是卷積神經(jīng)網(wǎng)絡(luò)的成功,這也是第一次由 Alex 和他的團(tuán)隊(duì)將兩臺(tái) GPU 結(jié)合起來(lái),用于深度學(xué)習(xí)的計(jì)算。這真的是數(shù)據(jù)、GPU 和神經(jīng)網(wǎng)絡(luò)結(jié)合的第一次重要時(shí)刻。

      我的職業(yè)生涯不僅僅是講述場(chǎng)景

      主持人:沿著計(jì)算機(jī)視覺智能發(fā)展的趨勢(shì),ImageNet 確實(shí)為解決物體識(shí)別的問題奠定了基礎(chǔ)。緊接著,人工智能達(dá)到了可以解決場(chǎng)景理解的問題。因?yàn)槟愫湍愕膶W(xué)生們,像是 Andre Karpathy 等人,開始能夠描述場(chǎng)景。能否談?wù)剰奈矬w識(shí)別到場(chǎng)景理解的轉(zhuǎn)變?

      李飛飛:是的,ImageNet 解決的是當(dāng)你看到一張圖片時(shí),如何識(shí)別出其中的物體,比如「這是只貓,這是張椅子」,這屬于視覺識(shí)別中的基本問題。但自從我作為研究生進(jìn)入人工智能領(lǐng)域時(shí),我就有一個(gè)夢(mèng)想。我覺得這個(gè)夢(mèng)想可能需要一百年才能實(shí)現(xiàn),那就是講述世界的故事。想象一下,當(dāng)人類睜開眼睛,你剛剛睜開眼睛,看到的不是「人、椅子、桌子」,你實(shí)際上看到的是一個(gè)會(huì)議室,看到屏幕、舞臺(tái)、觀眾、攝像機(jī)等。你可以描述整個(gè)場(chǎng)景,這是一種人類的能力,是視覺智能的基礎(chǔ),它對(duì)我們?nèi)粘I钪陵P(guān)重要。因此,我一直認(rèn)為這個(gè)問題會(huì)占據(jù)我一生的時(shí)間。當(dāng)我作為研究生畢業(yè)時(shí),我告訴自己,如果我能創(chuàng)造出一個(gè)能夠講述場(chǎng)景故事的算法,那我就算成功了。這是我當(dāng)時(shí)對(duì)自己職業(yè)生涯的設(shè)想。

      然而,隨著深度學(xué)習(xí)的崛起,那個(gè)時(shí)刻真的來(lái)臨了。后來(lái),Andre 和 Justin Johnson 加入了我的實(shí)驗(yàn)室,我們開始看到自然語(yǔ)言與視覺的碰撞信號(hào)。

      Andre 和我提出了一個(gè)圖像描述或講故事的問題。簡(jiǎn)而言之,到了 2015 年左右,Andre 和我發(fā)布了一系列論文,其中包括一些與我們同期發(fā)表的論文,它們實(shí)際上是讓計(jì)算機(jī)能夠生成圖像說(shuō)明的最早工作之一。我?guī)缀醺杏X到,我該怎么繼續(xù)我的人生了?這本來(lái)就是我的一生的夢(mèng)想啊。那一刻對(duì)我們倆來(lái)說(shuō),真的是無(wú)比震撼。

      去年,我做了一個(gè) TED 演講,我還用了 Andre 幾年前發(fā)的一個(gè)推文,那時(shí)他剛完成圖像描述的工作。那幾乎就是他的博士論文。我開玩笑對(duì)他說(shuō):「嘿,Andre,為什么我們不做個(gè)反向的呢?用一句話生成一張圖像」。當(dāng)然,他知道我是在開玩笑,他回答說(shuō)「哈哈,我先走了」。當(dāng)時(shí)的世界顯然還沒有準(zhǔn)備好。但現(xiàn)在,快進(jìn)到今天,我們都知道生成式人工智能現(xiàn)在可以通過一句話生成美麗的圖片。所以這個(gè)故事的寓意是,人工智能經(jīng)歷了巨大的發(fā)展。

      從個(gè)人角度來(lái)說(shuō),我覺得我是世界上最幸運(yùn)的人,因?yàn)槲业恼麄€(gè)職業(yè)生涯從人工智能冬天的結(jié)束、人工智能崛起的開始就起步了,我的很多工作和職業(yè)生涯都與這一變革息息相關(guān),或者在某種程度上推動(dòng)了這場(chǎng)變革。所以,我感到非常幸運(yùn)、感恩,并且以某種方式感到驕傲。

      主持人:我認(rèn)為最瘋狂的事情是,即使你已經(jīng)實(shí)現(xiàn)了描述場(chǎng)景,甚至通過擴(kuò)散模型生成場(chǎng)景的夢(mèng)想,你依然在做更大的夢(mèng)想。因?yàn)橛?jì)算機(jī)視覺的整個(gè)發(fā)展軌跡已經(jīng)從物體識(shí)別到場(chǎng)景理解,再到現(xiàn)在的「世界」概念。而你決定從學(xué)術(shù)界,從教授職位轉(zhuǎn)到創(chuàng)業(yè),成為了 World Labs 的創(chuàng)始人兼 CEO 。能談?wù)劇甘澜纭咕烤故鞘裁磫??它是不是比?chǎng)景和物體更具挑戰(zhàn)性?

      李飛飛:是的,這確實(shí)很瘋狂。當(dāng)然,大家都知道過去的事情,對(duì)于我來(lái)說(shuō),過去五六年的進(jìn)展真的是很難總結(jié)。我們正處在一個(gè)技術(shù)進(jìn)步的文明時(shí)刻。作為一名計(jì)算機(jī)視覺科學(xué)家,我們見證了從圖像到圖像描述,再到利用擴(kuò)散技術(shù)生成圖像的令人難以置信的增長(zhǎng)。盡管這些進(jìn)展讓人興奮,但同時(shí),我們也看到另一個(gè)極為激動(dòng)人心的領(lǐng)域,那就是語(yǔ)言領(lǐng)域,尤其是 LLMs(大語(yǔ)言模型)。比如 2022 年 11 月,ChatGPT 的出現(xiàn),真正開啟了生成模型的大門,基本上可以通過圖靈測(cè)試等等。所以,即使像我這樣年紀(jì)較大的人,也感到非常激動(dòng),開始大膽地思考下一步的目標(biāo)是什么。

      作為一名計(jì)算機(jī)視覺科學(xué)家,我有一個(gè)習(xí)慣,我的靈感往往來(lái)自于進(jìn)化和大腦科學(xué)。我的職業(yè)生涯中,很多時(shí)候我都在尋找下一個(gè)「北極星」問題來(lái)解決。我會(huì)問自己,進(jìn)化或者大腦的發(fā)展做了什么?有一點(diǎn)非常值得注意和欣賞的是:人類語(yǔ)言的進(jìn)化發(fā)展大約花費(fèi)了 300 到 500 百萬(wàn)年,即便我們非常寬容地算,也僅僅是少于一百萬(wàn)年的時(shí)間。人類是唯一擁有復(fù)雜語(yǔ)言的物種。我們可以討論動(dòng)物語(yǔ)言,但從語(yǔ)言作為交流工具、推理、抽象的功能而言,只有人類擁有這種能力。這一進(jìn)化歷程花費(fèi)了不到 50 萬(wàn)年。

      但如果你想一想視覺,思考一下理解三維世界的能力,弄清楚如何在這個(gè)三維世界中行動(dòng),如何在三維世界中導(dǎo)航、互動(dòng)、理解、與之交流,這一切的進(jìn)化歷程卻花費(fèi)了 5.4 億年。

      大約 5.4 億年前,第一個(gè)三葉蟲開始在水下發(fā)展視覺感知。從那時(shí)起,視覺成為了推動(dòng)演化軍備競(jìng)賽的關(guān)鍵。視覺出現(xiàn)之前,動(dòng)物的生命形態(tài)相對(duì)簡(jiǎn)單,近 5 億年間幾乎沒有復(fù)雜的變化。但在接下來(lái)的 5.4 億年中,正是因?yàn)閾碛辛死斫馐澜绲哪芰?,演化的軍備?jìng)賽開始了,動(dòng)物的智能也不斷提升。

      ▲ iWorld Labs 創(chuàng)始人團(tuán)隊(duì),李飛飛(右一),Justin Johnson,Christoph Lassner,Ben Mildenhall

      所以對(duì)我來(lái)說(shuō),解決空間智能的問題,理解三維世界,生成三維世界,推理三維世界,在三維世界中做事情,這對(duì)于人工智能來(lái)說(shuō)是一個(gè)根本問題。對(duì)我而言,AGI 如果沒有空間智能,是不完整的。我想解決這個(gè)問題。這涉及到創(chuàng)造「世界模型」,超越平面像素,超越語(yǔ)言,真正捕捉三維結(jié)構(gòu)和空間智能的世界模型。幸運(yùn)的是,無(wú)論我多大年紀(jì),我總是能和最出色的年輕人一起工作。所以,現(xiàn)在我和三位了不起的年輕但世界級(jí)的技術(shù)專家,Justin Johnson、Ben Mildenhall 和 Christoph Lassner,一起創(chuàng)辦了這家公司。我們將嘗試解決,我認(rèn)為目前人工智能領(lǐng)域中最難的問題。

      獲取空間智能的數(shù)據(jù)要比語(yǔ)言數(shù)據(jù)難得多

      主持人:確實(shí),這些都是非常出色的人才。Chris 是 Pulsar 的創(chuàng)始人,Pulsar 是一種可微分渲染技術(shù),現(xiàn)在是用于 PyTorch3D 的基于球體的渲染后端。而 Justin Johnson,作為你曾經(jīng)的學(xué)生,他真的有著極強(qiáng)的系統(tǒng)工程思維,曾實(shí)現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)風(fēng)格遷移。然后是 Ben,他是 NeRF(Neural Radiance Fields 神經(jīng)輻射場(chǎng))論文的作者。所以這真的是一支超級(jí)精英團(tuán)隊(duì)。你需要這樣一支精英團(tuán)隊(duì),因?yàn)槲覀冎傲牡竭^,視覺實(shí)際上比語(yǔ)言更難。也許這么說(shuō)有點(diǎn)爭(zhēng)議,因?yàn)長(zhǎng)LMs 本質(zhì)上是一維的,對(duì)吧,但你所談?wù)摰氖抢斫獯罅康?3D 結(jié)構(gòu)。那么,為什么這如此困難?它為什么是比現(xiàn)在的大語(yǔ)言強(qiáng)大呢?

      李飛飛:是的,你能理解我們問題的困難。語(yǔ)言本質(zhì)上是一維的,語(yǔ)法是按順序出現(xiàn)的,這就是為什么序列到序列(sequence-to-sequence)建模如此經(jīng)典的原因。還有一點(diǎn),語(yǔ)言是純粹的生成性信號(hào),很多人沒有意識(shí)到這一點(diǎn)。自然界中是沒有語(yǔ)言的,你不能觸摸語(yǔ)言,也看不見語(yǔ)言,語(yǔ)言完全是從每個(gè)人的腦袋里生成出來(lái)的。語(yǔ)言是一個(gè)純粹的生成信號(hào)。當(dāng)然,當(dāng)你把它寫在紙上時(shí),它就在那里,但語(yǔ)言的生成、構(gòu)建和實(shí)用性本質(zhì)上是非常生成性的,而世界遠(yuǎn)比這復(fù)雜得多。

      首先,現(xiàn)實(shí)世界是三維的,如果再加上時(shí)間,那就是四維的,但我們暫且只考慮空間?,F(xiàn)實(shí)世界本質(zhì)上是三維的,這本身就是一個(gè)更具組合性挑戰(zhàn)的問題。

      第二,視覺世界的感知是一個(gè)投影過程,無(wú)論是你的眼睛、視網(wǎng)膜還是相機(jī),它總是將三維信息壓縮到二維,你必須理解這一點(diǎn)是多么困難。從數(shù)學(xué)上來(lái)說(shuō),這是一個(gè)不可逆過程,因此人類和動(dòng)物才會(huì)擁有多重感官,才能解決這個(gè)問題。

      第三,世界并不是純粹的生成性。是的,我們可以生成虛擬的三維世界,但它仍然必須遵循物理規(guī)律,而且現(xiàn)實(shí)世界也存在于我們之外。你現(xiàn)在實(shí)際上是在生成和重建之間流暢地切換。用戶行為、實(shí)用性和應(yīng)用場(chǎng)景完全不同。如果你全程關(guān)注生成性,我們可以討論游戲、元宇宙之類的內(nèi)容;如果你全程關(guān)注現(xiàn)實(shí)世界,那我們就談?wù)摍C(jī)器人技術(shù)等。但這一切都在世界建模和空間智能的連續(xù)性中。

      當(dāng)然,當(dāng)前的巨大難題是,互聯(lián)網(wǎng)上有大量的語(yǔ)言數(shù)據(jù),而空間智能的數(shù)據(jù),雖然它全部存在于我們的大腦中,但不像語(yǔ)言數(shù)據(jù)那樣容易獲取。所以這些都是為什么這個(gè)問題如此困難的原因。但坦率地說(shuō),這正是讓我興奮的地方,因?yàn)槿绻@個(gè)問題很簡(jiǎn)單,那就意味著別人已經(jīng)解決了。而我的整個(gè)職業(yè)生涯都在追求那些極其困難、幾乎可以說(shuō)是癡心妄想的問題。我認(rèn)為這就是那個(gè)癡心妄想的問題。感謝你們對(duì)這個(gè)問題的支持。

      我們的 World Labs 擁有世界上最聰明的人

      主持人:是的,甚至從最基本的原理來(lái)看,人腦的視覺皮層處理視覺數(shù)據(jù)的神經(jīng)元數(shù)量遠(yuǎn)遠(yuǎn)超過處理語(yǔ)言的神經(jīng)元。這種差異是如何在模型中體現(xiàn)的呢?包括,你們正在研究的這些東西與 LLM 相比,架構(gòu)上的差異也會(huì)非常大,對(duì)吧?

      李飛飛:這是一個(gè)非常好的問題。其實(shí),關(guān)于這個(gè)問題,目前有兩種不同的思路。

      一種是 LLMs 的方式,很多我們?cè)贚LMs 中看到的寫作、寫作擴(kuò)展規(guī)律,幾乎可以通過自監(jiān)督學(xué)習(xí)來(lái)直接推進(jìn),直到實(shí)現(xiàn)一個(gè)「幸福的結(jié)局」。你幾乎可以通過蠻力地推進(jìn)自監(jiān)督,直到達(dá)到目標(biāo)。

      另一種則是構(gòu)建世界模型,這可能更加細(xì)致和有層次,因?yàn)槭澜缡怯薪Y(jié)構(gòu)的,我們可能需要一些信號(hào)來(lái)引導(dǎo)它。你可以把它看作是先驗(yàn)知識(shí),也可以稱之為數(shù)據(jù)中的監(jiān)督信號(hào),反正就是某種方式來(lái)引導(dǎo)學(xué)習(xí)。

      我認(rèn)為這些是我們必須解決的一些開放性問題,但你說(shuō)得對(duì)。如果你考慮到人類的感知,首先,我們甚至沒有完全解決人類視覺的所有問題,對(duì)吧?3D 如何在人的視覺中發(fā)揮作用?這仍然不是一個(gè)解決了的問題。我們知道從機(jī)械角度,雙眼需要通過三角測(cè)量來(lái)獲取信息,但即便如此,我們?nèi)狈σ粋€(gè)完善的數(shù)學(xué)模型,而實(shí)際上,人類在 3D 感知方面并不是特別優(yōu)秀。我們并不是非常擅長(zhǎng)理解和操作三維世界,所以有很多問題等待著解答。

      ▲ World Labs 部分成員截圖

      所以,我們現(xiàn)在確實(shí)處于「World Labs」的階段。我唯一能依賴的就是,我相信我們擁有世界上最聰明的人才,能在「像素世界」里解決這個(gè)問題。

      硬件和軟件的融合終將到來(lái)

      主持人:可以說(shuō),World Labs 正在構(gòu)建的這些基礎(chǔ)模型,最終的輸出是 3D 世界嗎?你們正在設(shè)想哪些應(yīng)用場(chǎng)景呢?我看到你提到了從感知到生成的各種可能性。生成模型和判別模型之間總是存在一種張力,那么這些 3D 世界的作用是什么呢?

      李飛飛:是的,關(guān)于 World Labs 的具體細(xì)節(jié)我可能無(wú)法透露太多,但在空間智能方面,確實(shí)是讓我非常興奮的地方。就像語(yǔ)言一樣,應(yīng)用場(chǎng)景非常廣泛。從創(chuàng)作開始,設(shè)計(jì)師、建筑師、工業(yè)設(shè)計(jì)師,甚至是藝術(shù)家、3D 藝術(shù)家、游戲開發(fā)者,都可以用到它。接著,機(jī)器人學(xué)和機(jī)器人學(xué)習(xí)也是一個(gè)非常重要的應(yīng)用領(lǐng)域,空間智能模型或世界模型的用途非常廣泛。此外,很多相關(guān)行業(yè),比如營(yíng)銷、娛樂,甚至元宇宙,都會(huì)受到影響。對(duì)于元宇宙,我真的非常興奮。雖然目前還沒完全實(shí)現(xiàn),我知道它現(xiàn)在還不是很成熟,但正是因?yàn)槿绱?,我才更為興奮。我認(rèn)為硬件和軟件的融合終將到來(lái),未來(lái)的潛力非常巨大。這也是一個(gè)非常值得期待的應(yīng)用方向。

      主持人:我個(gè)人非常激動(dòng)你們?cè)诮鉀Q元宇宙的問題,我之前在我的公司也嘗試過這個(gè)方向,所以看到你們現(xiàn)在在做這件事真的非常興奮。

      李飛飛:是的,我覺得現(xiàn)在有更多的信號(hào)表明元宇宙正在逐步實(shí)現(xiàn)。我認(rèn)為硬件確實(shí)是其中一個(gè)障礙,但更重要的是,你需要內(nèi)容創(chuàng)作,而元宇宙的內(nèi)容創(chuàng)作需要世界模型。

      從零開始,這是我的舒適區(qū)

      主持人:讓我們換個(gè)話題。對(duì)于一些觀眾來(lái)說(shuō),你從學(xué)術(shù)界轉(zhuǎn)型到現(xiàn)在做創(chuàng)始人兼 CEO 可能顯得有些突然。但實(shí)際上,你的整個(gè)人生經(jīng)歷都非常非凡,這也不是你第一次從 0 到 1。你曾跟我講過,你是如何移民到美國(guó)的,剛開始完全不會(huì)說(shuō)英語(yǔ),還和團(tuán)隊(duì)一起經(jīng)營(yíng)過洗衣店,做了好幾年。能不能聊聊這些經(jīng)歷是如何塑造了今天的你的?

      李飛飛:對(duì)吧?我知道你們肯定在這里想聽我分享如何開洗衣店的故事。哈哈。

      當(dāng)時(shí)我19歲,完全出于無(wú)奈。我沒有辦法支持我的家人,我的父母需要我上大學(xué),而我想成為普林斯頓大學(xué)的物理學(xué)專業(yè)學(xué)生。所以我開了一家干洗店。在硅谷的術(shù)語(yǔ)中,我就是一個(gè)籌款人,創(chuàng)始人兼 CEO,同時(shí)也是收銀員和做所有雜事的人,最后我成功「退出」了,經(jīng)營(yíng)了七年。

      回到 Diana 的觀點(diǎn),特別是對(duì)于你們所有人,我看著你們,真的很激動(dòng),因?yàn)槟銈儽任夷贻p一半,甚至三分之一,你們那么有才華,真的去做吧,不要害怕。

      我整個(gè)職業(yè)生涯都這樣,當(dāng)然,包括做洗衣店,甚至作為教授時(shí),我也做過幾次選擇,我曾經(jīng)選擇去一些沒有計(jì)算機(jī)視覺教授的部門,成為第一個(gè),這和很多建議相悖。作為年輕教授,大家都會(huì)建議你去有社區(qū)和資深導(dǎo)師的地方,當(dāng)然,我也希望有資深導(dǎo)師,但如果沒有,我還是要自己走自己的路。所以我一點(diǎn)也不害怕這些。后來(lái)我去 Google 學(xué)到了很多關(guān)于商業(yè)的知識(shí),關(guān)于 Google Cloud 和 B2B 的東西,然后我在斯坦福創(chuàng)辦了一個(gè)創(chuàng)業(yè)公司,因?yàn)榈搅?2018 年,AI 已經(jīng)不僅僅是行業(yè)問題,它變成了人類的問題。

      人類總是會(huì)推動(dòng)科技進(jìn)步,但我們不能失去人性。我非常關(guān)注如何在 AI 的進(jìn)步中創(chuàng)建一束光,設(shè)想 AI 如何能夠以人為本,如何讓 AI 幫助人類。所以,我回到斯坦福,創(chuàng)辦了一個(gè)人類中心的 AI 研究所,并且把它當(dāng)作創(chuàng)業(yè)公司運(yùn)營(yíng)了五年。可能有些人不太高興我在大學(xué)里把它當(dāng)作創(chuàng)業(yè)公司運(yùn)營(yíng)了這么久,但我對(duì)此非常自豪。所以從某種意義上講,我覺得自己就是喜歡做創(chuàng)業(yè)者。我喜歡那種從零開始的感覺,就像站在零點(diǎn),忘記過去做過的事,忘記別人怎么看你,埋頭去做。這是我的舒適區(qū),我真的非常熱愛這種感覺。

      我尋找的是「智識(shí)上的無(wú)畏」

      主持人:你真的很酷,除了做了所有這些了不起的事之外,你還指導(dǎo)了很多傳奇般的研究者,比如 Andrej Karpathy、Jim Fan(現(xiàn)在在 Nvidia)、Jia Deng(ImageNet 項(xiàng)目上的合作)。他們后來(lái)都成為了行業(yè)中的佼佼者。當(dāng)他們還是學(xué)生的時(shí)候,是什么讓你看出來(lái)他們將來(lái)會(huì)成就非凡呢?你有什么建議可以分享,告訴我們?nèi)绾伪孀R(shí)出這些會(huì)改變 AI 領(lǐng)域的人?

      李飛飛:首先,我覺得自己很幸運(yùn),不要覺得我對(duì)學(xué)生的貢獻(xiàn)比他們多。他們真的讓我成為一個(gè)更好的人、更好的教師和研究員。和這么多像你說(shuō)的傳奇般的學(xué)生共事,真的是我一生中的榮幸。每個(gè)學(xué)生都很不同,有些純粹是科學(xué)家,專注于解決科學(xué)問題;有些則是工業(yè)領(lǐng)域的領(lǐng)軍人物;還有一些是 AI 知識(shí)的偉大傳播者。但我覺得有一件事是他們共同的特點(diǎn),我也鼓勵(lì)在座的每一位同學(xué)思考一下這個(gè)問題。

      對(duì)于那些創(chuàng)業(yè)者,尤其是在招聘時(shí),我的標(biāo)準(zhǔn)也是看重這個(gè)。我尋找的是「智識(shí)上的無(wú)畏」。

      我認(rèn)為這不僅僅和你來(lái)自哪里、我們要解決什么問題無(wú)關(guān),最重要的是那份勇氣,敢于面對(duì)困難,全身心投入并盡力去解決。這種無(wú)畏精神真的是成功者的核心特質(zhì)。我從這些學(xué)生身上學(xué)到了這一點(diǎn),作為我們實(shí)驗(yàn)室的 CEO,在我的招聘過程中,我也非??粗剡@一點(diǎn)。

      主持人:你們也在為「World Labs」招聘很多人,所以你們也是在尋找相同的職位吧?

      李飛飛:是的,我們確實(shí)在大規(guī)模招聘。我們正在招聘工程類人才、產(chǎn)品類人才、3D 人才,以及生成模型方面的人才。如果你覺得自己無(wú)所畏懼,并且對(duì)解決智能問題充滿熱情,歡迎聯(lián)系我或者來(lái)我們的網(wǎng)站看看。

      觀眾問答

      提問者 1:你好,飛飛,謝謝你的演講。我是你的超級(jí)粉絲!我的問題是,二十多年前你曾從事過視覺識(shí)別方面的工作。我現(xiàn)在想開始攻讀博士學(xué)位,我應(yīng)該研究什么方向,才能像你一樣成為傳奇人物呢?

      李飛飛:我想給你一個(gè)深思熟慮的回答,因?yàn)槲铱偸强梢哉f(shuō)做任何讓你興奮的事情。

      首先,我認(rèn)為 AI 研究已經(jīng)發(fā)生了變化,因?yàn)槿绻阏诠プx博士學(xué)位,你就處于學(xué)術(shù)界。如今,學(xué)術(shù)界并不再擁有大多數(shù) AI 資源,這與我當(dāng)時(shí)的情況非常不同。現(xiàn)在的計(jì)算能力和數(shù)據(jù)資源在學(xué)術(shù)界非常有限,而產(chǎn)業(yè)界可以以更快的速度進(jìn)行研究。因此,作為一名博士生,我建議你去尋找那些不與產(chǎn)業(yè)界能夠利用更強(qiáng)大計(jì)算能力、更豐富數(shù)據(jù)和團(tuán)隊(duì)合作優(yōu)勢(shì)解決的問題發(fā)生沖突的方向。仍然有一些非?;A(chǔ)的問題,學(xué)術(shù)界可以繼續(xù)探討,哪怕你有再多的芯片,也能取得很大進(jìn)展。

      首先,跨學(xué)科的人工智能對(duì)我來(lái)說(shuō)是學(xué)術(shù)界一個(gè)非常令人興奮的領(lǐng)域,特別是在科學(xué)發(fā)現(xiàn)方面。有太多學(xué)科可以與 AI 交叉。我認(rèn)為這是一個(gè)可以深入發(fā)展的領(lǐng)域。另一方面,在理論方面,我覺得非常有趣的是,AI 的能力已經(jīng)完全超越了理論,我們不知道如何做到這一點(diǎn),缺乏可解釋性,也不知道如何揭示因果關(guān)系。我們對(duì)模型的理解還有很多未知之處,未來(lái)可以進(jìn)一步推動(dòng)這一領(lǐng)域的發(fā)展,這里還有非常多的方向。在計(jì)算機(jī)視覺領(lǐng)域,依然存在一些尚未解決的問題。另外,小數(shù)據(jù)也是一個(gè)非常有趣的領(lǐng)域,充滿了可能性。

      提問者 2:謝謝李飛飛教授,再次恭喜您獲得耶魯大學(xué)的榮譽(yù)博士學(xué)位。我很榮幸一個(gè)月前能親自見證這一時(shí)刻。我的問題是,從您的角度來(lái)看,AGI 更有可能作為一個(gè)統(tǒng)一的、單一的模型出現(xiàn),還是作為一個(gè)「模型-智能體」系統(tǒng)出現(xiàn)呢?

      李飛飛:你問的這個(gè)問題已經(jīng)提出了兩種定義。一種定義更偏向理論層面,把 AGI 定義為通過某種類似 IQ 測(cè)試的標(biāo)準(zhǔn)來(lái)衡量的智能,另一部分問題則更偏向?qū)嵱弥髁x,聚焦于智能體能執(zhí)行哪些任務(wù)。坦白說(shuō),我對(duì)于 AGI 的定義感到有些困惑。

      這是因?yàn)椋?956 年在達(dá)特茅斯會(huì)議上,人工智能的奠基人們,包括約翰·麥卡錫(John McCarthy)和馬文·明斯基(Marvin Minsky),他們當(dāng)時(shí)想要解決的是能「思考」的機(jī)器問題,這個(gè)問題實(shí)際上是圖靈(Alan Turing)在他們之前提出來(lái)的。因此,這個(gè)命題并不是狹義的人工智能問題,而是一個(gè)關(guān)于智能的廣義命題。所以,我并不清楚如何將這個(gè)人工智能的奠基問題與「AGI」這個(gè)新詞區(qū)分開來(lái)。

      對(duì)我而言,AGI 和 AI 是同一個(gè)問題,但我理解現(xiàn)在的行業(yè)里更傾向于把 AGI 看作超越 AI 的概念。我對(duì)這種理解有些掙扎,因?yàn)槲也磺宄降资裁词?AGI,它和 AI 到底有什么不同?如果我們說(shuō)今天的「類 AGI」系統(tǒng)在某些任務(wù)上比上世紀(jì) 70、80、90 年代的狹義 AI 系統(tǒng)表現(xiàn)得更好,我認(rèn)為這是對(duì)的,這只是該領(lǐng)域發(fā)展的一個(gè)自然過程。但從根本上講,我認(rèn)為人工智能的本質(zhì)是創(chuàng)造能夠像人類一樣,甚至比人類更聰明地思考和做事的機(jī)器。所以,我并不清楚如何定義 AGI,既然無(wú)法定義它,我也就無(wú)法判斷它是否是一個(gè)單一的體系。

      如果從大腦的角度來(lái)看,它是一個(gè)整體,可以稱之為單一系統(tǒng),但它的功能是多樣的,甚至大腦中還有像布羅卡區(qū)(Broca's area)負(fù)責(zé)語(yǔ)言,視覺皮層負(fù)責(zé)視覺,運(yùn)動(dòng)皮層負(fù)責(zé)運(yùn)動(dòng)等等。因此,我也不太知道該如何回答這個(gè)問題。

      提問者 3:你好,我叫Yasna。首先,我想說(shuō)謝謝你??吹揭晃慌栽谶@個(gè)領(lǐng)域中扮演領(lǐng)導(dǎo)角色,真的很令人鼓舞。作為一名研究員、教育者和企業(yè)家,我想請(qǐng)教一下,在人工智能飛速發(fā)展的今天,您認(rèn)為什么樣的人應(yīng)該去攻讀研究生學(xué)位?

      李飛飛:這是一個(gè)很好的問題,甚至連家長(zhǎng)們也曾問過我。研究生階段是你擁有強(qiáng)烈好奇心的四到五年。

      你是由好奇心驅(qū)動(dòng)的,而這種好奇心非常強(qiáng)烈,以至于沒有比這里更合適的地方來(lái)追求它。這與創(chuàng)業(yè)公司不同,因?yàn)樵趧?chuàng)業(yè)公司中,不能僅僅靠好奇心來(lái)推動(dòng)。你必須小心,創(chuàng)業(yè)公司不僅僅是由好奇心驅(qū)動(dòng)的,投資者會(huì)對(duì)你感到不滿。它更側(cè)重于實(shí)現(xiàn)商業(yè)目標(biāo),雖然其中也有好奇心的成分,但它并不完全是好奇心驅(qū)動(dòng)的。而對(duì)于研究生來(lái)說(shuō),解決問題的好奇心或提問的能力是如此重要,我認(rèn)為那些帶著這種強(qiáng)烈好奇心進(jìn)入研究生階段的人,會(huì)真的享受這四五年,即使外部世界飛速發(fā)展,你仍然會(huì)因?yàn)樽冯S自己的好奇心而感到滿足。

      提問者 4:首先,我想感謝您抽出時(shí)間,謝謝您來(lái)和我們分享您的觀點(diǎn)。您提到,開源在圖像智能的發(fā)展中起了重要作用,現(xiàn)在隨著大語(yǔ)言模型的發(fā)布和發(fā)展,我們看到不同的組織在開源方面采取了不同的策略。一些組織完全閉源,一些組織則完全開源其整個(gè)研究框架,還有一些組織采取折中的方式,開源模型權(quán)重或采用有限制的許可證等等。所以我想請(qǐng)問,您如何看待這些不同的開源方式?您認(rèn)為正確的做法是什么?作為一家人工智能公司,開源應(yīng)該如何運(yùn)作?

      李飛飛:我認(rèn)為當(dāng)生態(tài)系統(tǒng)中有不同的開源方式時(shí),整個(gè)環(huán)境是健康的。我并不固執(zhí)于必須開源或必須閉源,這取決于公司的商業(yè)戰(zhàn)略。例如,像Meta(前Facebook)為什么選擇開源是非常明確的,他們目前的商業(yè)模式并不是通過銷售模型來(lái)盈利,而是通過利用這些模型來(lái)發(fā)展生態(tài)系統(tǒng),吸引更多人使用他們的平臺(tái)。所以開源對(duì)他們來(lái)說(shuō)是非常有意義的。而對(duì)于其他一些真正通過這些技術(shù)盈利的公司,你可以考慮開源和閉源相結(jié)合的方式,分層次地運(yùn)作。因此,我對(duì)這些方式持開放態(tài)度。

      ▲ Meta 的 llama 開源模型在 Hugging Face 開源大語(yǔ)言模型排行榜上

      從更高層次來(lái)看,我認(rèn)為開源應(yīng)該受到保護(hù),無(wú)論是在公共部門(如學(xué)術(shù)界)還是私人部門,如果有開源的努力,都是非常重要的。它對(duì)創(chuàng)業(yè)生態(tài)系統(tǒng)至關(guān)重要,也對(duì)公共部門非常重要。我認(rèn)為這些努力應(yīng)該得到保護(hù),而不應(yīng)該被忽視。

      提問者 5:你好,我叫 Carl,來(lái)自愛沙尼亞,我有一個(gè)關(guān)于數(shù)據(jù)的問題。你提到了機(jī)器學(xué)習(xí)從數(shù)據(jù)驅(qū)動(dòng)方法轉(zhuǎn)向的變化,特別是在 ImageNet 上取得的進(jìn)展,而現(xiàn)在你們正在研究世界模型,并且你提到我們?nèi)狈臻g數(shù)據(jù),互聯(lián)網(wǎng)中并不存在這些數(shù)據(jù),只有在我們的大腦中才有。你們是如何解決這個(gè)問題的?你們的研究方向是什么?你們是在從現(xiàn)實(shí)世界收集數(shù)據(jù),還是生成合成數(shù)據(jù)?你們相信合成數(shù)據(jù)嗎?還是更相信傳統(tǒng)的先驗(yàn)知識(shí)?謝謝。

      李飛飛:你應(yīng)該加入我的「World Labs」,我會(huì)告訴你。作為一家公司,我不能分享太多,但我認(rèn)為重要的是要承認(rèn)我們采用的是一種混合方法。擁有大量數(shù)據(jù)確實(shí)很重要,但同樣重要的是擁有高質(zhì)量的數(shù)據(jù)。歸根結(jié)底,如果你不注意數(shù)據(jù)的質(zhì)量,最終結(jié)果還是垃圾進(jìn)垃圾出。

      提問者 6:你好,李飛飛博士,我叫 Annie,非常感謝您與我們交流。在您的書《The World》中,我看到您談到了作為一名移民女孩和女性在 STEM 領(lǐng)域面臨的挑戰(zhàn)。我很想知道,您是否有過在職場(chǎng)中感受到自己是少數(shù)群體的時(shí)刻?如果有,您是如何克服這一困境或說(shuō)服他人的?

      李飛飛:謝謝你的問題。我在回答時(shí)會(huì)小心和深思,因?yàn)槲覀兠總€(gè)人的背景都不同,每個(gè)人的感受也非常獨(dú)特。你知道的,這幾乎不重要。我們每個(gè)人都有過感覺自己是少數(shù)群體或是房間里唯一一個(gè)人的時(shí)刻。所以,當(dāng)然,我也曾有過這種感覺。

      有時(shí)候這與我是誰(shuí)有關(guān),有時(shí)候與我的想法有關(guān),有時(shí)候也許只是因?yàn)槲掖┑囊路伾?,反正總?huì)有各種原因。但在這方面,我確實(shí)想鼓勵(lì)大家。也許是因?yàn)槲覐男?lái)到這個(gè)國(guó)家,我積累了一些經(jīng)驗(yàn)。我已經(jīng)接受了這一點(diǎn):我就是一名移民女性。我?guī)缀醢l(fā)展出了一個(gè)能力,就是不會(huì)過度在意這些。我在這里,就像你們每個(gè)人一樣。我在這里學(xué)習(xí)、做事、創(chuàng)造東西。

      我真的想對(duì)你們每一個(gè)人說(shuō),你們正要開始做一些事情,或者已經(jīng)在做某件事情的過程中,你們會(huì)有脆弱或困惑的時(shí)刻,我每天都會(huì)有這種感覺,尤其是在創(chuàng)業(yè)生活中。有時(shí)候我會(huì)想,天啊,我不知道自己在做什么。別擔(dān)心,專注于去做。像梯度下降一樣,一步步朝著最優(yōu)解前進(jìn)。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒有更多評(píng)論了