人工圖像(xiang)生(sheng)成器(qi)在夢想和現實的(de)(de)交(jiao)匯處(chu)創(chuang)造出奇幻的(de)(de)場(chang)景(jing),在網絡的(de)(de)每個角落冒泡。它們(men)的(de)(de)娛(yu)樂價(jia)值體現在不斷擴大(da)的(de)(de)異想天開和隨(sui)機圖像(xiang)的(de)(de)寶庫(ku)中,這些圖像(xiang)是人類(lei)設(she)計(ji)師大(da)腦(nao)的(de)(de)間接門戶。一個簡單的(de)(de)文(wen)字提示,就會(hui)產生(sheng)一個幾乎瞬間的(de)(de)圖像(xiang),滿足我們(men)原始的(de)(de)大(da)腦(nao),這種(zhong)大(da)腦(nao)天生(sheng)就有瞬間的(de)(de)滿足感。
雖然看起(qi)來很新(xin),但人工智(zhi)能產生(sheng)的藝術(shu)領(ling)域(yu)可以追溯到20世紀60年代。前期嘗試用(yong)基(ji)于符號規則(ze)的方法制作技術(shu)圖像。盡管(guan)解(jie)決和(he)(he)解(jie)析(xi)單詞的模型的開發(fa)變得(de)越(yue)來越(yue)復雜(za),但生(sheng)成藝術(shu)的爆炸式增(zeng)長引發(fa)了(le)圍繞版權、虛假信息和(he)(he)偏見(jian)的辯論,所有這(zhe)些都陷入了(le)炒作和(he)(he)爭議。
電(dian)氣和計算(suan)機(ji)科學系博士生(sheng)、麻省理工學院計算(suan)機(ji)科學和人(ren)工智(zhi)能(neng)實驗室(CSAIL)下屬(shu)的Yilun Du最近(jin)開(kai)發了一種新(xin)方法,使DALL-E 2等模型(xing)更(geng)(geng)具(ju)創意,并具(ju)有更(geng)(geng)好的場景理解(jie)能(neng)力。在(zai)這里,杜描述了這些(xie)模型(xing)是如(ru)何工作的,這種技術基礎設施是否可以應用于其他領域,以及我們如(ru)何在(zai)人(ren)工智(zhi)能(neng)和人(ren)類創造力之間劃清界限。
問:人(ren)(ren)工智(zhi)能生成的(de)圖像(xiang)(xiang)使用(yong)一(yi)種稱(cheng)為(wei)“穩定擴散(san)”的(de)模型,在(zai)短(duan)短(duan)幾分鐘內(nei)將(jiang)文(wen)字變(bian)成令人(ren)(ren)震(zhen)驚的(de)圖像(xiang)(xiang)。但(dan)每一(yi)個(ge)被(bei)使用(yong)的(de)圖像(xiang)(xiang),背后(hou)通常都有一(yi)個(ge)人(ren)(ren)。那么人(ren)(ren)工智(zhi)能和(he)人(ren)(ren)類(lei)創造力的(de)界限是什(shen)么?這些模型是如(ru)何工作(zuo)的(de)?
答:想象(xiang)一下你在谷歌搜索上(shang)能看到(dao)的所有(you)圖(tu)片及(ji)其相(xiang)關模式。這就是這些模特喂(wei)的飲食。他們接(jie)受(shou)了所有(you)這些圖(tu)像(xiang)及(ji)其標(biao)題的訓(xun)練,以生成類似于它在互聯網上(shang)看到(dao)的數十(shi)億張(zhang)圖(tu)像(xiang)的圖(tu)像(xiang)。
假設一個模(mo)(mo)特看(kan)過很(hen)多狗的(de)(de)(de)(de)(de)照片(pian)。它(ta)經過訓練(lian),當它(ta)收(shou)到(dao)類(lei)似的(de)(de)(de)(de)(de)文本輸入(ru)提示(如“狗”)時,它(ta)能夠生成一張(zhang)看(kan)起來(lai)與它(ta)已經看(kan)到(dao)的(de)(de)(de)(de)(de)許多狗的(de)(de)(de)(de)(de)照片(pian)非常相似的(de)(de)(de)(de)(de)照片(pian)。現在,在方法論上,這一切是如何運作(zuo)的(de)(de)(de)(de)(de),可以追(zhui)溯到(dao)一個非常古老的(de)(de)(de)(de)(de)模(mo)(mo)型,叫做“基于能源的(de)(de)(de)(de)(de)模(mo)(mo)型”,它(ta)起源于20世紀70年代或80年代。
在基于能(neng)(neng)量的(de)模(mo)型中,構建(jian)圖像(xiang)上(shang)的(de)能(neng)(neng)量景觀來模(mo)擬物理耗(hao)散以生成圖像(xiang)。當你將一種墨水(shui)滴入水(shui)中時,它會(hui)消(xiao)(xiao)散,例如,在最(zui)后,你會(hui)得到這種均(jun)勻的(de)紋理。但如果你試圖逆(ni)轉這種消(xiao)(xiao)散過程,你會(hui)逐漸重(zhong)新獲(huo)得水(shui)中原(yuan)有的(de)墨點(dian)。
或者假設你(ni)有(you)一個(ge)(ge)非(fei)常復(fu)雜(za)的(de)積(ji)木(mu)(mu)塔(ta)。如(ru)(ru)果(guo)你(ni)用球打它,它會(hui)塌成一堆積(ji)木(mu)(mu)。然后,這(zhe)(zhe)堆積(ji)木(mu)(mu)很雜(za)亂,沒有(you)太多的(de)結構。要恢(hui)復(fu)塔(ta),你(ni)可以(yi)(yi)嘗(chang)試逆轉這(zhe)(zhe)一折疊過(guo)(guo)程,以(yi)(yi)生成原(yuan)始(shi)(shi)的(de)積(ji)木(mu)(mu)。這(zhe)(zhe)些模(mo)型以(yi)(yi)非(fei)常相似的(de)方式生成圖(tu)像。最初,你(ni)有(you)這(zhe)(zhe)個(ge)(ge)非(fei)常好的(de)形象。你(ni)從這(zhe)(zhe)個(ge)(ge)隨(sui)機(ji)噪聲(sheng)開(kai)始(shi)(shi),你(ni)基本(ben)上(shang)學會(hui)了(le)如(ru)(ru)何模(mo)擬如(ru)(ru)何逆轉這(zhe)(zhe)個(ge)(ge)過(guo)(guo)程,從噪聲(sheng)回到原(yuan)始(shi)(shi)圖(tu)像。你(ni)試著迭代優化這(zhe)(zhe)個(ge)(ge)圖(tu)像,讓它越(yue)(yue)來越(yue)(yue)逼真。
就人(ren)(ren)工(gong)智能(neng)和(he)(he)(he)人(ren)(ren)類創造力的(de)(de)界限而言,你可以說這(zhe)些模(mo)型(xing)實際上(shang)(shang)是根據人(ren)(ren)的(de)(de)創造力來訓練的(de)(de)。互聯(lian)網上(shang)(shang)有人(ren)(ren)們過去創作的(de)(de)各種繪畫和(he)(he)(he)圖(tu)像(xiang)。這(zhe)些模(mo)型(xing)可以被(bei)訓練來總結和(he)(he)(he)生(sheng)成互聯(lian)網上(shang)(shang)的(de)(de)現(xian)有圖(tu)像(xiang)。所以這(zhe)些模(mo)型(xing)更像(xiang)是人(ren)(ren)們花費(fei)了(le)幾(ji)百年的(de)(de)創造力的(de)(de)結晶。
同時,由于這(zhe)(zhe)些模型(xing)是根(gen)據(ju)人類設計的(de)(de)(de)內容(rong)進行(xing)訓練的(de)(de)(de),所以它們可以制(zhi)作出與人類過去所做的(de)(de)(de)非(fei)常相似的(de)(de)(de)藝術作品。他們可以找到藝術領域的(de)(de)(de)人制(zhi)作的(de)(de)(de)圖案,但(dan)這(zhe)(zhe)些模型(xing)很難自己實際生成有創意的(de)(de)(de)照片。
如果你試圖輸入“抽象(xiang)藝術(shu)”或者“獨特藝術(shu)”這樣的(de)(de)提示,它并沒有(you)真(zhen)正理解人(ren)類藝術(shu)的(de)(de)創造性方面,相反,這些模型可以說是總結了人(ren)們過去所做(zuo)的(de)(de)事情(qing),而不是產生新(xin)的(de)(de)創造性藝術(shu)。
由于(yu)這(zhe)些模(mo)型(xing)是在(zai)互聯網上的(de)(de)(de)大(da)(da)量圖(tu)像上訓練的(de)(de)(de),所以(yi)(yi)它們中的(de)(de)(de)許多可能受到版(ban)(ban)(ban)權(quan)保護(hu)。你并(bing)不(bu)知道模(mo)型(xing)在(zai)生成一(yi)張(zhang)新圖(tu)片(pian)的(de)(de)(de)時候(hou)到底在(zai)檢索什么(me),所以(yi)(yi)有(you)(you)一(yi)個(ge)(ge)很(hen)大(da)(da)的(de)(de)(de)問題(ti),就是如何確定模(mo)型(xing)是否在(zai)使用(yong)有(you)(you)版(ban)(ban)(ban)權(quan)的(de)(de)(de)圖(tu)片(pian)。如果模(mo)型(xing)在(zai)某種意義上依賴于(yu)一(yi)些有(you)(you)版(ban)(ban)(ban)權(quan)的(de)(de)(de)圖(tu)片(pian),那(nei)么(me)這(zhe)些新圖(tu)片(pian)有(you)(you)版(ban)(ban)(ban)權(quan)嗎?這(zhe)是另一(yi)個(ge)(ge)需要解決的(de)(de)(de)問題(ti)。
麻省理工學(xue)院(yuan)學(xue)生解(jie)釋人工智能(neng)圖像生成器(qi)。鳴(ming)謝(xie):麻省理工學(xue)院(yuan)
問:你認為擴(kuo)散模(mo)型生(sheng)成的(de)圖像編碼了對自然或物理世界的(de)某種(zhong)理解(jie),無(wu)論是動態的(de)還是幾何的(de)?有(you)沒(mei)有(you)努力“教(jiao)”圖像生(sheng)成器嬰兒很久以前(qian)就已經(jing)學會的(de)宇宙(zhou)基礎(chu)知識?
答:他們理解代碼(ma)中對自然和物理世界的(de)(de)一些掌(zhang)握嗎?我確定(ding)。如果你(ni)讓一個模型生成一個穩定(ding)的(de)(de)塊(kuai)配(pei)置(zhi),它一定(ding)會生成一個穩定(ding)的(de)(de)塊(kuai)配(pei)置(zhi)。如果你(ni)告(gao)訴它生成一個不穩定(ding)的(de)(de)塊(kuai)配(pei)置(zhi),它看(kan)起(qi)來確實很不穩定(ding)。或者你(ni)說“湖邊(bian)的(de)(de)一棵(ke)樹”,大致能產生。
從某種(zhong)意(yi)義上說,這(zhe)些模型(xing)似(si)乎抓住了很大一部分常識(shi)。然而,讓我們遠離(li)真正理解(jie)自然和物理世界的(de)問題是,當你試(shi)圖生(sheng)成你或我在工(gong)作(zuo)中很容易想(xiang)象的(de)不尋常的(de)單詞組合時,這(zhe)些模型(xing)是無法想(xiang)象的(de)。
例(li)如(ru)(ru),如(ru)(ru)果你(ni)說(shuo),“把叉(cha)子(zi)(zi)(zi)放在(zai)盤子(zi)(zi)(zi)上”,這(zhe)(zhe)種情況經常(chang)發生。如(ru)(ru)果你(ni)要求模型(xing)生成這(zhe)(zhe)個(ge)(ge),那就簡單了。如(ru)(ru)果你(ni)說(shuo),“在(zai)叉(cha)子(zi)(zi)(zi)上放一(yi)個(ge)(ge)盤子(zi)(zi)(zi)”,我們很(hen)(hen)容易想象它(ta)會是(shi)什么樣子(zi)(zi)(zi)。然而(er),如(ru)(ru)果你(ni)把它(ta)放入這(zhe)(zhe)些(xie)大模型(xing)中的(de)(de)(de)(de)任何一(yi)個(ge)(ge),你(ni)將永遠(yuan)不會在(zai)叉(cha)子(zi)(zi)(zi)上得(de)到(dao)一(yi)個(ge)(ge)盤子(zi)(zi)(zi)。相反(fan),你(ni)會在(zai)盤子(zi)(zi)(zi)的(de)(de)(de)(de)頂部得(de)到(dao)一(yi)個(ge)(ge)叉(cha)子(zi)(zi)(zi),因為(wei)模型(xing)正在(zai)學習(xi)總結它(ta)已經訓練(lian)過(guo)的(de)(de)(de)(de)所有圖像。用沒見(jian)過(guo)的(de)(de)(de)(de)詞組合(he)也(ye)不能(neng)很(hen)(hen)好的(de)(de)(de)(de)概括。一(yi)個(ge)(ge)眾所周(zhou)知的(de)(de)(de)(de)例(li)子(zi)(zi)(zi)是(shi)宇航員(yuan)騎(qi)馬,模型(xing)可以很(hen)(hen)容易地(di)完(wan)成。但(dan)(dan)是(shi)你(ni)說(shuo)一(yi)個(ge)(ge)宇航員(yuan)騎(qi)馬,還是(shi)會產生一(yi)個(ge)(ge)騎(qi)馬的(de)(de)(de)(de)人。這(zhe)(zhe)些(xie)模型(xing)似乎捕捉到(dao)了它(ta)們訓練(lian)的(de)(de)(de)(de)數據集中的(de)(de)(de)(de)大量(liang)相關性,但(dan)(dan)它(ta)們實際上并沒有捕捉到(dao)世界(jie)的(de)(de)(de)(de)潛在(zai)因果機(ji)制。
另一個(ge)(ge)(ge)常見的例子是,如(ru)果你得到一個(ge)(ge)(ge)非(fei)常復雜的文本(ben)描述,比如(ru)一個(ge)(ge)(ge)物(wu)體(ti)(ti)在另一個(ge)(ge)(ge)物(wu)體(ti)(ti)的右(you)邊,第(di)三個(ge)(ge)(ge)物(wu)體(ti)(ti)在前面,第(di)三個(ge)(ge)(ge)或第(di)四個(ge)(ge)(ge)物(wu)體(ti)(ti)在飛(fei)。它實際(ji)上只能滿足一兩個(ge)(ge)(ge)對象。這可能部分是因(yin)(yin)為訓練數據,因(yin)(yin)為很(hen)少有非(fei)常復雜的標題,但也可能表明這些模型不是非(fei)常結構(gou)化。
可(ke)以(yi)想象(xiang),如果(guo)得到非常復(fu)雜的(de)自然語言提示(shi),模型是(shi)無法(fa)準確表(biao)示(shi)所(suo)有組件細節的(de)。
問:你最近提出(chu)了(le)一種新方(fang)法,使用多種模(mo)型來創建更(geng)復雜(za)的圖像,以便更(geng)好地理(li)解(jie)生成藝術。這個框架在(zai)圖像或文本領(ling)域之(zhi)外有潛在(zai)的應用嗎?
答:這些(xie)模型的局(ju)限性讓我們(men)深受啟發。當你為這些(xie)模型提供非(fei)常復雜的場景描述時,它們(men)實際上無法生成與之正確匹配(pei)的圖像。
一(yi)種想法是(shi),既然是(shi)固定(ding)(ding)計算(suan)圖的(de)(de)單個(ge)模型,就意(yi)味著你只能(neng)用固定(ding)(ding)的(de)(de)計算(suan)量來生(sheng)成(cheng)圖像(xiang)。如果(guo)您收到極其復雜的(de)(de)提示,您將無(wu)法使用更多(duo)的(de)(de)計算(suan)能(neng)力來生(sheng)成(cheng)圖像(xiang)。
如果(guo)我向一(yi)(yi)個(ge)人(ren)描(miao)述(shu)一(yi)(yi)個(ge)場(chang)景,比(bi)方(fang)說,100行(xing)長(chang),而不是一(yi)(yi)個(ge)場(chang)景長(chang),人(ren)類藝術(shu)家可以花更(geng)長(chang)的(de)(de)時間在前者(zhe)上。這些模型真的(de)(de)沒有(you)做到這一(yi)(yi)點的(de)(de)敏感度。然后,我們建議(yi),給定非常復雜的(de)(de)提(ti)示(shi),你實(shi)際上可以將許多不同的(de)(de)獨立模型組合在一(yi)(yi)起(qi),并(bing)讓每(mei)個(ge)單獨的(de)(de)模型代表(biao)你想要描(miao)述(shu)的(de)(de)場(chang)景的(de)(de)一(yi)(yi)部(bu)分。
我(wo)們發現這使得我(wo)們的(de)(de)模(mo)型能(neng)夠生成(cheng)更(geng)復雜的(de)(de)場景(jing),或者更(geng)準確地生成(cheng)場景(jing)的(de)(de)不同方(fang)面(mian)的(de)(de)場景(jing)。此外,這種(zhong)方(fang)法(fa)通常可(ke)以應用(yong)(yong)于各種(zhong)領域。雖(sui)然(ran)圖(tu)像生成(cheng)可(ke)能(neng)是目前(qian)最成(cheng)功的(de)(de)應用(yong)(yong),但(dan)生成(cheng)模(mo)型實(shi)際上(shang)已經在(zai)各個領域看到了所有(you)類(lei)型的(de)(de)應用(yong)(yong)。
你可以使用它(ta)們來生成(cheng)不同(tong)的(de)(de)機(ji)器人(ren)行為,合成(cheng)3D形狀,更好地理(li)解場景或(huo)設(she)計新材(cai)料。您可以將多個所需因(yin)素結合起來,生成(cheng)特定應用所需的(de)(de)精確(que)材(cai)料。
我們(men)(men)(men)一(yi)直非常感興趣的(de)(de)(de)一(yi)件(jian)事是機器人技術。就像你(ni)可(ke)(ke)以(yi)生成(cheng)(cheng)不(bu)同(tong)的(de)(de)(de)圖(tu)像一(yi)樣,你(ni)也可(ke)(ke)以(yi)生成(cheng)(cheng)不(bu)同(tong)的(de)(de)(de)機器人軌(gui)跡(ji)(路徑(jing)和(he)時間表)。通過組合不(bu)同(tong)的(de)(de)(de)模型(xing)(xing),可(ke)(ke)以(yi)生成(cheng)(cheng)不(bu)同(tong)技能組合的(de)(de)(de)軌(gui)跡(ji)。如(ru)果(guo)我有一(yi)個(ge)跳(tiao)躍(yue)和(he)避障(zhang)(zhang)的(de)(de)(de)自然(ran)語言規范,你(ni)也可(ke)(ke)以(yi)把(ba)這(zhe)些(xie)模型(xing)(xing)結(jie)合起來,生成(cheng)(cheng)一(yi)個(ge)可(ke)(ke)以(yi)跳(tiao)躍(yue)和(he)避障(zhang)(zhang)的(de)(de)(de)機器人軌(gui)跡(ji)。同(tong)樣的(de)(de)(de),如(ru)果(guo)我們(men)(men)(men)想要設計(ji)蛋(dan)白質,我們(men)(men)(men)可(ke)(ke)以(yi)指(zhi)定不(bu)同(tong)的(de)(de)(de)功能或方面——類(lei)似(si)于我們(men)(men)(men)使(shi)用語言指(zhi)定圖(tu)像內(nei)容的(de)(de)(de)方式——用類(lei)似(si)的(de)(de)(de)語言描述,比如(ru)蛋(dan)白質的(de)(de)(de)類(lei)型(xing)(xing)或功能。然(ran)后,我們(men)(men)(men)可(ke)(ke)以(yi)將它們(men)(men)(men)結(jie)合在一(yi)起,產生一(yi)種(zhong)新的(de)(de)(de)蛋(dan)白質,滿足所有這(zhe)些(xie)功能。
我們還探索了擴散(san)模型在三維形狀生成(cheng)中的(de)應(ying)用。您可(ke)以使(shi)用此(ci)方法來生成(cheng)和(he)設(she)計(ji)3D資(zi)源。通常(chang),3D資(zi)產(chan)設(she)計(ji)是一個非常(chang)復雜和(he)費力的(de)過程。通過將不同的(de)模型組(zu)合在一起,生成(cheng)形狀變得更容易,例如(ru)“我想(xiang)要一個具(ju)有這種風格(ge)和(he)高度(du)的(de)四條腿(tui)的(de)3D形狀”,這可(ke)能(neng)會使(shi)3D資(zi)產(chan)設(she)計(ji)的(de)某些部分(fen)自動(dong)化。
特(te)別聲明:文章(zhang)僅代(dai)(dai)表作者個人(ren)觀點(dian),不代(dai)(dai)表麗泰的觀點(dian)和立場。如(ru)果(guo)侵犯(fan)到(dao)您的權益,版權或其他(ta)問題請及(ji)時(shi)(shi)聯(lian)系我(wo)們,我(wo)們會第(di)一時(shi)(shi)間處理。