郵箱 :news@@cgcvc.com

00後的創業命題:用 AIGC 打造“年輕版皮克斯”|牛白丁

文章來源:   發布日期:2024-07-12

歡迎來到「牛白丁」,在這裏,你將聽到來自華創資本和我們的朋友們,以投資人和創業者的第一視角,一起交流那些投資、創業、前沿科技、消費、生命科學等領域的洞察和趨勢,回憶片段與瞬間,剖析認知和思考。


歡迎聽友們關注「牛白丁」喜馬拉雅、小宇宙、蘋果播客、QQ音樂、豆瓣官方賬號,與我們一起用耳朵感受「時常有趣、偶爾深刻」。


最近,AVAR 推出了新產品 Aiuni AI 的 3D 生成模型 Unique3D,無論扔給它什麼圖片,都能在短短30秒內生成和原圖一樣精細的 3D 模型。


Unique3D 一經上線就登上了 Huggingface 的熱門模型排行榜,還被旗下官方工具Gradio 在海外媒體上提名為“best image-to-3d model”(最佳圖片生成3D模型)。


背後的研發團隊是來自清北的00後,創始人、CEO 胡雅婷和 CTO 吳凱路均是信息學競賽保送生。AVAR 成立一年便拿到三輪融資,華創資本曾領投了 AVAR 的天使輪融資。


做一款爆火的開源 3D 模型,隻是 AVAR 通向 4D 路上邁出的一小步,對這支年輕的團隊而言,有著更宏大的目標和野心——成為“年輕版皮克斯”。zhejiachuanqidonghuagongsibujinhuodeshijizuoaosika,haizengkaifaleyongyusanweimoxingbingxuanranchengshuzituxiangdexuanranqi,youcihuodetulingjiang,bujingaibianledonghuadianying,haijiakuailehaolaiwutexiao、視頻遊戲和虛擬現實領域的技術發展。


在藝術和技術上都能取得頂尖成就,是 AVAR 未來的願景,他們希望用 AIGC 實現皮克斯的路徑, 讓每個人有一天都能借助 AI 創作出自己的 IP 和動畫。


您將在本期節目聽到以下內容:

01:26  高配創業團隊:清北00後天才技術少年

10:33  Unique3D為何爆火?普通用戶該如何使用

21:40  Unique3D背後的技術難度和壁壘

26:26  00後老板如何管理團隊

30:17  傳奇動畫公司皮克斯帶來的啟發

38:18   4D技術難的不是生成貓和狗,而是如何讓它們“打架”

45:13   未來會有3D、4D的抖音嗎?

49:55   中國隊製霸全球算法競賽

54:41   願景:用AIGC打造“年輕版皮克斯”


嘉賓介紹:

April胡雅婷:AVAR創始人、CEO

Kailu Wu吳凱路:AVAR技術合夥人、CTO


主播:

張金:華創資本投資人




以下為節目內容,經過 CGCVC 編輯——


張金:大家好,這裏是華創資本的播客節目「牛白丁」,我是張金。這期我們請到了老朋友華創派 AVAR 的 CEO April 和 CTO 吳凱路,來聊聊他們新推出的爆款產品 Aiuni 3D。

April:我是April,AVAR 的創始人。我們現在主要做的產品是 Aiuni AI, 是 AI 生成 3D 模型和 4D 的動畫,想用 AIGC 去生成無限的 CG 藝術。我自己在大學期間實習時曾在Google、阿裏和字節做過算法工程師,也拿過信息學競賽全國金牌及最佳女選手,畢業後一直在做 3D 方向的創業。

張金:說起來雲淡風輕,但是信息學競賽全國金牌是非常厲害的。凱路和 April 一樣,是一個天才技術少年。

吳凱路:大家好,我是吳凱路,現在是 AVAR 的 CTO,主要負責所有的 AI 算法。我本科畢業於清華姚班,當初也是信息學競賽保送的清華,現在依舊在清華大學交叉信息研究院讀研,我接觸 AI 很早,本科之前就在做相關內容。我在大一期間發了一篇 CVPR(世界頂級的三大計算機視覺會議之一),大二獲得了一個百萬美元懸賞比賽的銀獎,為此還幫助一家創業公司拿到了幾千萬投資。

張金:太厲害了,所以你其實很早就一隻腳踏進了創業圈。

吳凱路:本科入學之後,我就在打算創業。我的導師馬愷聲(清華大學交叉信息研究院助理教授)在創業方麵也很有經驗,給了我很多指導。我一想到了什麼 idea,就會去問他,他會從商業方麵給出判斷意見。

比(bi)如(ru)我(wo)曾(zeng)經(jing)花(hua)了(le)一(yi)周(zhou)時(shi)間(jian)做(zuo)了(le)一(yi)個(ge)小(xiao)的(de)量(liang)化(hua)係(xi)統(tong)進(jin)行(xing)炒(chao)股(gu),係(xi)統(tong)其(qi)實(shi)很(hen)簡(jian)單(dan),每(mei)天(tian)買(mai)十(shi)支(zhi)股(gu)票(piao),第(di)二(er)天(tian)清(qing)倉(cang),照(zhao)這(zhe)個(ge)策(ce)略(lve)算(suan)下(xia)來(lai),大(da)概(gai)有(you)二(er)點(dian)幾(ji)到(dao)三(san)的(de)夏(xia)普(pu)率(lv),雖(sui)然(ran)還(hai)比(bi)不(bu)上(shang)最(zui)頂(ding)級(ji)的(de)量(liang)化(hua)基(ji)金(jin),但(dan)也(ye)能(neng)和(he)國(guo)內(nei)業(ye)績(ji)相(xiang)對(dui)比(bi)較(jiao)好(hao)的(de)一(yi)些(xie)基(ji)金(jin)持(chi)平(ping)。我(wo)當(dang)時(shi)是(shi)寫(xie)著(zhe)玩(wan)兒(er),沒(mei)想(xiang)到(dao)導(dao)師(shi)得(de)知(zhi)後(hou),專(zhuan)門(men)找(zhao)了(le)他(ta)做(zuo)量(liang)化(hua)的(de)朋(peng)友(you)給(gei)我(wo)認(ren)識(shi),他(ta)對(dui)潛(qian)在(zai)的(de)創(chuang)業(ye)機(ji)會(hui)還(hai)挺(ting)重(zhong)視(shi)的(de)。

張金:所以馬老師也非常支持你創業。你怎麼對 3D 生成感興趣的?

吳凱路:對,我自己提了休學。其實馬老師也不會強製要求我發 paper ,反倒是在 AVAR 工作期間發了 paper(《Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image》),star 還更多,這也屬於意外收獲。


我在本科就發了不少文章,基本上把 AI 所有相關方向全做了一遍,除了基礎模型,還做過各種各樣的AI 小工具,比如在2019年做過自動生成一套手機圖標類的,2020年看到 NeRF 起來之後覺得 3D 很有意思,本科時候就帶著實驗室的學長學姐一起做 3D 生成、3D 重建和 3D 編輯相關的研究。現在和雅婷一起做 Unique3D 到4D 的一整套生成工具集,發現效率比之前更高。很多 idea doushicongyatingnalihuodede,xiangdangyutafuzetianmaxingkong,wofuzeluodixiechengsuanfa。biruyatingdangshijiaodezhengshituyidingyaoduishang,yanseyaowanquanyiyang,duiyingdegezhongbianyuanjiefengyebunengtaituwu。wojiuxiangruguoyongchuantongdejiyusunshihanshu(編者注:用於指導網格優化過程,以確保生成的3D網格與輸入圖像在視覺和幾何上具有高度一致性)的迭代優化,可能要好幾分鍾才能逐漸逼近我們的目標圖像,但這樣雅婷會嫌時間太長了。

張金:CEO 還挺高壓的。

吳凱路:我平常習慣寫純 AI 驅(qu)動(dong)的(de)東(dong)西(xi),但(dan)有(you)時(shi)候(hou)在(zai)傳(chuan)統(tong)算(suan)法(fa)中(zhong)直(zhi)接(jie)算(suan)可(ke)以(yi)更(geng)快(kuai)地(di)準(zhun)確(que)算(suan)出(chu)結(jie)果(guo)。我(wo)就(jiu)遍(bian)曆(li)一(yi)下(xia)模(mo)型(xing)上(shang)的(de)每(mei)一(yi)個(ge)頂(ding)點(dian),然(ran)後(hou)去(qu)算(suan)每(mei)個(ge)頂(ding)點(dian)應(ying)該(gai)是(shi)什(shen)麼(me)顏(yan)色(se)。雅(ya)婷(ting)覺(jiao)得(de)邊(bian)緣(yuan)要(yao)平(ping)滑(hua),如(ru)果(guo)是(shi)非(fei)數(shu)據(ju)驅(qu)動(dong)下(xia)要(yao)實(shi)現(xian),要(yao)給(gei)每(mei)個(ge)視(shi)角(jiao)再(zai)做(zuo)個(ge)加(jia)權(quan)、平(ping)滑(hua)插(cha)值(zhi)。但(dan)做(zuo)完(wan)感(gan)覺(jiao)好(hao)像(xiang)效(xiao)果(guo)還(hai)沒(mei)有(you)那(na)麼(me)好(hao),我(wo)就(jiu)把(ba)平(ping)滑(hua)插(cha)值(zhi)這(zhe)個(ge)權(quan)重(zhong)再(zai)調(tiao)調(tiao),再(zai)做(zuo)點(dian)額(e)外(wai)的(de)加(jia)權(quan)和(he)調(tiao)整(zheng),效(xiao)果(guo)好(hao)多(duo)了(le)。雅(ya)婷(ting)提(ti)了(le)一(yi)個(ge)想(xiang)法(fa),我(wo)就(jiu)得(de)從(cong)各(ge)種(zhong)算(suan)法(fa)的(de)細(xi)節(jie)上(shang)進(jin)行(xing)調(tiao)整(zheng)修(xiu)改(gai)。

April:我wo經jing常chang從cong三san維wei本ben身shen的de流liu程cheng角jiao度du提ti一yi些xie想xiang法fa,凱kai路lu的de算suan法fa實shi現xian能neng力li都dou非fei常chang快kuai,我wo感gan覺jiao我wo們men每mei天tian都dou會hui有you算suan法fa更geng新xin。而er且qie凱kai路lu經jing常chang講jiang他ta為wei了le實shi現xian能neng做zuo幾ji百bai種zhong實shi驗yan。他ta做zuo那na個ge損sun失shi函han數shu的de時shi候hou搜sou索suo了le上shang千qian種zhong組zu合he,然ran後hou自zi動dong做zuo了le一yi個ge最zui好hao的de策ce略lve。我wo們men算suan法fa的de人ren效xiao確que實shi很hen高gao。

張金:凱路,你對3D 領域的技術趨勢怎麼判斷?

吳凱路:最早大家用基於 SDS(得分蒸餾采樣,Score Distillation Sampling) 的這種方式來做生成,但本身由於方法問題,導致它和 Stable Diffusion 配合起來就算能生成相對好一點的結構,但顏色也經常過飽和,所以其實很難得到一個可商用的東西。而且 SDS 方法非常慢,就算優化得很好,基本上也要十幾分鍾的樣子,很難完全讓大家用起來。

後麵大家開始探索不同的道路,完全拋開了 SDS,其實我現在覺得 SDS 帶著大家走了條彎路,現在來看整個主流的 3D 生成都和 SDS 沒有什麼關係,相當於那時候積累下來的很多經驗和方法,在現在 3D 生成上適用的不多,可能在多模態算法上會有一些作用,現在三維生成更偏向於類似重建的思路。

張金:其實分叉到了兩條路上。

吳凱路:應該說原來那條路基本就不走了,大家回到最早的路線上了。

最早 NeRF 出chu來lai後hou,三san維wei生sheng成cheng和he三san維wei重zhong建jian其qi實shi是shi在zai走zou完wan全quan不bu同tong的de兩liang條tiao路lu,重zhong建jian這zhe條tiao路lu一yi直zhi都dou走zou得de很hen順shun暢chang,大da家jia也ye見jian到dao很hen多duo靠kao著zhe重zhong建jian技ji術shu做zuo數shu字zi人ren,很hen多duo公gong司si都dou做zuo出chu來lai了le,因yin為wei效xiao果guo確que實shi也ye很hen好hao做zuo。

三維生成方麵,最早大家沿著類似於 diffusion 的思路來做純生成式的東西。但最近這一年,大家覺得要麼走多視圖重建,要麼走 reconstruction model(重建模型), 這些路線會得到更好的效果,而且速度更快,最慢也是分鍾級,快的話就是幾秒鍾。此外,在質量上,不再會有 SDS 過飽和的問題。方法也更加直觀,可以更好提升它的各種表現能力。

張金:今天請 April 和凱路來聊天,是因為最近 AVAR 一個非常火的開源模型 Unique 3D 上線了,而且快速在 GitHub 獲得了 2, 000 顆星。這個模型是用來做什麼的?


April:Unique 3D 主要用來生產 3D 模型,簡單理解,不管你扔給它什麼圖片,它都能在短短30秒內,給你變出一個跟原圖一樣精細的3D模型。

3D 內容之前主要廣泛用在像遊戲、動畫、影視以及電商領域,像是在電影中,我們會看到很多寫實但其實現實中沒有的東西,這些基本都是用 3D 的虛擬特效做的;遊戲中更不用說了,可以去操作的那些角色,最終也都是在三維引擎中實時渲染的;動畫領域用得更多,繪畫風格的動漫,可能用的是“三渲二”的一些技術。

現在三維用在品牌電商領域也很多,基本上我們平時看到的那些廣告片、商shang品pin圖tu片pian,如ru果guo是shi那na種zhong比bi較jiao精jing致zhi的de環huan境jing,基ji本ben上shang用yong的de都dou是shi虛xu擬ni拍pai攝she的de方fang法fa,因yin為wei實shi拍pai總zong是shi會hui有you一yi些xie很hen雜za的de光guang線xian,但dan用yong這zhe種zhong建jian模mo加jia虛xu擬ni渲xuan染ran,會hui比bi較jiao清qing晰xi或huo者zhe有you更geng風feng格ge化hua、創造性的呈現。

之前 3D 內容主要的問題就在於生產門檻很高,製作成本也非常高,比如之前在正常的三維流程中做一個 3D 模mo型xing,需xu要yao一yi周zhou到dao一yi個ge月yue的de時shi間jian。如ru果guo要yao搭da整zheng個ge的de場chang景jing和he動dong作zuo渲xuan染ran,一yi部bu三san維wei電dian影ying製zhi作zuo周zhou期qi一yi般ban就jiu需xu要yao兩liang年nian以yi上shang。就jiu算suan渲xuan染ran出chu來lai一yi部bu十shi秒miao到dao一yi分fen鍾zhong的de廣guang告gao片pian,可ke能neng也ye要yao做zuo幾ji個ge月yue到dao一yi個ge季ji度du。我wo們men之zhi前qian做zuo一yi個ge雕diao塑su的de模mo型xing,一yi個ge雕diao刻ke師shi得de雕diao幾ji周zhou,但dan通tong過guo Unique 3D,可以在 30 秒內就直接把一張圖片生成 3D 模型,在效率上有很大的顛覆。

張金:作為普通內容消費者,我們接觸 3D 類的電商圖片挺頻繁的。但 3D 電影相對數量比較少,因為製作成本非常高昂,製作時間也非常長。如果咱們的產品更成熟以後走入商業,尤其是 To 大 B 端的客戶,也會讓消費者接觸到更優質、更廣泛的 3D 內容。

April:現(xian)在(zai)三(san)維(wei)內(nei)容(rong)的(de)市(shi)場(chang)價(jia)格(ge)還(hai)是(shi)挺(ting)高(gao)的(de),因(yin)為(wei)它(ta)的(de)製(zhi)作(zuo)成(cheng)本(ben)就(jiu)很(hen)高(gao)。像(xiang)電(dian)影(ying)這(zhe)個(ge)領(ling)域(yu),有(you)很(hen)多(duo)我(wo)們(men)看(kan)不(bu)出(chu)來(lai)但(dan)現(xian)實(shi)中(zhong)不(bu)常(chang)見(jian)的(de)場(chang)景(jing),看(kan)著(zhe)像(xiang)實(shi)拍(pai),但(dan)基(ji)本(ben)上(shang)都(dou)是(shi)三(san)維(wei)做(zuo)的(de)。而(er)且(qie)三(san)維(wei)風(feng)格(ge)也(ye)不(bu)受(shou)限(xian),並(bing)不(bu)隻(zhi)是(shi)遊(you)戲(xi)或(huo)者(zhe)動(dong)畫(hua)裏(li)麵(mian)那(na)種(zhong)卡(ka)通(tong)。現(xian)在(zai)的(de)虛(xu)擬(ni)拍(pai)攝(she),也(ye)是(shi)我(wo)們(men)產(chan)品(pin)日(ri)後(hou)想(xiang)做(zuo)更(geng)多(duo)的(de)方(fang)向(xiang),尤(you)其(qi)是(shi) 4D 的功能,讓虛擬拍攝實現人人都可用。

吳凱路:Unique 3D 做出來之後,我們討論過要不要開源。如果我們最終的目標是做 4D,那它開源也沒啥關係。當時所有的開源 3D 模型,要麼速度很慢,要麼導出了一個看起來還行的視頻,但導出成 Mesh 的結果就很差。有些基於 NeRF 和 SDF 的方式,能夠導一個還可以的視頻,但如果真的要用,那個 Mesh 基本沒法用,真的非常醜。

張金:它再次編輯就會很難。

吳凱路:因為它導出的 Mesh shinazhongfeichangxiangsugandedongxi,zhenyaoyongdehua,jibenshangjiuquanyaogai。shimianshangxiaoguoshaoweihaodiandechanpin,tadeqingxiduhaimeinamegao。yonghujiujiaodewomingmingchuanlezhanghenqingchudetushangqu,dangeiwodehaishiyigehuhudedongxi,yaoyongdehuahaidezhongxinzaigaoyibian。

我們當時覺得 Unique 3D 放出去,至少會優於其他開源模型,並且大家都可以線上免費用,應該能火。不出所料,Unique 3D 迅速在各個平台火起來了,在 Hugging Face 上我們上了周榜,直到現在還掛在所有 demo 的首頁上。

我經常去看 Hugging Face 上的模型,它會顯示有多少個人同時在跑,Unique 3D 基本上每分每秒都同時有六、七個人在跑,包括我們自己的後台也是。除了開源代碼之外,我們還給大家提供了很多種使用方式。如果在外網,Hugging Face 會比較好用,在國內,我們還提供了一些 Gradio 網站的 demo,基本沒有不排隊的時候,後台服務器就沒停過,使用量也非常多,甚至很多人自發給我們做 ComfyUI 的插件,大家覺得這個項目挺好,會幫我們修一點小 bug ,還幫我們寫更明確的安裝指南。

張金:咱們的產品還被 Gradio 在海外媒體上提名為“best image-to-3d model”(最佳圖片生成3D模型)。April 當時怎麼想到要做這樣一個產品,技術、產品化的路徑是怎樣的?



April:Unique 3D 被bei大da家jia說shuo效xiao果guo好hao,是shi因yin為wei我wo們men確que實shi實shi現xian了le目mu前qian最zui高gao可ke用yong的de精jing度du,我wo們men當dang時shi設she計ji算suan法fa框kuang架jia時shi就jiu非fei常chang強qiang調tiao和he輸shu入ru的de圖tu像xiang完wan全quan一yi致zhi,比bi如ru從cong正zheng麵mian看kan是shi像xiang素su級ji的de一yi致zhi,從cong其qi他ta多duo個ge視shi角jiao看kan,一yi致zhi性xing也ye非fei常chang高gao,所suo以yi很hen多duo用yong戶hu說shuo這zhe是shi寫xie真zhen級ji 3D。此外,它又具有很好的泛化性,比如你給它一個真人圖像,它可以生成一個非常寫實的虛擬頭像;你給它一個手繪風格的,它也可以進行比較好的還原。現在很多用戶會用 Midjourney 生成圖,再進一步把 2D 的設計變成 3D 的,而用 Unique 3D 直接就可以圖生 3D,這也讓我們比較適合用於數字媒體、動畫等等領域。

很多用戶是 IP 設計師,之前他們可能就是交付一些三視圖,但現在他直接把正視圖輸進來,就會生成一個 3D 模型,可以更全麵地去預覽設計。甚至還有做實物電商的,他們也會把電商的設計圖輸進去,得到一個商品。

張金:現在已經有初步的商用了。

April:對,這些內容是挺適合商用的。IP 設計、動畫以及電商渲染都是商用性很強的場景,也比較好做 3D 商業化的內容,甚至很多博主會直接在新媒體平台上接一些商業化的項目。

我自己使用 Unique 3D 的時候也常覺得驚豔,比如它把圖像升級成三維,或者卡設計圖方麵做得非常好。我之前做 3D 模型找建模師,他們做的一個事情叫卡圖,就是在建 3D 模型時會把 2D 參考圖放在後麵,然後一筆一筆卡,保證模型和設計圖一致,但其實再怎麼卡,都有點不那麼一致。但我反而發現 AI 在這點上完全超越人類建模師。我自己會熟練地用那些建模的軟件,但用過 Unique 3D,感覺自己之前都白做了。

張金:用戶的消費門檻、使用的場景,其實都是拓寬了。

April:我們之所以會直接開源這一版算法,也是希望先有更多用戶可以用起來。我們還是想找一些 3D 的新場景,比如像 4D 動畫,所以還不如拿開源的影響力去做社群,或者進一步的應用場景。

張金:咱們團隊首先提出了 ISOMER 算法,直接基於 Mesh 進行 3D 重建,凱路能給我們具體講講這個算法的技術難度和壁壘嗎?

吳凱路:按照現有的方法,大多數人都是選擇先重建一個比如符號距離場(Signed Distance Field,SDF) ,或者別的比較好優化的東西,然後再提取 Mesh,但這是非常困難的,這麼多年都沒有做到非常好的效果。所以,我們如果要生成一個非常好的 Mesh,肯定不能走這條路,因為一定會被限製住。

隻有 Mesh 才能導入到 Blender 或者各種製作軟件裏,才能夠真正落到商用,那我們就不如就直接重建 Mesh,bazhegejihedejiegougeitazhongjianqilai。zuizaoyouyixiechangshi,weishenmemeiyouzuochulaine?zhezhongbanfazuidadekunnanzaiyujiyudianmiandemianjishiyigegaoduchouxiangdedongxi,duitajinxingkeweiyouhua(differentiable optimization)是很難調好的事兒,需要設計各種各樣的方式去做限製,整個優化過程並不像用 SDF、NeRF 和 3D 高斯那樣直觀。

但其實,我們隻需要去最小化 loss,然後去做梯度(gradients)、傳播(propagation),就能把這個東西給求出來。你要想清楚 Mesh 優化的每一步中,它的每一個 loss 的最終影響會是什麼樣,不能無腦寫一些損失函數,然後讓它去最小化損失函數,要在大腦裏模擬這東西到底梯度回傳(gradient backpropagation,可微分優化過程的一部分,在訓練和優化深度學習模型時發揮著關鍵作用)之後,它對於每個點、每個麵、梯度大概會是什麼樣的作用?Mesh 會如何形變?比如我們之前就會有很多調得沒有那麼好的版本,有各種各樣的問題。我就會去思考問題到底是怎麼產生的?

過程中,我們確實發現一些非常直觀的損失函數,它很難達成我們期望的效果,看起來很對,但仔細想想它是梯度修造(gradient crafting)出來的東西,並不能幫你完成 3D 重zhong建jian,反fan而er可ke能neng會hui破po壞huai你ni的de重zhong建jian結jie果guo。我wo們men大da概gai搜sou了le上shang千qian個ge組zu合he之zhi後hou,得de到dao十shi幾ji個ge相xiang對dui好hao的de組zu合he,接jie著zhe在zai不bu同tong情qing況kuang下xia測ce試shi之zhi後hou,又you選xuan擇ze其qi中zhong一yi些xie相xiang對dui合he理li以yi及ji效xiao果guo也ye比bi較jiao好hao的de組zu合he,作zuo為wei我wo們men最zui終zhong優you化hua迭die代dai的de目mu標biao。

張金:凱路在聊技術強項的時候眼裏都發光了,AVAR 的員工一直非常精煉,團隊如何協作?尤其在攻克一些技術難題的時候,大公司會調用一整個團隊,你們如何解決呢?

April:現在 3D 和 4D 的研究方向都非常新,很多研究員可能還是在讀的博士生,我們會直接和他們合作。我們接下來會做更多模態的算法,會結合 3D 視頻圖形學的能力,然後在下一階段根據這些多模態的需求擴一些團隊。但現在我們合作的研究員以及一些像 CG 的藝術家比較多,因為發現很多AI 公司可能也不需要那麼多 in-house 的設計人員或者運營人員,我們反而會直接和藝術家或者設計方向的博主合作。

張金:距離 April 創業已經有一年半左右了,你作為一個 00 後的老板,在管理或者組織能力上有什麼變化嗎?

April:yinweiwodenenglihaibijiaoquanzhan,suoyizuizaokaishichuangyedeshihouhenduoshiqingwodouhuixianzijizuo。zaichuangyechushijieduan,wofaxianzhaopinyigeren,dajiaruguozhishilaodonglixingzhidehezuo,hennanchanshengzhenzhengchuangyeshangdehezuoxiaoyi。danzuijingongsidequanzhituandui,huozheshiwomenshenduhezuodeyixieyanjiuyuanheyishujia,nengmingxianganjiaodaodajiabijiaohubu,gongzuoduibicidouhenyoujiazhi,you 1 + 1 大於 2 的感覺。隻有和每個工作夥伴建立這種關係,大家的合作才會比較長期。

wozijibijiaodadebianhua,zuizaogengduoshicongpiangerendechuangzaoliyichufa,xiangquzuoshenmechanpin,zhongjianjinglileyuanyuzhoubijiaohuodeshihou,kenengbijiaorongyigenzheshichangdebianhuazuotiaozheng。danwomenxianzaizhaodaoyigedaolu——既在市場中有明確價值,又是團隊和市場需求,以及能跟新的趨勢相契合。


張金:April 和凱路都是技術派,你們會有一些路線之爭或者分歧嗎?

April:倒不會有嚴格的分歧,但確實對於技術有完全不同的視角。凱路對 AI 非常熟悉,包括像 NeRF,但他最早了解 3D 是從神經渲染(Neural Rendering,是指使用深度學習模型來生成圖像的過程,這些模型能夠學習場景的表示並從不同的視角渲染出新的圖像)來的,我了解 3D 是從經典圖形學以及怎麼實際應用來的。所以,我經常想出來的一些 idea 需要和 AI 算法結合,這樣會 work 得更好。

吳凱路:我們各有所長。比如 April 知道該如何去建模,非常明確逐步的解決路徑是怎樣的,而我更多是一種純 AI 的思維,更多是一種數據驅動,我們會結合經典圖形學的算法,或者建模師經典會用的操作。

張金:現在海外的 3D 生成,包括你們未來要做的 4D 生成,已經有一些公司嶄露頭角了,你們心中有對標嗎?

吳凱路:目前我們並沒有看到國內或者海外任何一家能夠做到純 AI 的動畫生成,AI 3D 建模到 AI 動作,再到 AI 渲染。既然都沒有人做,為什麼不做全球呢?反正代碼都是寫一套,可以多賣幾個市場。

April:在 AI 行業,遊戲定位、 4D 級定位動畫應該在全球都是比較新的,所以我們叫 Unique 3D。如果要對標,我們在做的就是用 AIGC 實現皮克斯。

張金:很浪漫的一個目標。

April:最早是皮克斯創始人提出了現在三維動畫的算法,比如 Mesh 的曲麵表示、材cai質zhi貼tie圖tu,但dan他ta們men一yi開kai始shi直zhi接jie賣mai圖tu形xing學xue硬ying件jian或huo渲xuan染ran軟ruan件jian並bing不bu賺zhuan錢qian。後hou來lai,他ta們men用yong端duan到dao端duan的de技ji術shu去qu生sheng成cheng內nei容rong,做zuo動dong畫hua的de反fan響xiang非fei常chang好hao,正zheng是shi因yin為wei動dong畫hua的de成cheng功gong,皮pi克ke斯si後hou來lai被bei迪di士shi尼ni收shou購gou。我wo們men想xiang做zuo的de事shi情qing也ye是shi技ji術shu結jie合he藝yi術shu,皮pi克ke斯si在zai圖tu形xing學xue方fang麵mian做zuo得de很hen好hao,拿na了le圖tu靈ling獎jiang,動dong畫hua也ye拿na了le很hen多duo奧ao斯si卡ka,說shuo明ming C 端對於動畫,或者偏虛擬化、數字化的內容還是有需求的,而我們會在 AIGC 時代來做這個事情。

張金:所以像皮克斯這樣大的動畫內容公司,技術生成方案也可能會用到咱們的產品。

April:現xian在zai已yi經jing有you一yi些xie做zuo影ying視shi特te效xiao或huo者zhe動dong畫hua的de上shang市shi公gong司si和he我wo們men合he作zuo,他ta們men可ke以yi導dao出chu三san維wei模mo型xing,或huo者zhe骨gu骼ge數shu據ju之zhi類lei的de。相xiang當dang於yu在zai傳chuan統tong的de工gong業ye環huan境jing裏li麵mian降jiang本ben增zeng效xiao,但dan這zhe個ge市shi場chang不bu會hui很hen大da。

所以我覺得不如直接做一個新的工作流,相當於我們現在在做的這個產品在雲端,就能自動實現整個 AI 動畫的流程。之前有很多 C 端的創作者不做動畫,是因為自己人工做動畫的成本太高了。這是一個 general 的需求,隻要能真的用 AI 端實現,其實就可以擴展出很多新的應用場景,或者大家一起創造出很多新的內容。

張金:所以用新的工作流的可能是一些新公司,它們有非常好的故事創意 idea,但製作能力沒那麼強,就可以用咱們的產品去更好地展示出自己的內容。

April:或者就是一些個人創作者、幾個朋友一起做的 studio ,現xian在zai不bu隻zhi是shi內nei容rong製zhi作zuo,內nei容rong分fen發fa也ye完wan全quan換huan了le形xing式shi。像xiang皮pi克ke斯si因yin為wei是shi第di一yi個ge能neng做zuo動dong畫hua長chang片pian的de,那na時shi候hou走zou的de還hai是shi院yuan線xian影ying視shi的de路lu線xian,但dan現xian在zai很hen多duo設she計ji師shi、創作師都想在新媒體創作,他們更需要把自己的作品變成一個動態的內容,這樣才會有更好的曝光。包括很多人想做自己的IP,會有類似於原創角色的需求,他們可能已經不滿足於隻是去看一些影視作品裏才有的角色。

張金:咱們的場景和消費者都非常有想象力,因為這是一套全新的製作方式,也是一個全新的分發展示的平台。

April:我覺得好處是可以在 C 端規模化,我們的用戶大概分四個階段:首先是本來就會 3D 的藝術家,用戶量大概數百萬;下一階段是數字媒體的創作者,比如他需要更新短視頻、發動畫,可能之前隻是一個 2D 設計師想升級到3D,這一類用戶應該是有千萬級,Midjourney 都已經有千萬用戶了,我們很多用戶可能就是拿 Midjourney 生圖、生模型、生動畫;再往後就是類似於偏設計創作類的需求;再下一個,類似於 “Prosumer”(Producer(生產者)和Consumer(消費者)的結合體),會做那些同人創作原創角色的人,比如對喜歡的遊戲動畫類角色,他會自己再做二創、寫故事,這個成本很高,甚至他們都會找人做 live2D 的動畫。

張金:你提到的這些或者未來更多群體,是會做矩陣產品還是一體化產品來滿足他們?

April:其實就是一個一體化的產品,交互會盡量端到端,比如用戶輸入腳本分鏡,它就可以生成 3D 動畫,因為每一個組件可以下載,你也可以再導回自己的工作流修改,它是兼容的,但我們也會給他直接提供一個新的工作流。

張金:現在 VR 或者 XR 發展非常迅速,咱們以後會在這些新的硬件裏麵有不一樣的展示,或者提供給開發者專門的產品嗎?你們在 Vision Pro 或者其他一些新的眼鏡硬件產品裏會做一些打板的內容嗎?

April:這一類 3D 內容的好處就是做動畫可以被渲染成視頻,在新媒體上傳播,同時它也相當於空間視頻,或者有三維原生數據,可以兼容到下一代的 Vision Pro 裏。前幾天我體驗了迪士尼在 Vision Pro 裏的一個應用,把部分經典的 IP 動畫做成三維原生版,完全是一個空間視頻,某個角色可能突然跳到你麵前跟你說話,這確實是下一代的內容。

我們還是會關注內容本身,不完全局限在哪個平台。我們現在的格式,可以導出成 3D 原生,也可以渲染,但主要還是先讓創作者來用。

張金:接下來關於 3D 生成產品,包括未來 4D 的發展,在技術路線或產品係列上,怎麼考慮 ChatGPT 呢?

April:產品係列上,我們會把算法做得更多模態一點,比如上了 3D 生成、360 度的全景生成,其實還可以讓生成的模型進入全景中,做組合式的渲染。接下來我們主要還會給 3D 的模型加時間軸,讓它們可以生成動畫。此外,我們也會基於骨骼動畫生成,直接訓一些頂點動畫(vertex animation,指的是通過改變3D模型頂點的位置來實現動畫效果的過程)的方案,通過 AI 增強畫質,保證渲染的質量。



張金:接下來還有哪些需要團隊攻克的技術難點?

April:還是 4D fangmian,yaotongshibafanhuaxingheyundongdejingdudouzuohao,shijiexialaiyigezhongdiantiaozhan。xianzairuguowomenzhizuorenwuleixinghuozhejinsirendedonghua,qishiyijingkeyishengchengbijiaohaodegugedonghua,danruguoxiangyaobaozhengfanhuaxing,jiushirenyiyigewutiwomendoukeyizuodonghua,xuyaoyougengfanhuadeshuju,baokuokenengzaisuanfacengmianyaochuangxin。

吳凱路:從技術上講,最難的反而是物體和物體的交互,相當於生成了一隻貓、yitiaogou,danzenmeshengchengmaohegouzaidajia。xianzaiwomenqishiyijingshoujilejishiwandeshuju,xunlianleyigechubudemoxingchulai,keyizuojiandandiandejiaohu,biruzhegerenwunengnagepingzi、能走能坐,等到簡單版能用之後就可以上線,用戶使用時會把一些生成不合理的東西給踢掉,這樣我們就可以進一步累積數據,因為 4D 動(dong)畫(hua)數(shu)據(ju)是(shi)非(fei)常(chang)少(shao)的(de),獲(huo)取(qu)難(nan)度(du)也(ye)很(hen)高(gao),所(suo)以(yi)我(wo)們(men)還(hai)是(shi)會(hui)更(geng)傾(qing)向(xiang)於(yu)從(cong)一(yi)些(xie)動(dong)畫(hua)數(shu)據(ju)中(zhong)去(qu)還(hai)原(yuan),因(yin)為(wei)動(dong)畫(hua)數(shu)據(ju)運(yun)動(dong)和(he)幾(ji)何(he)結(jie)構(gou)都(dou)更(geng)加(jia)明(ming)確(que),有(you)助(zhu)於(yu)機(ji)器(qi)學(xue)習(xi)模(mo)型(xing)學(xue)到(dao)相(xiang)對(dui)合(he)理(li)的(de)初(chu)始(shi)知(zhi)識(shi)。

因(yin)為(wei)本(ben)質(zhi)上(shang)機(ji)器(qi)學(xue)習(xi)模(mo)型(xing)是(shi)數(shu)據(ju)驅(qu)動(dong)的(de),模(mo)型(xing)會(hui)自(zi)己(ji)試(shi)圖(tu)在(zai)數(shu)據(ju)裏(li)尋(xun)找(zhao)一(yi)些(xie)知(zhi)識(shi),如(ru)果(guo)是(shi)拿(na)動(dong)畫(hua)數(shu)據(ju)去(qu)訓(xun)練(lian),它(ta)能(neng)夠(gou)非(fei)常(chang)清(qing)楚(chu)知(zhi)道(dao)哪(na)個(ge)東(dong)西(xi)在(zai)怎(zen)麼(me)動(dong),從(cong)而(er)學(xue)到(dao)一(yi)些(xie)更(geng)加(jia)正(zheng)確(que)的(de)概(gai)念(nian)。

張金:3D 尤其 4D 更缺數據集,你提到用動畫數據還原,你們有一些相對獨有的訓練數據獲取渠道嗎?

吳凱路:因為我們之前有做一些搭建,自動化渲染管線、基於程序建模的動畫生成管線也都有,所以能在一定程度上彌補數據的不足。其實比起 3D,我們覺得 4D 數據可能需求量反而沒那麼大。因為 4D 核心關注物體怎麼動,比如不同的貓、狗,它的動法基本一樣,但不同的貓、狗,要把它畫出來,顏色、建模出來的形態是有很大差別的,但在運動規律上是高度相同的。從這個角度來看,4D 數據其實不一定要那麼多,就能得到一個相對不錯的效果就行。

April:huozheshuoganjiaobutongsuanfaxuyaodeshujuyetingbuyiyangde。ruguojieheyixieshipinshijiaodemoxingquzuo,kenengtajiuhuiyouyixiefanhuaxing。ruguonixundeshileisiyugugezhegemotai,jiuxiangrentidegugeyejiunameduoguanjiedian,taqishiduishujudexuqiuyemeiyounameda,jiukanniyongnazhongsuanfa。

張金:我們生成的3D、4D 內容,除了在一些 VR、XR 設備裏,還會存在哪種形式的展現平台上呢?商業化可能會是怎樣的?

April:我們現在關注的應用領域還是數字媒體,就是渲染成動畫,或者作為視頻,隻是它比起 AI 視頻,會有更好的角色、場景的一致性,以及可以渲染更長的視頻的,讓角色有比較精準可控的表達表演。像這一類場景,我們會更關注 2C 一點,隻要讓用戶創作之後,都願意繼續分享到新媒體平台。

張金:有沒有可能以後會有一個3D、 4D 的抖音?或者是專門承載這種新格式內容的平台?

April:我覺得是有機會的,但關鍵在於 MR 到來之前,你就已經有了一個很大的內容矩陣,這樣可以遷移到下一代 MR 平台。其實現在各種 MR 設備都在找新的內容,如果這些內容既可以在新媒體互聯網上積累流量,又可以在 MR 中有一個更好的呈現,我覺得是有機會的。但我自己覺得這個東西很難做,如果就是一個 2D 或者視頻的內容,也很難在MR 那邊形成一個新平台。

張金:那你覺得時間可能會是多久呢?

April:我們現在想做的 AI 生成動畫 IP 這個事情,其實這幾年就會比較 ready。birujinniandemubiao,zhishaohuishengchengkouboshipinhenazhongdanjiaosededonghuashipin,zhelianggekendingshikeyiluodide,bingqiezhiyaozuole,zaixinmeitipingtai,wulunchuangzuozhehaishixiaofeizhe,douhuiyouyigehenhaodeshujufankui,womenhuixianjileizheyibufen,jiexialaijiushikan MR 的成熟。我自己用 Vision Pro 的體驗確實比之前的要好,漫威、迪士尼也是主打多元宇宙的概念,你在裏麵可以和各類超級英雄的 IP 互動,確實還挺下一代的。

張金:所以這個“ChatGPT 時刻”可能會很快到來。

April:反正會比預想的快,就像我們2023年在做 3D 生成的時候,大家都覺得可能還要三五年你的這個精度才可用,但現在要單說模型的效果質量,我覺得其實已經可商用了。隻是3D 領域還是要擴展一些應用場景,現在的問題是你不能直接給別人分享一個 3D 文件,對方收到也打不開。所以我們很關注它是否能被渲染成動畫,因為這樣才可以分享和傳播。

張金:哪些挑戰是沒有辦法在這一兩年內解決的呢?

April:首先是 4D 更泛化性和更高精度的生成,還有就是 3D 的多模態之間的交互。這兩個領域包括學術上也都還算是在探索。

張金:目前大家都在摸索,沒有一個 Benchmark 去做成效的對比,那在研究的過程中,你們怎麼去看自己的進度是否是領先的?或者路線有沒有出現偏差?

吳凱路:目前整個 3D 和 4D 生(sheng)成(cheng)領(ling)域(yu),更(geng)多(duo)是(shi)偏(pian)相(xiang)對(dui)主(zhu)觀(guan)的(de)評(ping)價(jia),說(shuo)白(bai)了(le)拿(na)著(zhe)你(ni)的(de)模(mo)型(xing)的(de)效(xiao)果(guo)和(he)別(bie)人(ren)模(mo)型(xing)效(xiao)果(guo)測(ce)一(yi)下(xia),其(qi)實(shi)你(ni)自(zi)己(ji)心(xin)裏(li)就(jiu)有(you)數(shu)了(le)。雖(sui)然(ran)在(zai)論(lun)文(wen)上(shang)大(da)家(jia)會(hui)用(yong)很(hen)多(duo)非(fei)常(chang)客(ke)觀(guan)的(de)指(zhi)標(biao),但(dan)其(qi)實(shi)可(ke)能(neng)指(zhi)標(biao)上(shang)領(ling)先(xian)一(yi)些(xie),看(kan)起(qi)來(lai)使(shi)用(yong)起(qi)來(lai)感(gan)受(shou)卻(que)不(bu)一(yi)樣(yang)。我(wo)們(men)能(neng)直(zhi)接(jie)接(jie)觸(chu)到(dao)很(hen)多(duo) 3D 或者動畫的設計師,他們能給出很好的評價,還是要更多貼近真正的使用者,讓他們來評判好不好。

張金:那就需要你們跟這些創作者,算是小 B 端經常去做溝通和測試。

吳凱路:所以我覺得雅婷能組好這樣一個團隊非常重要,因為裏麵有做 4D 動畫非常厲害的創作者,我們基本每周會線下溝通一次,看看他們的想法和建議。

張金:在 3D 和 4D 生成領域,AVAR 作為中國頭部的團隊,和海外,尤其美國頂尖的學者團隊會存在一定的差距嗎?還是說大家其實現在是在同一條起跑線上?

吳凱路:整zheng體ti來lai講jiang差cha不bu多duo,而er且qie最zui近jin一yi年nian,在zai學xue術shu領ling域yu,很hen多duo更geng重zhong要yao的de工gong作zuo基ji本ben都dou是shi國guo內nei的de學xue校xiao在zai發fa文wen章zhang,海hai外wai反fan而er缺que少shao一yi些xie創chuang新xin性xing,竟jing然ran還hai有you人ren在zai做zuo SDS。國內公司反而能讓大家眼前一亮。

張金:海外為什麼反而會落後一些呢?

April:我們今天還和一個投資人在聊,總結下來就是很多 AI 大模型的方向,總體還是算力驅動,或者是偏算力大於數據、大於算法,就導致這種方向可能美國會更有優勢。但 3D 方向,現在完全是算法大於數據、大da於yu算suan力li。其qi實shi很hen多duo學xue術shu上shang的de創chuang新xin工gong作zuo也ye是shi華hua人ren在zai提ti出chu,就jiu像xiang當dang時shi算suan法fa競jing賽sai的de時shi候hou,可ke能neng中zhong國guo隊dui的de成cheng績ji都dou會hui比bi美mei國guo隊dui好hao。像xiang算suan法fa尤you其qi是shi我wo們men做zuo這zhe種zhong偏pian圖tu形xing學xue的de多duo模mo態tai,包bao括kuo偏pian工gong程cheng上shang的de事shi情qing,華hua人ren可ke能neng會hui更geng強qiang。

吳凱路:確實是這樣,全球算法競賽,基本上就是中國隊可能包攬前四,接著後麵就是美國隊,然後美國隊清一色講中文,都是華裔。

張金:所以在算法才能上,中國團隊其實是非常占優勢的,人才密度也非常集中。

咱zan們men會hui考kao慮lv在zai海hai外wai設she立li一yi個ge分fen公gong司si嗎ma?因yin為wei剛gang剛gang提ti到dao海hai外wai有you非fei常chang多duo的de創chuang作zuo者zhe需xu要yao我wo們men的de產chan品pin,可ke能neng那na邊bian也ye需xu要yao運yun營ying的de團tuan隊dui去qu滿man足zu他ta們men的de一yi些xie需xu求qiu。

April:我們現在定位是 global 的(de),目(mu)前(qian)我(wo)們(men)海(hai)外(wai)用(yong)戶(hu)也(ye)比(bi)國(guo)內(nei)用(yong)戶(hu)多(duo)一(yi)點(dian)。中(zhong)國(guo)團(tuan)隊(dui)可(ke)能(neng)運(yun)營(ying)能(neng)力(li)更(geng)強(qiang)一(yi)點(dian),最(zui)終(zhong)做(zuo)內(nei)容(rong),其(qi)實(shi)也(ye)挺(ting)拚(pin)運(yun)營(ying)能(neng)力(li)的(de)。我(wo)們(men)現(xian)在(zai)也(ye)會(hui)把(ba)一(yi)些(xie)特(te)效(xiao)的(de)流(liu)程(cheng)自(zi)動(dong)化(hua),在(zai) TikTok 和 Snapchat 中都有 AR 特效,我看到過一個分析認為 TikTok 的運營能力比 Snapchat 要強很多,所以特效內容可能華人背景的團隊也可以做得更好。

張金:你們在分析這些用戶的需求上會發現什麼有意思的嗎?

April:確實在後台發現很多角色二創的,也有傳自己的真人照片、設計的 IP,我們現在會更關注偏原創角色或者 IP 設計的場景,因為這一類模型,比起做遊戲道具或普通的靜態模型,IP shuxingdemoxingjiexialaihuigengyouchuangzaoliheshengmingli。hezheyileiyonghuliaoshifaxian,tamenyehuixiwangtadejiaosenengjinyibuzuochengdonghua,jiaodezheshibijiaoyoushengminglideyizhongcunzai。womenjiexialaiyehuigengguanzhuzhegechangjingdeyixiechuangzuo。

張金:我聽到有用戶把咱們比作中國的“Luma AI”。

April:我感覺 Luma AI 和我們都是基於 3D 的算法在做,它們可能會更偏 3D 高斯,最終導出視頻的模態,這樣比較容易擴用戶場景,這個思路是比較一致的。但不同的是,它們是基於 3D 高斯表示的,3D 高斯在還原一些真實場景可能會占優一點。我們是基於 Mesh 表示的,更多地結合一些圖形學動畫的工作流,所以我們角色的可控性和可編輯性會更強,更適合風格化創作的場景。

張金:大家走不同路線,它們可能是美國的“AVAR”。未來你們希望做成一家什麼樣的公司?

April:我希望是“年輕版皮克斯”,能用 AI 實現 4D 動畫,或者是 AI 讓每個人都能像皮克斯一樣去創作這些 IP 和he動dong畫hua,這zhe對dui我wo們men來lai說shuo已yi經jing是shi一yi件jian很hen宏hong大da的de事shi情qing了le。當dang初chu皮pi克ke斯si要yao完wan全quan用yong計ji算suan機ji做zuo整zheng個ge電dian影ying的de時shi候hou,他ta們men雖sui然ran覺jiao得de這zhe是shi一yi個ge十shi年nian的de命ming題ti,但dan依yi然ran要yao完wan成cheng。我wo們men要yao用yong AI 重塑整個流程,可能也需要這樣一個時間。

張金:我們起步早,畢竟都是 00 後團隊,十年後也才 30 來歲。

吳凱路:我說點更實在的,希望三年後我們的用戶量能夠突破 300 萬,畢竟視頻受眾廣泛,自媒體用戶也非常多,這個目標應該還算保守。同時也希望進一步推動大家能比較輕鬆、便捷地創造動畫的內容,進而訓練出一些關於空間智能的模型,能有助於機器人的發展。

張金:我明白了為什麼你們搭配得那麼好,因為 CEO 負責說公司願景,CTO 負責說技術目標,非常互補。對 AI 生成非常感興趣的聽眾,如何使用你們的產品呢?

April:可以直接在瀏覽器輸入域名(https://aiuni.ai),目前還在內測,登錄進去有我們各種社群的聯係方式。小紅書也有很多活躍用戶和社群。

張金:今天的播客「牛白丁」錄製就到這裏,謝謝 April 和凱路來做客。如果聽眾朋友們對AVAR 有任何興趣,或者有想進一步了解的話題,也可以反饋給華創。

謝謝大家。



 

分享到: