00後的創業命題：用 AIGC 打造“年輕版皮克斯”｜牛白丁_華創資本 | China Growth Capital

郵箱 :news@@cgcvc.com

00後的創業命題：用 AIGC 打造“年輕版皮克斯”｜牛白丁

文章來源：發布日期：2024-07-12

歡迎來到「牛白丁」，在這裏，你將聽到來自華創資本和我們的朋友們，以投資人和創業者的第一視角，一起交流那些投資、創業、前沿科技、消費、生命科學等領域的洞察和趨勢，回憶片段與瞬間，剖析認知和思考。

歡迎聽友們關注「牛白丁」喜馬拉雅、小宇宙、蘋果播客、QQ音樂、豆瓣官方賬號，與我們一起用耳朵感受「時常有趣、偶爾深刻」。

最近，AVAR 推出了新產品 Aiuni AI 的 3D 生成模型 Unique3D，無論扔給它什麼圖片，都能在短短30秒內生成和原圖一樣精細的 3D 模型。

Unique3D 一經上線就登上了 Huggingface 的熱門模型排行榜，還被旗下官方工具Gradio 在海外媒體上提名為“best image-to-3d model”（最佳圖片生成3D模型）。

背後的研發團隊是來自清北的00後，創始人、CEO 胡雅婷和 CTO 吳凱路均是信息學競賽保送生。AVAR 成立一年便拿到三輪融資，華創資本曾領投了 AVAR 的天使輪融資。

做一款爆火的開源 3D 模型，隻是 AVAR 通向 4D 路上邁出的一小步，對這支年輕的團隊而言，有著更宏大的目標和野心——成為“年輕版皮克斯”。zhejiachuanqidonghuagongsibujinhuodeshijizuoaosika，haizengkaifaleyongyusanweimoxingbingxuanranchengshuzituxiangdexuanranqi，youcihuodetulingjiang，bujingaibianledonghuadianying，haijiakuailehaolaiwutexiao、視頻遊戲和虛擬現實領域的技術發展。

在藝術和技術上都能取得頂尖成就，是 AVAR 未來的願景，他們希望用 AIGC 實現皮克斯的路徑，讓每個人有一天都能借助 AI 創作出自己的 IP 和動畫。

您將在本期節目聽到以下內容：

01:26 高配創業團隊：清北00後天才技術少年

10:33 Unique3D為何爆火？普通用戶該如何使用

21:40 Unique3D背後的技術難度和壁壘

26:26 00後老板如何管理團隊

30:17 傳奇動畫公司皮克斯帶來的啟發

38:18 4D技術難的不是生成貓和狗，而是如何讓它們“打架”

45:13 未來會有3D、4D的抖音嗎？

49:55 中國隊製霸全球算法競賽

54:41 願景：用AIGC打造“年輕版皮克斯”

嘉賓介紹：

April胡雅婷：AVAR創始人、CEO

Kailu Wu吳凱路：AVAR技術合夥人、CTO

主播：

張金：華創資本投資人

以下為節目內容，經過 CGCVC 編輯——

張金：大家好，這裏是華創資本的播客節目「牛白丁」，我是張金。這期我們請到了老朋友華創派 AVAR 的 CEO April 和 CTO 吳凱路，來聊聊他們新推出的爆款產品 Aiuni 3D。

April：我是April，AVAR 的創始人。我們現在主要做的產品是 Aiuni AI，是 AI 生成 3D 模型和 4D 的動畫，想用 AIGC 去生成無限的 CG 藝術。我自己在大學期間實習時曾在Google、阿裏和字節做過算法工程師，也拿過信息學競賽全國金牌及最佳女選手，畢業後一直在做 3D 方向的創業。

張金：說起來雲淡風輕，但是信息學競賽全國金牌是非常厲害的。凱路和 April 一樣，是一個天才技術少年。

吳凱路：大家好，我是吳凱路，現在是 AVAR 的 CTO，主要負責所有的 AI 算法。我本科畢業於清華姚班，當初也是信息學競賽保送的清華，現在依舊在清華大學交叉信息研究院讀研，我接觸 AI 很早，本科之前就在做相關內容。我在大一期間發了一篇 CVPR（世界頂級的三大計算機視覺會議之一），大二獲得了一個百萬美元懸賞比賽的銀獎，為此還幫助一家創業公司拿到了幾千萬投資。

張金：太厲害了，所以你其實很早就一隻腳踏進了創業圈。

吳凱路：本科入學之後，我就在打算創業。我的導師馬愷聲（清華大學交叉信息研究院助理教授）在創業方麵也很有經驗，給了我很多指導。我一想到了什麼 idea，就會去問他，他會從商業方麵給出判斷意見。

比(bi)如(ru)我(wo)曾(zeng)經(jing)花(hua)了(le)一(yi)周(zhou)時(shi)間(jian)做(zuo)了(le)一(yi)個(ge)小(xiao)的(de)量(liang)化(hua)係(xi)統(tong)進(jin)行(xing)炒(chao)股(gu)，係(xi)統(tong)其(qi)實(shi)很(hen)簡(jian)單(dan)，每(mei)天(tian)買(mai)十(shi)支(zhi)股(gu)票(piao)，第(di)二(er)天(tian)清(qing)倉(cang)，照(zhao)這(zhe)個(ge)策(ce)略(lve)算(suan)下(xia)來(lai)，大(da)概(gai)有(you)二(er)點(dian)幾(ji)到(dao)三(san)的(de)夏(xia)普(pu)率(lv)，雖(sui)然(ran)還(hai)比(bi)不(bu)上(shang)最(zui)頂(ding)級(ji)的(de)量(liang)化(hua)基(ji)金(jin)，但(dan)也(ye)能(neng)和(he)國(guo)內(nei)業(ye)績(ji)相(xiang)對(dui)比(bi)較(jiao)好(hao)的(de)一(yi)些(xie)基(ji)金(jin)持(chi)平(ping)。我(wo)當(dang)時(shi)是(shi)寫(xie)著(zhe)玩(wan)兒(er)，沒(mei)想(xiang)到(dao)導(dao)師(shi)得(de)知(zhi)後(hou)，專(zhuan)門(men)找(zhao)了(le)他(ta)做(zuo)量(liang)化(hua)的(de)朋(peng)友(you)給(gei)我(wo)認(ren)識(shi)，他(ta)對(dui)潛(qian)在(zai)的(de)創(chuang)業(ye)機(ji)會(hui)還(hai)挺(ting)重(zhong)視(shi)的(de)。

張金：所以馬老師也非常支持你創業。你怎麼對 3D 生成感興趣的？

吳凱路：對，我自己提了休學。其實馬老師也不會強製要求我發 paper ，反倒是在 AVAR 工作期間發了 paper（《Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image》），star 還更多，這也屬於意外收獲。

我在本科就發了不少文章，基本上把 AI 所有相關方向全做了一遍，除了基礎模型，還做過各種各樣的AI 小工具，比如在2019年做過自動生成一套手機圖標類的，2020年看到 NeRF 起來之後覺得 3D 很有意思，本科時候就帶著實驗室的學長學姐一起做 3D 生成、3D 重建和 3D 編輯相關的研究。現在和雅婷一起做 Unique3D 到4D 的一整套生成工具集，發現效率比之前更高。很多 idea doushicongyatingnalihuodede，xiangdangyutafuzetianmaxingkong，wofuzeluodixiechengsuanfa。biruyatingdangshijiaodezhengshituyidingyaoduishang，yanseyaowanquanyiyang，duiyingdegezhongbianyuanjiefengyebunengtaituwu。wojiuxiangruguoyongchuantongdejiyusunshihanshu（編者注：用於指導網格優化過程，以確保生成的3D網格與輸入圖像在視覺和幾何上具有高度一致性）的迭代優化，可能要好幾分鍾才能逐漸逼近我們的目標圖像，但這樣雅婷會嫌時間太長了。

張金：CEO 還挺高壓的。

吳凱路：我平常習慣寫純 AI 驅(qu)動(dong)的(de)東(dong)西(xi)，但(dan)有(you)時(shi)候(hou)在(zai)傳(chuan)統(tong)算(suan)法(fa)中(zhong)直(zhi)接(jie)算(suan)可(ke)以(yi)更(geng)快(kuai)地(di)準(zhun)確(que)算(suan)出(chu)結(jie)果(guo)。我(wo)就(jiu)遍(bian)曆(li)一(yi)下(xia)模(mo)型(xing)上(shang)的(de)每(mei)一(yi)個(ge)頂(ding)點(dian)，然(ran)後(hou)去(qu)算(suan)每(mei)個(ge)頂(ding)點(dian)應(ying)該(gai)是(shi)什(shen)麼(me)顏(yan)色(se)。雅(ya)婷(ting)覺(jiao)得(de)邊(bian)緣(yuan)要(yao)平(ping)滑(hua)，如(ru)果(guo)是(shi)非(fei)數(shu)據(ju)驅(qu)動(dong)下(xia)要(yao)實(shi)現(xian)，要(yao)給(gei)每(mei)個(ge)視(shi)角(jiao)再(zai)做(zuo)個(ge)加(jia)權(quan)、平(ping)滑(hua)插(cha)值(zhi)。但(dan)做(zuo)完(wan)感(gan)覺(jiao)好(hao)像(xiang)效(xiao)果(guo)還(hai)沒(mei)有(you)那(na)麼(me)好(hao)，我(wo)就(jiu)把(ba)平(ping)滑(hua)插(cha)值(zhi)這(zhe)個(ge)權(quan)重(zhong)再(zai)調(tiao)調(tiao)，再(zai)做(zuo)點(dian)額(e)外(wai)的(de)加(jia)權(quan)和(he)調(tiao)整(zheng)，效(xiao)果(guo)好(hao)多(duo)了(le)。雅(ya)婷(ting)提(ti)了(le)一(yi)個(ge)想(xiang)法(fa)，我(wo)就(jiu)得(de)從(cong)各(ge)種(zhong)算(suan)法(fa)的(de)細(xi)節(jie)上(shang)進(jin)行(xing)調(tiao)整(zheng)修(xiu)改(gai)。

April：我wo經jing常chang從cong三san維wei本ben身shen的de流liu程cheng角jiao度du提ti一yi些xie想xiang法fa，凱kai路lu的de算suan法fa實shi現xian能neng力li都dou非fei常chang快kuai，我wo感gan覺jiao我wo們men每mei天tian都dou會hui有you算suan法fa更geng新xin。而er且qie凱kai路lu經jing常chang講jiang他ta為wei了le實shi現xian能neng做zuo幾ji百bai種zhong實shi驗yan。他ta做zuo那na個ge損sun失shi函han數shu的de時shi候hou搜sou索suo了le上shang千qian種zhong組zu合he，然ran後hou自zi動dong做zuo了le一yi個ge最zui好hao的de策ce略lve。我wo們men算suan法fa的de人ren效xiao確que實shi很hen高gao。

張金：凱路，你對3D 領域的技術趨勢怎麼判斷？

吳凱路：最早大家用基於 SDS（得分蒸餾采樣，Score Distillation Sampling）的這種方式來做生成，但本身由於方法問題，導致它和 Stable Diffusion 配合起來就算能生成相對好一點的結構，但顏色也經常過飽和，所以其實很難得到一個可商用的東西。而且 SDS 方法非常慢，就算優化得很好，基本上也要十幾分鍾的樣子，很難完全讓大家用起來。

後麵大家開始探索不同的道路，完全拋開了 SDS，其實我現在覺得 SDS 帶著大家走了條彎路，現在來看整個主流的 3D 生成都和 SDS 沒有什麼關係，相當於那時候積累下來的很多經驗和方法，在現在 3D 生成上適用的不多，可能在多模態算法上會有一些作用，現在三維生成更偏向於類似重建的思路。

張金：其實分叉到了兩條路上。

吳凱路：應該說原來那條路基本就不走了，大家回到最早的路線上了。

最早 NeRF 出chu來lai後hou，三san維wei生sheng成cheng和he三san維wei重zhong建jian其qi實shi是shi在zai走zou完wan全quan不bu同tong的de兩liang條tiao路lu，重zhong建jian這zhe條tiao路lu一yi直zhi都dou走zou得de很hen順shun暢chang，大da家jia也ye見jian到dao很hen多duo靠kao著zhe重zhong建jian技ji術shu做zuo數shu字zi人ren，很hen多duo公gong司si都dou做zuo出chu來lai了le，因yin為wei效xiao果guo確que實shi也ye很hen好hao做zuo。

三維生成方麵，最早大家沿著類似於 diffusion 的思路來做純生成式的東西。但最近這一年，大家覺得要麼走多視圖重建，要麼走 reconstruction model（重建模型），這些路線會得到更好的效果，而且速度更快，最慢也是分鍾級，快的話就是幾秒鍾。此外，在質量上，不再會有 SDS 過飽和的問題。方法也更加直觀，可以更好提升它的各種表現能力。

張金：今天請 April 和凱路來聊天，是因為最近 AVAR 一個非常火的開源模型 Unique 3D 上線了，而且快速在 GitHub 獲得了 2, 000 顆星。這個模型是用來做什麼的？

April：Unique 3D 主要用來生產 3D 模型，簡單理解，不管你扔給它什麼圖片，它都能在短短30秒內，給你變出一個跟原圖一樣精細的3D模型。

3D 內容之前主要廣泛用在像遊戲、動畫、影視以及電商領域，像是在電影中，我們會看到很多寫實但其實現實中沒有的東西，這些基本都是用 3D 的虛擬特效做的；遊戲中更不用說了，可以去操作的那些角色，最終也都是在三維引擎中實時渲染的；動畫領域用得更多，繪畫風格的動漫，可能用的是“三渲二”的一些技術。

現在三維用在品牌電商領域也很多，基本上我們平時看到的那些廣告片、商shang品pin圖tu片pian，如ru果guo是shi那na種zhong比bi較jiao精jing致zhi的de環huan境jing，基ji本ben上shang用yong的de都dou是shi虛xu擬ni拍pai攝she的de方fang法fa，因yin為wei實shi拍pai總zong是shi會hui有you一yi些xie很hen雜za的de光guang線xian，但dan用yong這zhe種zhong建jian模mo加jia虛xu擬ni渲xuan染ran，會hui比bi較jiao清qing晰xi或huo者zhe有you更geng風feng格ge化hua、創造性的呈現。

之前 3D 內容主要的問題就在於生產門檻很高，製作成本也非常高，比如之前在正常的三維流程中做一個 3D 模mo型xing，需xu要yao一yi周zhou到dao一yi個ge月yue的de時shi間jian。如ru果guo要yao搭da整zheng個ge的de場chang景jing和he動dong作zuo渲xuan染ran，一yi部bu三san維wei電dian影ying製zhi作zuo周zhou期qi一yi般ban就jiu需xu要yao兩liang年nian以yi上shang。就jiu算suan渲xuan染ran出chu來lai一yi部bu十shi秒miao到dao一yi分fen鍾zhong的de廣guang告gao片pian，可ke能neng也ye要yao做zuo幾ji個ge月yue到dao一yi個ge季ji度du。我wo們men之zhi前qian做zuo一yi個ge雕diao塑su的de模mo型xing，一yi個ge雕diao刻ke師shi得de雕diao幾ji周zhou，但dan通tong過guo Unique 3D，可以在 30 秒內就直接把一張圖片生成 3D 模型，在效率上有很大的顛覆。

張金：作為普通內容消費者，我們接觸 3D 類的電商圖片挺頻繁的。但 3D 電影相對數量比較少，因為製作成本非常高昂，製作時間也非常長。如果咱們的產品更成熟以後走入商業，尤其是 To 大 B 端的客戶，也會讓消費者接觸到更優質、更廣泛的 3D 內容。

April：現(xian)在(zai)三(san)維(wei)內(nei)容(rong)的(de)市(shi)場(chang)價(jia)格(ge)還(hai)是(shi)挺(ting)高(gao)的(de)，因(yin)為(wei)它(ta)的(de)製(zhi)作(zuo)成(cheng)本(ben)就(jiu)很(hen)高(gao)。像(xiang)電(dian)影(ying)這(zhe)個(ge)領(ling)域(yu)，有(you)很(hen)多(duo)我(wo)們(men)看(kan)不(bu)出(chu)來(lai)但(dan)現(xian)實(shi)中(zhong)不(bu)常(chang)見(jian)的(de)場(chang)景(jing)，看(kan)著(zhe)像(xiang)實(shi)拍(pai)，但(dan)基(ji)本(ben)上(shang)都(dou)是(shi)三(san)維(wei)做(zuo)的(de)。而(er)且(qie)三(san)維(wei)風(feng)格(ge)也(ye)不(bu)受(shou)限(xian)，並(bing)不(bu)隻(zhi)是(shi)遊(you)戲(xi)或(huo)者(zhe)動(dong)畫(hua)裏(li)麵(mian)那(na)種(zhong)卡(ka)通(tong)。現(xian)在(zai)的(de)虛(xu)擬(ni)拍(pai)攝(she)，也(ye)是(shi)我(wo)們(men)產(chan)品(pin)日(ri)後(hou)想(xiang)做(zuo)更(geng)多(duo)的(de)方(fang)向(xiang)，尤(you)其(qi)是(shi) 4D 的功能，讓虛擬拍攝實現人人都可用。

吳凱路：Unique 3D 做出來之後，我們討論過要不要開源。如果我們最終的目標是做 4D，那它開源也沒啥關係。當時所有的開源 3D 模型，要麼速度很慢，要麼導出了一個看起來還行的視頻，但導出成 Mesh 的結果就很差。有些基於 NeRF 和 SDF 的方式，能夠導一個還可以的視頻，但如果真的要用，那個 Mesh 基本沒法用，真的非常醜。

張金：它再次編輯就會很難。

吳凱路：因為它導出的 Mesh shinazhongfeichangxiangsugandedongxi，zhenyaoyongdehua，jibenshangjiuquanyaogai。shimianshangxiaoguoshaoweihaodiandechanpin，tadeqingxiduhaimeinamegao。yonghujiujiaodewomingmingchuanlezhanghenqingchudetushangqu，dangeiwodehaishiyigehuhudedongxi，yaoyongdehuahaidezhongxinzaigaoyibian。

我們當時覺得 Unique 3D 放出去，至少會優於其他開源模型，並且大家都可以線上免費用，應該能火。不出所料，Unique 3D 迅速在各個平台火起來了，在 Hugging Face 上我們上了周榜，直到現在還掛在所有 demo 的首頁上。

我經常去看 Hugging Face 上的模型，它會顯示有多少個人同時在跑，Unique 3D 基本上每分每秒都同時有六、七個人在跑，包括我們自己的後台也是。除了開源代碼之外，我們還給大家提供了很多種使用方式。如果在外網，Hugging Face 會比較好用，在國內，我們還提供了一些 Gradio 網站的 demo，基本沒有不排隊的時候，後台服務器就沒停過，使用量也非常多，甚至很多人自發給我們做 ComfyUI 的插件，大家覺得這個項目挺好，會幫我們修一點小 bug ，還幫我們寫更明確的安裝指南。

張金：咱們的產品還被 Gradio 在海外媒體上提名為“best image-to-3d model”（最佳圖片生成3D模型）。April 當時怎麼想到要做這樣一個產品，技術、產品化的路徑是怎樣的？

April：Unique 3D 被bei大da家jia說shuo效xiao果guo好hao，是shi因yin為wei我wo們men確que實shi實shi現xian了le目mu前qian最zui高gao可ke用yong的de精jing度du，我wo們men當dang時shi設she計ji算suan法fa框kuang架jia時shi就jiu非fei常chang強qiang調tiao和he輸shu入ru的de圖tu像xiang完wan全quan一yi致zhi，比bi如ru從cong正zheng麵mian看kan是shi像xiang素su級ji的de一yi致zhi，從cong其qi他ta多duo個ge視shi角jiao看kan，一yi致zhi性xing也ye非fei常chang高gao，所suo以yi很hen多duo用yong戶hu說shuo這zhe是shi寫xie真zhen級ji 3D。此外，它又具有很好的泛化性，比如你給它一個真人圖像，它可以生成一個非常寫實的虛擬頭像；你給它一個手繪風格的，它也可以進行比較好的還原。現在很多用戶會用 Midjourney 生成圖，再進一步把 2D 的設計變成 3D 的，而用 Unique 3D 直接就可以圖生 3D，這也讓我們比較適合用於數字媒體、動畫等等領域。

很多用戶是 IP 設計師，之前他們可能就是交付一些三視圖，但現在他直接把正視圖輸進來，就會生成一個 3D 模型，可以更全麵地去預覽設計。甚至還有做實物電商的，他們也會把電商的設計圖輸進去，得到一個商品。

張金：現在已經有初步的商用了。

April：對，這些內容是挺適合商用的。IP 設計、動畫以及電商渲染都是商用性很強的場景，也比較好做 3D 商業化的內容，甚至很多博主會直接在新媒體平台上接一些商業化的項目。

我自己使用 Unique 3D 的時候也常覺得驚豔，比如它把圖像升級成三維，或者卡設計圖方麵做得非常好。我之前做 3D 模型找建模師，他們做的一個事情叫卡圖，就是在建 3D 模型時會把 2D 參考圖放在後麵，然後一筆一筆卡，保證模型和設計圖一致，但其實再怎麼卡，都有點不那麼一致。但我反而發現 AI 在這點上完全超越人類建模師。我自己會熟練地用那些建模的軟件，但用過 Unique 3D，感覺自己之前都白做了。

張金：用戶的消費門檻、使用的場景，其實都是拓寬了。

April：我們之所以會直接開源這一版算法，也是希望先有更多用戶可以用起來。我們還是想找一些 3D 的新場景，比如像 4D 動畫，所以還不如拿開源的影響力去做社群，或者進一步的應用場景。

張金：咱們團隊首先提出了 ISOMER 算法，直接基於 Mesh 進行 3D 重建，凱路能給我們具體講講這個算法的技術難度和壁壘嗎？

吳凱路：按照現有的方法，大多數人都是選擇先重建一個比如符號距離場(Signed Distance Field，SDF) ，或者別的比較好優化的東西，然後再提取 Mesh，但這是非常困難的，這麼多年都沒有做到非常好的效果。所以，我們如果要生成一個非常好的 Mesh，肯定不能走這條路，因為一定會被限製住。

隻有 Mesh 才能導入到 Blender 或者各種製作軟件裏，才能夠真正落到商用，那我們就不如就直接重建 Mesh，bazhegejihedejiegougeitazhongjianqilai。zuizaoyouyixiechangshi，weishenmemeiyouzuochulaine？zhezhongbanfazuidadekunnanzaiyujiyudianmiandemianjishiyigegaoduchouxiangdedongxi，duitajinxingkeweiyouhua（differentiable optimization）是很難調好的事兒，需要設計各種各樣的方式去做限製，整個優化過程並不像用 SDF、NeRF 和 3D 高斯那樣直觀。

但其實，我們隻需要去最小化 loss，然後去做梯度（gradients）、傳播（propagation），就能把這個東西給求出來。你要想清楚 Mesh 優化的每一步中，它的每一個 loss 的最終影響會是什麼樣，不能無腦寫一些損失函數，然後讓它去最小化損失函數，要在大腦裏模擬這東西到底梯度回傳（gradient backpropagation，可微分優化過程的一部分，在訓練和優化深度學習模型時發揮著關鍵作用）之後，它對於每個點、每個麵、梯度大概會是什麼樣的作用？Mesh 會如何形變？比如我們之前就會有很多調得沒有那麼好的版本，有各種各樣的問題。我就會去思考問題到底是怎麼產生的？

過程中，我們確實發現一些非常直觀的損失函數，它很難達成我們期望的效果，看起來很對，但仔細想想它是梯度修造（gradient crafting）出來的東西，並不能幫你完成 3D 重zhong建jian，反fan而er可ke能neng會hui破po壞huai你ni的de重zhong建jian結jie果guo。我wo們men大da概gai搜sou了le上shang千qian個ge組zu合he之zhi後hou，得de到dao十shi幾ji個ge相xiang對dui好hao的de組zu合he，接jie著zhe在zai不bu同tong情qing況kuang下xia測ce試shi之zhi後hou，又you選xuan擇ze其qi中zhong一yi些xie相xiang對dui合he理li以yi及ji效xiao果guo也ye比bi較jiao好hao的de組zu合he，作zuo為wei我wo們men最zui終zhong優you化hua迭die代dai的de目mu標biao。

張金：凱路在聊技術強項的時候眼裏都發光了，AVAR 的員工一直非常精煉，團隊如何協作？尤其在攻克一些技術難題的時候，大公司會調用一整個團隊，你們如何解決呢？

April：現在 3D 和 4D 的研究方向都非常新，很多研究員可能還是在讀的博士生，我們會直接和他們合作。我們接下來會做更多模態的算法，會結合 3D 視頻圖形學的能力，然後在下一階段根據這些多模態的需求擴一些團隊。但現在我們合作的研究員以及一些像 CG 的藝術家比較多，因為發現很多AI 公司可能也不需要那麼多 in-house 的設計人員或者運營人員，我們反而會直接和藝術家或者設計方向的博主合作。

張金：距離 April 創業已經有一年半左右了，你作為一個 00 後的老板，在管理或者組織能力上有什麼變化嗎？

April：yinweiwodenenglihaibijiaoquanzhan，suoyizuizaokaishichuangyedeshihouhenduoshiqingwodouhuixianzijizuo。zaichuangyechushijieduan，wofaxianzhaopinyigeren，dajiaruguozhishilaodonglixingzhidehezuo，hennanchanshengzhenzhengchuangyeshangdehezuoxiaoyi。danzuijingongsidequanzhituandui，huozheshiwomenshenduhezuodeyixieyanjiuyuanheyishujia，nengmingxianganjiaodaodajiabijiaohubu，gongzuoduibicidouhenyoujiazhi，you 1 + 1 大於 2 的感覺。隻有和每個工作夥伴建立這種關係，大家的合作才會比較長期。

wozijibijiaodadebianhua，zuizaogengduoshicongpiangerendechuangzaoliyichufa，xiangquzuoshenmechanpin，zhongjianjinglileyuanyuzhoubijiaohuodeshihou，kenengbijiaorongyigenzheshichangdebianhuazuotiaozheng。danwomenxianzaizhaodaoyigedaolu——既在市場中有明確價值，又是團隊和市場需求，以及能跟新的趨勢相契合。

張金：April 和凱路都是技術派，你們會有一些路線之爭或者分歧嗎？

April：倒不會有嚴格的分歧，但確實對於技術有完全不同的視角。凱路對 AI 非常熟悉，包括像 NeRF，但他最早了解 3D 是從神經渲染（Neural Rendering，是指使用深度學習模型來生成圖像的過程，這些模型能夠學習場景的表示並從不同的視角渲染出新的圖像）來的，我了解 3D 是從經典圖形學以及怎麼實際應用來的。所以，我經常想出來的一些 idea 需要和 AI 算法結合，這樣會 work 得更好。

吳凱路：我們各有所長。比如 April 知道該如何去建模，非常明確逐步的解決路徑是怎樣的，而我更多是一種純 AI 的思維，更多是一種數據驅動，我們會結合經典圖形學的算法，或者建模師經典會用的操作。

張金：現在海外的 3D 生成，包括你們未來要做的 4D 生成，已經有一些公司嶄露頭角了，你們心中有對標嗎？

吳凱路：目前我們並沒有看到國內或者海外任何一家能夠做到純 AI 的動畫生成，AI 3D 建模到 AI 動作，再到 AI 渲染。既然都沒有人做，為什麼不做全球呢？反正代碼都是寫一套，可以多賣幾個市場。

April：在 AI 行業，遊戲定位、 4D 級定位動畫應該在全球都是比較新的，所以我們叫 Unique 3D。如果要對標，我們在做的就是用 AIGC 實現皮克斯。

張金：很浪漫的一個目標。

April：最早是皮克斯創始人提出了現在三維動畫的算法，比如 Mesh 的曲麵表示、材cai質zhi貼tie圖tu，但dan他ta們men一yi開kai始shi直zhi接jie賣mai圖tu形xing學xue硬ying件jian或huo渲xuan染ran軟ruan件jian並bing不bu賺zhuan錢qian。後hou來lai，他ta們men用yong端duan到dao端duan的de技ji術shu去qu生sheng成cheng內nei容rong，做zuo動dong畫hua的de反fan響xiang非fei常chang好hao，正zheng是shi因yin為wei動dong畫hua的de成cheng功gong，皮pi克ke斯si後hou來lai被bei迪di士shi尼ni收shou購gou。我wo們men想xiang做zuo的de事shi情qing也ye是shi技ji術shu結jie合he藝yi術shu，皮pi克ke斯si在zai圖tu形xing學xue方fang麵mian做zuo得de很hen好hao，拿na了le圖tu靈ling獎jiang，動dong畫hua也ye拿na了le很hen多duo奧ao斯si卡ka，說shuo明ming C 端對於動畫，或者偏虛擬化、數字化的內容還是有需求的，而我們會在 AIGC 時代來做這個事情。

張金：所以像皮克斯這樣大的動畫內容公司，技術生成方案也可能會用到咱們的產品。

April：現xian在zai已yi經jing有you一yi些xie做zuo影ying視shi特te效xiao或huo者zhe動dong畫hua的de上shang市shi公gong司si和he我wo們men合he作zuo，他ta們men可ke以yi導dao出chu三san維wei模mo型xing，或huo者zhe骨gu骼ge數shu據ju之zhi類lei的de。相xiang當dang於yu在zai傳chuan統tong的de工gong業ye環huan境jing裏li麵mian降jiang本ben增zeng效xiao，但dan這zhe個ge市shi場chang不bu會hui很hen大da。

所以我覺得不如直接做一個新的工作流，相當於我們現在在做的這個產品在雲端，就能自動實現整個 AI 動畫的流程。之前有很多 C 端的創作者不做動畫，是因為自己人工做動畫的成本太高了。這是一個 general 的需求，隻要能真的用 AI 端實現，其實就可以擴展出很多新的應用場景，或者大家一起創造出很多新的內容。

張金：所以用新的工作流的可能是一些新公司，它們有非常好的故事創意 idea，但製作能力沒那麼強，就可以用咱們的產品去更好地展示出自己的內容。

April：或者就是一些個人創作者、幾個朋友一起做的 studio ，現xian在zai不bu隻zhi是shi內nei容rong製zhi作zuo，內nei容rong分fen發fa也ye完wan全quan換huan了le形xing式shi。像xiang皮pi克ke斯si因yin為wei是shi第di一yi個ge能neng做zuo動dong畫hua長chang片pian的de，那na時shi候hou走zou的de還hai是shi院yuan線xian影ying視shi的de路lu線xian，但dan現xian在zai很hen多duo設she計ji師shi、創作師都想在新媒體創作，他們更需要把自己的作品變成一個動態的內容，這樣才會有更好的曝光。包括很多人想做自己的IP，會有類似於原創角色的需求，他們可能已經不滿足於隻是去看一些影視作品裏才有的角色。

張金：咱們的場景和消費者都非常有想象力，因為這是一套全新的製作方式，也是一個全新的分發展示的平台。

April：我覺得好處是可以在 C 端規模化，我們的用戶大概分四個階段：首先是本來就會 3D 的藝術家，用戶量大概數百萬；下一階段是數字媒體的創作者，比如他需要更新短視頻、發動畫，可能之前隻是一個 2D 設計師想升級到3D，這一類用戶應該是有千萬級，Midjourney 都已經有千萬用戶了，我們很多用戶可能就是拿 Midjourney 生圖、生模型、生動畫；再往後就是類似於偏設計創作類的需求；再下一個，類似於 “Prosumer”（Producer（生產者）和Consumer（消費者）的結合體），會做那些同人創作原創角色的人，比如對喜歡的遊戲動畫類角色，他會自己再做二創、寫故事，這個成本很高，甚至他們都會找人做 live2D 的動畫。

張金：你提到的這些或者未來更多群體，是會做矩陣產品還是一體化產品來滿足他們？

April：其實就是一個一體化的產品，交互會盡量端到端，比如用戶輸入腳本分鏡，它就可以生成 3D 動畫，因為每一個組件可以下載，你也可以再導回自己的工作流修改，它是兼容的，但我們也會給他直接提供一個新的工作流。

張金：現在 VR 或者 XR 發展非常迅速，咱們以後會在這些新的硬件裏麵有不一樣的展示，或者提供給開發者專門的產品嗎？你們在 Vision Pro 或者其他一些新的眼鏡硬件產品裏會做一些打板的內容嗎？

April：這一類 3D 內容的好處就是做動畫可以被渲染成視頻，在新媒體上傳播，同時它也相當於空間視頻，或者有三維原生數據，可以兼容到下一代的 Vision Pro 裏。前幾天我體驗了迪士尼在 Vision Pro 裏的一個應用，把部分經典的 IP 動畫做成三維原生版，完全是一個空間視頻，某個角色可能突然跳到你麵前跟你說話，這確實是下一代的內容。

我們還是會關注內容本身，不完全局限在哪個平台。我們現在的格式，可以導出成 3D 原生，也可以渲染，但主要還是先讓創作者來用。

張金：接下來關於 3D 生成產品，包括未來 4D 的發展，在技術路線或產品係列上，怎麼考慮 ChatGPT 呢？

April：產品係列上，我們會把算法做得更多模態一點，比如上了 3D 生成、360 度的全景生成，其實還可以讓生成的模型進入全景中，做組合式的渲染。接下來我們主要還會給 3D 的模型加時間軸，讓它們可以生成動畫。此外，我們也會基於骨骼動畫生成，直接訓一些頂點動畫（vertex animation，指的是通過改變3D模型頂點的位置來實現動畫效果的過程）的方案，通過 AI 增強畫質，保證渲染的質量。

張金：接下來還有哪些需要團隊攻克的技術難點？

April：還是 4D fangmian，yaotongshibafanhuaxingheyundongdejingdudouzuohao，shijiexialaiyigezhongdiantiaozhan。xianzairuguowomenzhizuorenwuleixinghuozhejinsirendedonghua，qishiyijingkeyishengchengbijiaohaodegugedonghua，danruguoxiangyaobaozhengfanhuaxing，jiushirenyiyigewutiwomendoukeyizuodonghua，xuyaoyougengfanhuadeshuju，baokuokenengzaisuanfacengmianyaochuangxin。

吳凱路：從技術上講，最難的反而是物體和物體的交互，相當於生成了一隻貓、yitiaogou，danzenmeshengchengmaohegouzaidajia。xianzaiwomenqishiyijingshoujilejishiwandeshuju，xunlianleyigechubudemoxingchulai，keyizuojiandandiandejiaohu，biruzhegerenwunengnagepingzi、能走能坐，等到簡單版能用之後就可以上線，用戶使用時會把一些生成不合理的東西給踢掉，這樣我們就可以進一步累積數據，因為 4D 動(dong)畫(hua)數(shu)據(ju)是(shi)非(fei)常(chang)少(shao)的(de)，獲(huo)取(qu)難(nan)度(du)也(ye)很(hen)高(gao)，所(suo)以(yi)我(wo)們(men)還(hai)是(shi)會(hui)更(geng)傾(qing)向(xiang)於(yu)從(cong)一(yi)些(xie)動(dong)畫(hua)數(shu)據(ju)中(zhong)去(qu)還(hai)原(yuan)，因(yin)為(wei)動(dong)畫(hua)數(shu)據(ju)運(yun)動(dong)和(he)幾(ji)何(he)結(jie)構(gou)都(dou)更(geng)加(jia)明(ming)確(que)，有(you)助(zhu)於(yu)機(ji)器(qi)學(xue)習(xi)模(mo)型(xing)學(xue)到(dao)相(xiang)對(dui)合(he)理(li)的(de)初(chu)始(shi)知(zhi)識(shi)。

因(yin)為(wei)本(ben)質(zhi)上(shang)機(ji)器(qi)學(xue)習(xi)模(mo)型(xing)是(shi)數(shu)據(ju)驅(qu)動(dong)的(de)，模(mo)型(xing)會(hui)自(zi)己(ji)試(shi)圖(tu)在(zai)數(shu)據(ju)裏(li)尋(xun)找(zhao)一(yi)些(xie)知(zhi)識(shi)，如(ru)果(guo)是(shi)拿(na)動(dong)畫(hua)數(shu)據(ju)去(qu)訓(xun)練(lian)，它(ta)能(neng)夠(gou)非(fei)常(chang)清(qing)楚(chu)知(zhi)道(dao)哪(na)個(ge)東(dong)西(xi)在(zai)怎(zen)麼(me)動(dong)，從(cong)而(er)學(xue)到(dao)一(yi)些(xie)更(geng)加(jia)正(zheng)確(que)的(de)概(gai)念(nian)。

張金：3D 尤其 4D 更缺數據集，你提到用動畫數據還原，你們有一些相對獨有的訓練數據獲取渠道嗎？

吳凱路：因為我們之前有做一些搭建，自動化渲染管線、基於程序建模的動畫生成管線也都有，所以能在一定程度上彌補數據的不足。其實比起 3D，我們覺得 4D 數據可能需求量反而沒那麼大。因為 4D 核心關注物體怎麼動，比如不同的貓、狗，它的動法基本一樣，但不同的貓、狗，要把它畫出來，顏色、建模出來的形態是有很大差別的，但在運動規律上是高度相同的。從這個角度來看，4D 數據其實不一定要那麼多，就能得到一個相對不錯的效果就行。

April：huozheshuoganjiaobutongsuanfaxuyaodeshujuyetingbuyiyangde。ruguojieheyixieshipinshijiaodemoxingquzuo，kenengtajiuhuiyouyixiefanhuaxing。ruguonixundeshileisiyugugezhegemotai，jiuxiangrentidegugeyejiunameduoguanjiedian，taqishiduishujudexuqiuyemeiyounameda，jiukanniyongnazhongsuanfa。

張金：我們生成的3D、4D 內容，除了在一些 VR、XR 設備裏，還會存在哪種形式的展現平台上呢？商業化可能會是怎樣的？

April：我們現在關注的應用領域還是數字媒體，就是渲染成動畫，或者作為視頻，隻是它比起 AI 視頻，會有更好的角色、場景的一致性，以及可以渲染更長的視頻的，讓角色有比較精準可控的表達表演。像這一類場景，我們會更關注 2C 一點，隻要讓用戶創作之後，都願意繼續分享到新媒體平台。

張金：有沒有可能以後會有一個3D、 4D 的抖音？或者是專門承載這種新格式內容的平台？

April：我覺得是有機會的，但關鍵在於 MR 到來之前，你就已經有了一個很大的內容矩陣，這樣可以遷移到下一代 MR 平台。其實現在各種 MR 設備都在找新的內容，如果這些內容既可以在新媒體互聯網上積累流量，又可以在 MR 中有一個更好的呈現，我覺得是有機會的。但我自己覺得這個東西很難做，如果就是一個 2D 或者視頻的內容，也很難在MR 那邊形成一個新平台。

張金：那你覺得時間可能會是多久呢？

April：我們現在想做的 AI 生成動畫 IP 這個事情，其實這幾年就會比較 ready。birujinniandemubiao，zhishaohuishengchengkouboshipinhenazhongdanjiaosededonghuashipin，zhelianggekendingshikeyiluodide，bingqiezhiyaozuole，zaixinmeitipingtai，wulunchuangzuozhehaishixiaofeizhe，douhuiyouyigehenhaodeshujufankui，womenhuixianjileizheyibufen，jiexialaijiushikan MR 的成熟。我自己用 Vision Pro 的體驗確實比之前的要好，漫威、迪士尼也是主打多元宇宙的概念，你在裏麵可以和各類超級英雄的 IP 互動，確實還挺下一代的。

張金：所以這個“ChatGPT 時刻”可能會很快到來。

April：反正會比預想的快，就像我們2023年在做 3D 生成的時候，大家都覺得可能還要三五年你的這個精度才可用，但現在要單說模型的效果質量，我覺得其實已經可商用了。隻是3D 領域還是要擴展一些應用場景，現在的問題是你不能直接給別人分享一個 3D 文件，對方收到也打不開。所以我們很關注它是否能被渲染成動畫，因為這樣才可以分享和傳播。

張金：哪些挑戰是沒有辦法在這一兩年內解決的呢？

April：首先是 4D 更泛化性和更高精度的生成，還有就是 3D 的多模態之間的交互。這兩個領域包括學術上也都還算是在探索。

張金：目前大家都在摸索，沒有一個 Benchmark 去做成效的對比，那在研究的過程中，你們怎麼去看自己的進度是否是領先的？或者路線有沒有出現偏差？

吳凱路：目前整個 3D 和 4D 生(sheng)成(cheng)領(ling)域(yu)，更(geng)多(duo)是(shi)偏(pian)相(xiang)對(dui)主(zhu)觀(guan)的(de)評(ping)價(jia)，說(shuo)白(bai)了(le)拿(na)著(zhe)你(ni)的(de)模(mo)型(xing)的(de)效(xiao)果(guo)和(he)別(bie)人(ren)模(mo)型(xing)效(xiao)果(guo)測(ce)一(yi)下(xia)，其(qi)實(shi)你(ni)自(zi)己(ji)心(xin)裏(li)就(jiu)有(you)數(shu)了(le)。雖(sui)然(ran)在(zai)論(lun)文(wen)上(shang)大(da)家(jia)會(hui)用(yong)很(hen)多(duo)非(fei)常(chang)客(ke)觀(guan)的(de)指(zhi)標(biao)，但(dan)其(qi)實(shi)可(ke)能(neng)指(zhi)標(biao)上(shang)領(ling)先(xian)一(yi)些(xie)，看(kan)起(qi)來(lai)使(shi)用(yong)起(qi)來(lai)感(gan)受(shou)卻(que)不(bu)一(yi)樣(yang)。我(wo)們(men)能(neng)直(zhi)接(jie)接(jie)觸(chu)到(dao)很(hen)多(duo) 3D 或者動畫的設計師，他們能給出很好的評價，還是要更多貼近真正的使用者，讓他們來評判好不好。

張金：那就需要你們跟這些創作者，算是小 B 端經常去做溝通和測試。

吳凱路：所以我覺得雅婷能組好這樣一個團隊非常重要，因為裏麵有做 4D 動畫非常厲害的創作者，我們基本每周會線下溝通一次，看看他們的想法和建議。

張金：在 3D 和 4D 生成領域，AVAR 作為中國頭部的團隊，和海外，尤其美國頂尖的學者團隊會存在一定的差距嗎？還是說大家其實現在是在同一條起跑線上？

吳凱路：整zheng體ti來lai講jiang差cha不bu多duo，而er且qie最zui近jin一yi年nian，在zai學xue術shu領ling域yu，很hen多duo更geng重zhong要yao的de工gong作zuo基ji本ben都dou是shi國guo內nei的de學xue校xiao在zai發fa文wen章zhang，海hai外wai反fan而er缺que少shao一yi些xie創chuang新xin性xing，竟jing然ran還hai有you人ren在zai做zuo SDS。國內公司反而能讓大家眼前一亮。

張金：海外為什麼反而會落後一些呢？

April：我們今天還和一個投資人在聊，總結下來就是很多 AI 大模型的方向，總體還是算力驅動，或者是偏算力大於數據、大於算法，就導致這種方向可能美國會更有優勢。但 3D 方向，現在完全是算法大於數據、大da於yu算suan力li。其qi實shi很hen多duo學xue術shu上shang的de創chuang新xin工gong作zuo也ye是shi華hua人ren在zai提ti出chu，就jiu像xiang當dang時shi算suan法fa競jing賽sai的de時shi候hou，可ke能neng中zhong國guo隊dui的de成cheng績ji都dou會hui比bi美mei國guo隊dui好hao。像xiang算suan法fa尤you其qi是shi我wo們men做zuo這zhe種zhong偏pian圖tu形xing學xue的de多duo模mo態tai，包bao括kuo偏pian工gong程cheng上shang的de事shi情qing，華hua人ren可ke能neng會hui更geng強qiang。

吳凱路：確實是這樣，全球算法競賽，基本上就是中國隊可能包攬前四，接著後麵就是美國隊，然後美國隊清一色講中文，都是華裔。

張金：所以在算法才能上，中國團隊其實是非常占優勢的，人才密度也非常集中。

咱zan們men會hui考kao慮lv在zai海hai外wai設she立li一yi個ge分fen公gong司si嗎ma？因yin為wei剛gang剛gang提ti到dao海hai外wai有you非fei常chang多duo的de創chuang作zuo者zhe需xu要yao我wo們men的de產chan品pin，可ke能neng那na邊bian也ye需xu要yao運yun營ying的de團tuan隊dui去qu滿man足zu他ta們men的de一yi些xie需xu求qiu。

April：我們現在定位是 global 的(de)，目(mu)前(qian)我(wo)們(men)海(hai)外(wai)用(yong)戶(hu)也(ye)比(bi)國(guo)內(nei)用(yong)戶(hu)多(duo)一(yi)點(dian)。中(zhong)國(guo)團(tuan)隊(dui)可(ke)能(neng)運(yun)營(ying)能(neng)力(li)更(geng)強(qiang)一(yi)點(dian)，最(zui)終(zhong)做(zuo)內(nei)容(rong)，其(qi)實(shi)也(ye)挺(ting)拚(pin)運(yun)營(ying)能(neng)力(li)的(de)。我(wo)們(men)現(xian)在(zai)也(ye)會(hui)把(ba)一(yi)些(xie)特(te)效(xiao)的(de)流(liu)程(cheng)自(zi)動(dong)化(hua)，在(zai) TikTok 和 Snapchat 中都有 AR 特效，我看到過一個分析認為 TikTok 的運營能力比 Snapchat 要強很多，所以特效內容可能華人背景的團隊也可以做得更好。

張金：你們在分析這些用戶的需求上會發現什麼有意思的嗎？

April：確實在後台發現很多角色二創的，也有傳自己的真人照片、設計的 IP，我們現在會更關注偏原創角色或者 IP 設計的場景，因為這一類模型，比起做遊戲道具或普通的靜態模型，IP shuxingdemoxingjiexialaihuigengyouchuangzaoliheshengmingli。hezheyileiyonghuliaoshifaxian，tamenyehuixiwangtadejiaosenengjinyibuzuochengdonghua，jiaodezheshibijiaoyoushengminglideyizhongcunzai。womenjiexialaiyehuigengguanzhuzhegechangjingdeyixiechuangzuo。

張金：我聽到有用戶把咱們比作中國的“Luma AI”。

April：我感覺 Luma AI 和我們都是基於 3D 的算法在做，它們可能會更偏 3D 高斯，最終導出視頻的模態，這樣比較容易擴用戶場景，這個思路是比較一致的。但不同的是，它們是基於 3D 高斯表示的，3D 高斯在還原一些真實場景可能會占優一點。我們是基於 Mesh 表示的，更多地結合一些圖形學動畫的工作流，所以我們角色的可控性和可編輯性會更強，更適合風格化創作的場景。

張金：大家走不同路線，它們可能是美國的“AVAR”。未來你們希望做成一家什麼樣的公司？

April：我希望是“年輕版皮克斯”，能用 AI 實現 4D 動畫，或者是 AI 讓每個人都能像皮克斯一樣去創作這些 IP 和he動dong畫hua，這zhe對dui我wo們men來lai說shuo已yi經jing是shi一yi件jian很hen宏hong大da的de事shi情qing了le。當dang初chu皮pi克ke斯si要yao完wan全quan用yong計ji算suan機ji做zuo整zheng個ge電dian影ying的de時shi候hou，他ta們men雖sui然ran覺jiao得de這zhe是shi一yi個ge十shi年nian的de命ming題ti，但dan依yi然ran要yao完wan成cheng。我wo們men要yao用yong AI 重塑整個流程，可能也需要這樣一個時間。

張金：我們起步早，畢竟都是 00 後團隊，十年後也才 30 來歲。

吳凱路：我說點更實在的，希望三年後我們的用戶量能夠突破 300 萬，畢竟視頻受眾廣泛，自媒體用戶也非常多，這個目標應該還算保守。同時也希望進一步推動大家能比較輕鬆、便捷地創造動畫的內容，進而訓練出一些關於空間智能的模型，能有助於機器人的發展。

張金：我明白了為什麼你們搭配得那麼好，因為 CEO 負責說公司願景，CTO 負責說技術目標，非常互補。對 AI 生成非常感興趣的聽眾，如何使用你們的產品呢？

April：可以直接在瀏覽器輸入域名（https://aiuni.ai），目前還在內測，登錄進去有我們各種社群的聯係方式。小紅書也有很多活躍用戶和社群。

張金：今天的播客「牛白丁」錄製就到這裏，謝謝 April 和凱路來做客。如果聽眾朋友們對AVAR 有任何興趣，或者有想進一步了解的話題，也可以反饋給華創。

謝謝大家。

分享到：