來源:中國新聞周刊 發(fā)布時間:2024-3-18 10:57
中國新聞周刊記者 王詩涵
發(fā)于2024.3.18總第1132期《中國新聞周刊》雜志
Sora橫空出世的當夜,AI圈集體失眠。有人認為這是“降維打擊”,也有人樂壞了。
“我們特別開心。過去的一年,我們始終堅信視頻生成是件大事,認為它會對整個世界產(chǎn)生巨大沖擊和影響,但是沒有多少人信我們,我們花費了很多唇舌去教育市場!睈墼娍萍紕(chuàng)始人、CEO王長虎對《中國新聞周刊》說。
距離OpenAI發(fā)布Sora已近一個月,中國玩家當前表現(xiàn)如何?據(jù)不完全統(tǒng)計,至少已有15家中國大廠和創(chuàng)業(yè)公司陸續(xù)推出了AI視頻工具,其中有諸多產(chǎn)品已面向全球市場發(fā)行。
涉及Sora核心技術的相關論文,早在2022年就已發(fā)布。Sora出現(xiàn)前,視頻生成領域投資環(huán)境的冷遇已久;Sora出現(xiàn)后,創(chuàng)業(yè)者們在驗證技術信仰的同時,也將面臨更殘酷的市場競爭。與此同時,AI創(chuàng)投圈對大模型的觀點爭論仍在持續(xù),興奮與謹慎的心態(tài)始終交織。
但顯然,AI視頻的融資風口期已經(jīng)到來了。3月11日,愛詩科技宣布完成億級人民幣A1輪融資,由達晨財智領投;同時國內(nèi)版文生視頻產(chǎn)品“愛詩視頻大模型”上線內(nèi)測。
“作為最前沿的探索者,要嘗試很多技術路線,Sora的出現(xiàn)減少了我們的試錯成本!蓖蹰L虎說道。
在受訪者看來,當規(guī)模定律成為行業(yè)的公開秘密,文生視頻大模型的競賽也變成了“明牌游戲”,在未來,是否能持續(xù)具備足夠的資源,將成為牌桌上的重要籌碼。接下來留給中國企業(yè)的最大未知數(shù)在于:中國的大廠和創(chuàng)新企業(yè),誰能跑出中國Sora?誰最有希望成為這條賽道上的頭部企業(yè)?
創(chuàng)業(yè)者們的技術信仰被驗證了
在眾多創(chuàng)業(yè)者眼里,繼ChatGPT后,Sora再次開啟了人類通往AGI(通用人工智能)道路的一扇門。
“AI本質(zhì)上是創(chuàng)造另一個生命和文明,人類正處于創(chuàng)造它的前夜。Sora意味著人類可能剛找到它的眼睛,嘗試著把它拼上去。”創(chuàng)業(yè)者Max向《中國新聞周刊》解釋,具備自我意識的AGI需要多模態(tài),目前,相較于語言模型的讀寫能力,AI在“眼睛(圖像視頻)”和“耳朵(音頻)”兩方面的發(fā)展相對滯后。
北京時間2月16日凌晨,OpenAI發(fā)布文生視頻大模型Sora,樣片顯示出Sora在基本視頻生成、多模態(tài)生成、視頻編輯、世界模擬等能力項上的超越式成果,也驗證了時空編碼(spacetime patches)和DiT模型(Diffusion與Transformer模型結(jié)合)技術路線的成功。
帶來“降維打擊”的Sora,樹立了文生視頻大模型領域的技術標桿,引發(fā)市場關注的同時,也將加速視頻生成賽道的技術發(fā)展與產(chǎn)品進度。對于創(chuàng)業(yè)團隊來說,則意味著此前苦苦堅持的技術信仰得以驗證。
“此前,用戶數(shù)量的快速增長已經(jīng)讓我們感知到了判斷的正確,Sora再添了一把火,更加驗證了我們一開始的信仰!蓖蹰L虎感嘆。
Sora發(fā)布的同一晚,谷歌也發(fā)布了多模態(tài)AI大模型Gemini,可實現(xiàn)100萬token(詞元)上下文能力!拔耶敃r很激動。兩個消息一起出來,說明規(guī)模定律還在起作用。我們不知道大模型明年還會跳到什么樣,但只要繼續(xù)成長,對投資人都是一種利好,我們手里項目的能力會更強,可以做更多的事情!狈迦鹳Y本投資合伙人陳石回憶道。
規(guī)模定律是屬于OpenAI的“暴力美學”。從語言模型到多模態(tài)模型,OpenAI相信scale(規(guī)模)的力量,認為遵循“大模型、大數(shù)據(jù)、大算力”的法則,模型性能會持續(xù)提升,根據(jù)特定算法,則產(chǎn)生智能“涌現(xiàn)”的能力。
在過去,在AI領域,創(chuàng)業(yè)的門檻和難度高于其他賽道:海內(nèi)外的無數(shù)創(chuàng)業(yè)者不懈地在這一領域堆疊技術與靈感,尋找技術理想與商業(yè)可能的交匯點,他們隨時可能向世界突然丟下一顆炸彈,再度引爆一場顛覆性的科技革命。
而當下,這些“炸彈”來得更密集和猛烈了。
“這輪AI行情有個突出的特點,就是‘天底下沒有秘密’!标愂硎荆瑥腉PT-3、GPT-3.5到GPT-4以及Sora,產(chǎn)品發(fā)布不久后,其原理和算法很快就被大致猜中或主動公開,最后都歸因于規(guī)模定律,而這并不具備強大壁壘,前提是有錢買GPU卡,也需要人才、數(shù)據(jù)和工程方面的積累。
此前,海內(nèi)外大廠與創(chuàng)企已經(jīng)跑出諸多AI視頻大模型產(chǎn)品。海外團隊方面,有Runway的Gen-1和2、Pika Labs的Pika、Stability AI的Stable Video Diffusion、Meta的Emu Video、李飛飛團隊和谷歌合作的W.A.L.T等。國內(nèi)創(chuàng)企方面,則有愛詩科技的PixVerse、MewXAI的藝映AI、右腦科技的Vega AI等;國內(nèi)大廠則有阿里、百度、騰訊、字節(jié)等入局。
可預見的是,接下來這場“明牌游戲”里,AI視頻大模型的競爭也將愈加“殘酷”!按蠹叶家庾R到需要更多的資源,留在牌桌上的價碼越來越高。在前一階段未能及時拿到融資的團隊,未必就有機會留下了!蓖蹰L虎說。
陳石認為,當前,做大模型的公司需要重新思考定位:倘若繼續(xù)探索基礎引擎,需要在跟隨技術路線的同時找到與Sora不同的切入點;倘若轉(zhuǎn)向垂類模型或商業(yè)應用場景,則需要構建自己的技術壁壘或業(yè)務壁壘。
“投不投大模型?”
“去年成立團隊的時候,整個投資環(huán)境對視頻生成沒有太大信心。我們把嘴皮子磨破后發(fā)現(xiàn),想說服投資人很不容易,很少的投資人認可并投入了我們。Sora出來之后,我們也有遺憾,如果在過去一年拿到了更多的資源,也許Sora會是我們自己做出來的。”王長虎坦言。
“投不投大模型?”或是2023年甚至2022年以來投資人們一直在思考的問題。而投資觀點的分野,并未在Sora出現(xiàn)后發(fā)生改變。近日,騰訊新聞《潛望》發(fā)布的兩篇人物訪談引起了AI創(chuàng)投圈的普遍共鳴,月之暗面創(chuàng)始人、CEO楊植麟和金沙江創(chuàng)投主管合伙人朱嘯虎的觀點,分別被認為是“技術信仰派”和“市場信仰派”的代表。
多家大模型初創(chuàng)企業(yè)公布自去年第二季度以來完成的融資信息。2023年4月,HiDream.ai智象未來完成種子輪融資,于12月完成由科大訊飛領投的天使輪融資。5月,Morph Studio完成數(shù)百萬美元種子輪融資,由BV百度風投單獨投資。6月,右腦科技完成數(shù)千萬元天使輪融資,由光速光合領投,奇績創(chuàng)壇等跟投。
新一輪融資已在今年加速。愛詩科技于去年8月完成數(shù)千萬元人民幣天使輪融資;今年3月11日,完成億級人民幣A1輪融資,由達晨財智領投。生數(shù)科技分別于去年6月和8月完成天使輪和天使+輪融資;今年3月12日,再完成新一輪數(shù)億元融資,由啟明創(chuàng)投領投,達泰資本、智譜AI、BV百度風投等繼續(xù)跟投。
“在一年前本次AI浪潮涌現(xiàn)之時,我們就相信AI視頻生成將成為新的巨大機會,斷定它將對內(nèi)容生產(chǎn)和消費的全部相關行業(yè)產(chǎn)生顛覆性的影響,中國也將涌現(xiàn)出具備奠基意義的AI產(chǎn)業(yè)企業(yè)!惫庠促Y本創(chuàng)始人、CEO鄭烜樂說。該機構參與了愛詩科技的早期孵化。
“當投資界不認為這是大事或能短期做成的時候,我們有自己信仰和堅信的東西。一年前倘若被不同的聲音所左右,我們做不出來PixVerse,也無法走到現(xiàn)在。”王長虎認為,“創(chuàng)業(yè)需要有長期的視角。創(chuàng)業(yè)者要做的,是非共識而正確的事!
但投資人有自己看問題的視角。由于每只基金的投向受到資金來源、項目退出和收益要求、現(xiàn)實情況等因素影響,投資人有各自的立場:大手筆投向大模型的仍是少數(shù),大多數(shù)投資人對模型層項目的態(tài)度相對謹慎,更傾向于尋找已經(jīng)找到或看到落地場景的應用端項目!白鐾ㄓ么竽P偷钠髽I(yè)在商業(yè)化上可能是很難找到合理路徑的,這一點連OpenAI自己都沒有解決!眲(chuàng)業(yè)者Max說道。
為此,創(chuàng)企都在尋找自己的路徑。以愛詩科技為例,公司在未來計劃分兩步走:在第一階段面向創(chuàng)作者,提供優(yōu)質(zhì)視頻生成服務,更好地理解創(chuàng)作者動機,同時直接面向用戶,接受用戶反饋進行迭代;在第二階段則面向消費者,在提供工具的基礎上,打通創(chuàng)作和消費全流程,提供AI原生的可消費內(nèi)容。
事實上,Sora類的底層通用大模型與應用層的垂類模型或應用之間的根本區(qū)別在于,前者是“0~1”,需要跨越科技進步的早期高門檻,專注核心技術的突破;后者則是“1~10”,是在通用大模型的基礎上找到具體的應用,更注重商業(yè)場景的認知與建設。
“去年我們看了很多文生圖、文生視頻、文生3D的項目,但通用大模型我們都沒有投。多模態(tài)的輸入輸出,看起來不一定是創(chuàng)業(yè)公司能做的,因為這是大模型公司的必經(jīng)之路!狈迦鹳Y本投資合伙人陳石回憶道。
Morning Trail Investment 合伙人周欣華則認為,大模型競爭激烈,用戶黏性低,壟斷可能性低而成本太高,還是重復造輪子,可能剛造出來就被迭代了!熬揞^扔出王炸、創(chuàng)企一夜團滅的情況并非第一次,往往會對創(chuàng)業(yè)項目和投資人帶來致命打擊。”她認為,Sora橫空出世,顯得Pika就很雞肋;而谷歌的Gemini 1.5、Meta楊立昆的V-JEPA架構、Stability AI的Stable Diffusion 3,也是當前潛在的Sora圍剿勢力。
“重復造輪子”后被迭代的高風險,是投資人對模型端的普遍擔憂。“最大的悲哀可能是,我們造輪子造出的閉源模型比不過別人的開源模型!标愂a充說道。
“要想在底層投資上走到最后,確實需要龐大的資金、人才和資源,資源則包括算力、數(shù)據(jù)和場景,所以硅谷大廠都在投大模型公司。在當前國內(nèi)的資本環(huán)境下,互聯(lián)網(wǎng)大廠或市場化VC基金都不一定能有做散財童子的底氣,很難在商業(yè)模式不清晰、投資成功概率不高的情況下把大模型投資進行到底!敝苄廊A說。
從大環(huán)境看,資本謹慎的趨勢已久。CVSource投中數(shù)據(jù)顯示,截至2024年2月,中國VC/PE市場投資規(guī)?傔_67.74億美元,同比下降28.83%;近3個月的投資案例數(shù)量和規(guī)模整體均呈現(xiàn)下跌趨勢。
不過,在創(chuàng)投寒冬中,AI領域的投資規(guī)模在細分領域中仍最為突出,在2月高達11.06億美元!癝ora的話題度引爆了關注,文生視頻的團隊普遍受到熱捧,但整體來講其他AI項目融資的難度可能還是和以前差不多。”創(chuàng)業(yè)者Max表示。
對于普通創(chuàng)業(yè)者來說,提高自身造血能力,存活下來是當前的首要目標!跋仍诓淮_定性中找到一些商業(yè)上的確定性,可以再去追求產(chǎn)品長遠的價值。在變動期,先上車是最重要的事情!蹦壳罢谧鯝I視頻創(chuàng)業(yè)項目的Fimmo分享道。
上述投資人都更傾向于看好商業(yè)模式清晰、落地場景明確的應用層項目。陳石表示,團隊投資的應用項目同商業(yè)實踐結(jié)合緊密,并具有自己的業(yè)務縱深。
“但是,當前很多應用層的項目用AI炫技的成分居多,可能觸及了用戶的癢點,卻不是痛點。”周欣華指出,在無法一步到位的情況下,一些過渡狀態(tài)可能存在機會。她總結(jié)了當前應用層項目的幾大優(yōu)勢方向:其一,商業(yè)場景用AI嵌入工作流,用AI參與過程,從而更容易落地項目;其二,善用大模型在用戶交互方面、小模型在私密性和垂直領域Know-how把握方面的優(yōu)勢,將大、小模型結(jié)合的垂類應用項目;其三,利用AI的能力,使出海拓展更加高效可行的項目。
“應用層項目還有一點利好在于,頭部的大模型還在追求AGI的星辰大海,暫時不會花過多時間去做過多的商業(yè)場景定制。”陳石分析,“因此,應用層創(chuàng)業(yè)者還是要找到自己的生態(tài)位,要跟大語言模型保持‘安全距離’,不要迎面撞向它的必經(jīng)之路,要找到自己技術或業(yè)務的縱深!
大廠“低調(diào)”布局
“這個事情還是挺燒錢的,大廠抬升了大模型項目的估值,他們最終可以找到人去買單,我們?nèi)绻读,找誰來買單,這是最大的問題!蓖顿Y人李童表示。
模型競賽的主力軍,必然是擁有算力、資金、數(shù)據(jù)和人力優(yōu)勢的大廠。業(yè)內(nèi)人士普遍認為,底層投資需要龐大的資金量和資源,而大廠有實力也有責任重視這場競賽。
去年以來,中國大廠已然動作頻頻,在推進語言模型的同時布局視頻生成模型業(yè)務。尤其在歲末年初,步伐加速顯著。2024年1月17日,騰訊AI Lab再推出VideoCrafter2,實現(xiàn)文生視頻和圖生視頻。1月19日,百度推出視頻生成模型UnivG,支持文字和圖像組合輸入,針對高自由度和低自由度兩種任務分別采用不同的生成方式,項目由百度文心一格總架構師肖欣延領銜。阿里巴巴通義實驗室則開發(fā)了開源視頻生成模型和代碼系列 VGen。2023年11月,阿里在論文中宣布開源圖生視頻模型 I2VGen-XL;12月,推出文生視頻開源大模型ModelScopeT2V,模型和代碼完全開源。
字節(jié)跳動也緊跟步伐。今年1月,字節(jié)跳動發(fā)布文生視頻大模型MagicVideo-V2。2月20日左右,字節(jié)低調(diào)推出視頻模型產(chǎn)品Boximator,可通過文本控制生成視頻中人物或物體的動作,但字節(jié)方面很快回應稱,“Boximator目前還無法作為完善的產(chǎn)品落地,距離國外領先的視頻生成模型還有很大差距”。
2月7日,抖音集團CEO張楠辭任,表示未來將聚焦剪映業(yè)務押注生成式AI。2月23日,字節(jié)在海外版剪映Capcut推出了有獨立主頁的AI視頻生成功能,短暫釋出后下線。而近日,剪映旗下AI創(chuàng)作平臺Dreamina的視頻生成功能也已開放內(nèi)測邀請。
此外,上市公司所推出的產(chǎn)品還包括萬興科技的萬興“天幕”大模型、美圖的MiracleVision的奇想智能大模型等等。
當規(guī)模定律成為行業(yè)共識,大廠的重視程度,以及在算力、模型、數(shù)據(jù)上的資源投入和堆疊能力,成為了衡量成功可能性的重要因素。
基于此,部分AI創(chuàng)業(yè)者看好字節(jié)跳動。據(jù)財聯(lián)社報道,截至去年9月,字節(jié)已建立超過一萬張英偉達Ampere架構GPU集群,目前正在建設Hopper架構的集群!白止(jié)是國內(nèi)為數(shù)不多有‘萬卡集群’算力資源優(yōu)勢的公司!眲(chuàng)業(yè)者Max認為,字節(jié)的視頻數(shù)據(jù)量在世界范圍內(nèi)處于領先地位,也是相對年輕的大廠,看好其對戰(zhàn)略布局的敏感度!坝屑粲臣捌浜M獍娴募映郑止(jié)在短視頻和個人生產(chǎn)力工具上有優(yōu)勢地位,至少它不會是國內(nèi)大廠中做得最差的。”創(chuàng)業(yè)者Fimmo補充。
不同于在互聯(lián)網(wǎng)時代找準生態(tài)位、創(chuàng)造出現(xiàn)象級應用的輝煌,字節(jié)在大模型時代仍然處于追隨者的位置。1月底,字節(jié)跳動CEO梁汝波在全員會的發(fā)言中多次提到“危機感”,“字節(jié)跳動目前的業(yè)務有非常大的慣性,哪怕團隊不額外努力,公司仍然可以依賴慣性滑行很長一段時間,但這是很危險的!彼f。
陳石認為,輕易地作出判斷有些“想當然”。盡管當前每家大廠都很重視,“出牌”策略也不盡相同,但畢竟先是一個做“復制”的過程,最終可能都會趨同,“中國的大廠可能本質(zhì)區(qū)別不大,主要的差距和限制是能買到多少張GPU卡”。據(jù)他預測,在2024年末或2025年初,或就能見證大廠對Sora的復現(xiàn)。
但他也同時強調(diào),大廠“必須要跟,要超越”!坝袥Q心、有實力的大廠需要足夠重視。頭部的公司首先要具備閉源的能力,不能依賴于開源,在這一基礎上把生態(tài)堆起來?梢栽谶@個位置等一等,當未來的算力成本越來越低的時候,繼續(xù)挑戰(zhàn)往上走,這樣的情況就比較理想。”陳石說。
關于生成式AI,手機大廠的思路則與互聯(lián)網(wǎng)大廠有所不同!白鳛橹悄芙K端廠商,我們不能將互聯(lián)網(wǎng)應用服務廠商的事情作為自己的方向,而是要用AI重構操作系統(tǒng)。未來在手機上可以有各種各樣大模型出現(xiàn),手機提供算力接口,幫助更多的‘Sora’高效運行!睒s耀CEO趙明對《中國新聞周刊》表示。
中國Sora花落誰家?
那么,倘若中國大廠和創(chuàng)企都“鉚足了勁”追平或超越Sora,誰能搶先為之?
“中國的大模型現(xiàn)階段還處于跟隨狀態(tài),且參與者眾多,未來的分化與進展并不好預測。不過,初創(chuàng)公司仍然會稍微難一些,大模型不需要大家都做,但大廠或國央企、政府的意志還是要有的!标愂硎。
在李童看來,除了在資金、算力、數(shù)據(jù)等方面的資源優(yōu)勢,“大廠也投資了很多大模型和算力公司,本身也是為所有下游應用服務的,符合其整體戰(zhàn)略布局,它賺的是整個行業(yè)鏈的錢”。
“未來在AIGC視頻生成領域的算法層、平臺層和算力層中,大廠適合進行全產(chǎn)業(yè)鏈布局,初創(chuàng)企業(yè)適合介入應用層或中間層某一細分領域,央國企則適合從基礎設施開始布局!奔鬃庸饽曛菐煊^點認為。
因此,初創(chuàng)公司并非沒有機會。李童認為,“在創(chuàng)意方面,所有人都是在同一個起跑線上競爭!蓖蹰L虎則表示,“大廠具備資源、數(shù)據(jù)、流量方面的優(yōu)勢,使得創(chuàng)業(yè)公司一定要想著創(chuàng)新,尋求差異化,這是創(chuàng)業(yè)公司尋求成功的重要方面!睆腁I產(chǎn)品榜統(tǒng)計的2月數(shù)據(jù)看,PixVerse的用戶訪問量規(guī)模已經(jīng)與國內(nèi)頭部的AI語言大模型和應用工具在相同量級上競爭!斑@正得益于我們一年前的判斷和認知所帶來的先發(fā)優(yōu)勢,在大家做大語言模型的時候差異化選擇了視頻模型,提前積累了技術!
“創(chuàng)企和大廠之間,也絕不是非此即彼的關系!蓖蹰L虎認為,OpenAI和微軟的合作就是“共贏”的典型代表,創(chuàng)企和大廠應在合作共贏中做出差異化發(fā)展。“不僅能在存量市場中看到這種可能,當所有用戶都能玩起視頻生成的時候,還將有巨大的增量市場!
放眼全球,中國視頻生成大模型的未來幾何?陳石提出了“模型跟隨+應用生態(tài)”的設想。他認為,目前中國企業(yè)在AI領域的機會主要在應用層,“中國是數(shù)字經(jīng)濟時代應用的優(yōu)秀生,很多應用的實用程度、開發(fā)能力、易用性都是全球第一!痹谒磥恚磥泶罅Πl(fā)展AI應用,最終利用在應用生態(tài)上的優(yōu)勢反向進行技術突破,是屬于中國的AI技術解法之一。
身在局中,在王長虎看來,相比于語言和圖片生成領域,面向全球,中國在視頻生成大模型上跟海外是沒有差距的。一方面,誕生于視頻生成領域早期的團隊,已接住了全球化的機會;另一方面,中國公司在UGC時代創(chuàng)造了世界級的視頻應用,意味著中國團隊將有更加豐富的產(chǎn)品經(jīng)驗和場景認知,而這些優(yōu)勢都能反哺視頻生成技術的發(fā)展本身。
當前,Sora尚未面向大眾測試,用戶實際體驗是否能與官方發(fā)布的視頻效果保持一致,這一點仍然未知。AI視頻大模型究竟走到了GPT-2還是GPT-3時刻,還有待世界共同見證Sora的正式面世。
“我們可以大膽想象,當視頻生成技術發(fā)展成熟,秒級實時的視頻生成、視頻編輯、視頻交互成為現(xiàn)實,所有視頻創(chuàng)作者的生產(chǎn)模式、所有人對視頻內(nèi)容的消費模式都將有翻天覆地的變化!蓖蹰L虎預測道。
(文中李童、Max、Fimmo為化名)