復(fù)旦大學(xué)李文文:Sora成為AI界新頂流,“U-AIGC”新概念或?qū)⒊霈F(xiàn)


如果2023年是屬于大語(yǔ)言模型的一年,那么2024年,Sora為首的多模態(tài)大模型,或許將帶我們走向更超乎想象的遠(yuǎn)方。
如果2023年是屬于大語(yǔ)言模型的一年,那么2024年,Sora為首的多模態(tài)大模型,或許將帶我們走向更超乎想象的遠(yuǎn)方。
將心中所想的文字直接變成視頻,過(guò)去只存在于科幻作品,而現(xiàn)在,幻想正無(wú)限接近現(xiàn)實(shí)。
即便尚未對(duì)公眾開放,由OpenAI發(fā)布的Sora已經(jīng)在短短幾天超越“GPT”們,成為大眾討論度最高的AI界“新晉頂流”——僅在Tik Tok平臺(tái)上發(fā)布的視頻,就為OpenAI在4天內(nèi)“吸粉”10萬(wàn)。
“AIGC產(chǎn)品在以UGC為核心的平臺(tái)上驚艷亮相,可能是AI時(shí)代的一個(gè)重要轉(zhuǎn)折。”對(duì)于Sora帶來(lái)的影響力以及AI大模型領(lǐng)域的未來(lái)發(fā)展前景,信息管理與商業(yè)智能系李文文老師分享了她的最新觀察。
李文文
復(fù)旦管院信息管理與商業(yè)智能系助理教授,研究方向:數(shù)據(jù)分析,機(jī)器學(xué)習(xí),商務(wù)智能,社交網(wǎng)絡(luò),醫(yī)療健康管理。
重新定義人類與AI的交互關(guān)系
UGC(User Generated Content,即用戶生成內(nèi)容)與AIGC(Artificial Intelligence Generated Content,即生成式人工智能)可能存在一定的競(jìng)爭(zhēng),但更多的是交融。
未來(lái)可能出現(xiàn)一個(gè)新的概念U-AIGC (User-AI Generated Content),即用戶與AI共同生產(chǎn)的內(nèi)容。
某種意義上,AIGC產(chǎn)品在以UGC為核心的平臺(tái)上驚艷亮相,可能成為AI時(shí)代的一個(gè)重要轉(zhuǎn)折。
在應(yīng)用層面,Sora會(huì)帶來(lái)哪些新變化?
第一,“真實(shí)”與“虛擬”的邊界將愈發(fā)模糊。
Sora能夠生成非常逼真、高清晰度的視頻和照片。因?yàn)榫哂卸嘟巧?、特定類型運(yùn)動(dòng)以及細(xì)節(jié)準(zhǔn)確的主題背景構(gòu)建能力,乍看之下,人們甚至很難分辨哪些是真實(shí)拍攝的視頻,哪些又是Sora生成的視頻。
需要注意的是,Sora并非單純的“視頻模型”,而被視為一種“世界模擬器”, 是OpenAI“教AI理解和模擬運(yùn)動(dòng)中的物理世界”計(jì)劃中的一步,目的是幫助人們解決需要現(xiàn)實(shí)世界交互的問(wèn)題。
在這個(gè)過(guò)程中,憑借以假亂真的視頻生成能力,Sora的出現(xiàn)勢(shì)必能為很多行業(yè)帶來(lái)新的機(jī)遇,例如短視頻和游戲行業(yè)等。與此同時(shí),傳統(tǒng)的影視制作流程和商業(yè)模式也可能面臨重塑。例如,使用AI生成視頻的需求增加,相應(yīng)可能會(huì)減少對(duì)人類演員、編導(dǎo)等創(chuàng)造性角色的用人需求,影視行業(yè)的就業(yè)格局就很可能發(fā)生巨大變化。
同時(shí),基于AI技術(shù)強(qiáng)大的圖片和視頻生成能力,已經(jīng)引發(fā)了人們對(duì)于偽造照片和視頻的擔(dān)憂。這類AI技術(shù)可能加劇虛假信息的泛濫,因此我們也需要多角度地思考“真實(shí)”與“虛擬”交融所帶來(lái)的影響。目前,Sora也正在進(jìn)行評(píng)估關(guān)鍵領(lǐng)域潛在危害或風(fēng)險(xiǎn)的工作,OpenAI還邀請(qǐng)了一批視覺藝術(shù)家、設(shè)計(jì)師和電影制作人加入,期待這些反饋可以進(jìn)一步完善Sora的能力。
第二,人與AI之間的新交互與新關(guān)系。
GPT和Sora的出現(xiàn)徹底變革了人機(jī)交互模式,讓用戶通過(guò)直接說(shuō)話與AI交流,讓自然語(yǔ)言交互成為可能,極大地提高了可操作性。較之于傳統(tǒng)的圖形用戶界面,自然語(yǔ)言是人類最自然的交互方式,幾乎不需要學(xué)習(xí),且交互效率更高。
新的交互模型會(huì)如何影響組織中的人機(jī)協(xié)同?很多人都會(huì)提出這樣的問(wèn)題:“AI到底會(huì)輔助人類的工作,與人類合作,還是取代人類的工作?”“人機(jī)共生是否不再遙遠(yuǎn)?”“人類與機(jī)器的關(guān)系將何去何從?”而眼下,這些疑問(wèn)已經(jīng)不再是“遙遠(yuǎn)的想象”,而是近在咫尺,甚至“迫在眉睫”。
我認(rèn)為,對(duì)于個(gè)體而言,技術(shù)進(jìn)步雖然帶來(lái)了不少挑戰(zhàn),但也提供了新的機(jī)遇。與其盲目擔(dān)憂工作被取代,不如思考我們應(yīng)該如何定位自己,如何適應(yīng)AI時(shí)代,如何將技術(shù)為我所用。
換一個(gè)角度來(lái)看,AI中的“A”可以解讀為assistance和augmentation,AI應(yīng)該作為人類的“輔助”“增強(qiáng)”工具,而不是替代工具,或者說(shuō),AI應(yīng)該是人類的工作伙伴。
AI的意義在于讓更多人從簡(jiǎn)單重復(fù)的勞動(dòng)中解脫出來(lái),以更高的效率去創(chuàng)造更大的價(jià)值。當(dāng)自然語(yǔ)言的交互模式極大降低了AI技術(shù)的應(yīng)用門檻,任何人都能夠簡(jiǎn)單地使用AI輔助自己的工作。例如,Sora讓視頻制作更加簡(jiǎn)單高效,讓更多人將自己的想法轉(zhuǎn)化成生動(dòng)的視頻,也可以讓人們更加聚焦于創(chuàng)意和故事本身,所以,未來(lái)基于Sora的U-AIGC可能會(huì)越來(lái)越多。
AI離物理世界更近一步
人類天生具備處理和理解多模態(tài)信息的能力。比如我們品嘗一碗熱氣騰騰的牛肉面,我們能夠看到面條的誘人的擺盤,聞到面條的香氣,嘗到面條的勁道。視覺、嗅覺和觸覺接收和傳遞的不同模態(tài)信息共同形成了我們對(duì)這碗面的認(rèn)知。同樣的,我們也希望AI具備多模態(tài)數(shù)據(jù)的處理能力。
GPT展現(xiàn)了強(qiáng)大的文本處理能力,但它主要處理單一模態(tài)數(shù)據(jù)。Sora的出現(xiàn)則讓我們看到了多模態(tài)模型在模擬物理世界時(shí)的巨大潛能。隨著多模態(tài)模型愈發(fā)成熟,其廣闊的發(fā)展空間和應(yīng)用前景將非常振奮人心。
當(dāng)然,目前的AI工具精細(xì)度仍然有限,因此,如何高效地與AI溝通,將是未來(lái)我們必須學(xué)習(xí)和具備的技能。
精細(xì)度包含兩個(gè)方面:一是通過(guò)自然語(yǔ)言交互傳達(dá)指令的精細(xì)度,二是AI理解并實(shí)現(xiàn)指令的精細(xì)度。
OpenAI給出的示例中,只需要一句很簡(jiǎn)單的描述,例如“一個(gè)身穿藍(lán)色牛仔褲和白色T恤的女人在南非約翰內(nèi)斯堡愉快地散步,在一場(chǎng)冬季風(fēng)暴中”,Sora就能生成一個(gè)非常真實(shí)流暢的短視頻。這其中有很多細(xì)節(jié),比如女人的膚色、路人等,是指令中沒有涉及的。
如果是以體驗(yàn)或者娛樂為基準(zhǔn),Sora所生成的這些視頻是非常驚艷且有趣的。但在一些專業(yè)性較高的任務(wù)中,比如生成具有科普性質(zhì)或者商業(yè)化價(jià)值的視頻時(shí),就需要生成視頻在出現(xiàn)的所有內(nèi)容和細(xì)節(jié)上都能夠滿足具體的要求。這種情況下,用戶需要提供盡可能詳細(xì)的指令以涵蓋所有的要求。
另一方面,AI能否完全理解并且實(shí)現(xiàn)用戶提出的每一個(gè)指令細(xì)節(jié)依然存疑。以GPT為例,如果給出一個(gè)較為復(fù)雜的指令,有時(shí)候GPT就會(huì)“自主”忽略指令中的幾個(gè)細(xì)節(jié)要求。
中國(guó)科技企業(yè)“逐浪”還是“造浪”
從ChatGPT到Sora,大模型為科技公司不斷帶來(lái)充滿前景的新賽道。去年僅8個(gè)月內(nèi),中國(guó)就誕生了238個(gè)大模型,幾乎一天一個(gè)。
然而,當(dāng)ChatGPT拉高了用戶和市場(chǎng)對(duì)于大模型性能的要求后,訓(xùn)練大模型將意味著投入更多人力、算力和數(shù)據(jù)量,以提升模型性能,滿足用戶需求以及市場(chǎng)的期待。
▲大型語(yǔ)言模型(LLM)的數(shù)量趨勢(shì)
但高昂的訓(xùn)練成本會(huì)帶來(lái)兩個(gè)問(wèn)題。首先,人工智能領(lǐng)域傳統(tǒng)的開源氛圍受到一定影響,一些核心的技術(shù)和模型不再公開。科研機(jī)構(gòu)和高校受制于有限的資源,很難訓(xùn)練出有競(jìng)爭(zhēng)力的大模型,無(wú)法提供開源的模型。而一些科技公司和企業(yè)花大力氣訓(xùn)練出大模型,考慮到商業(yè)因素,也不愿意開源自己的模型,而是愿意直接提供包裝好的產(chǎn)品。
當(dāng)像GPT-4這樣的先進(jìn)大模型不公開技術(shù)細(xì)節(jié)和模型,只提供服務(wù)的時(shí)候,這給很多想要入局大模型的科創(chuàng)企業(yè)帶來(lái)了不小的挑戰(zhàn)。以往人工智能領(lǐng)域有著濃厚的開源氛圍,大家樂意把最新的模型代碼分享到GitHub這類網(wǎng)站上,所以其實(shí)AI創(chuàng)業(yè)的門檻并不是非常高,因?yàn)楹诵募夹g(shù)和模型都是公開的,只需要稍微修改一下模型,拿自己的數(shù)據(jù)訓(xùn)練一下,就能得到一個(gè)新的垂直領(lǐng)域的AI產(chǎn)品。
現(xiàn)在,閉源的大模型使得科創(chuàng)企業(yè)不得不思考另一個(gè)問(wèn)題:自研大模型還是使用已有大模型聚焦垂直領(lǐng)域應(yīng)用?
如果采用自研大模型,目前國(guó)內(nèi)只有頭部的幾家公司有自研大模型的能力,他們也發(fā)布了自家的產(chǎn)品,但是性能和GPT-4比還是有一定差距的,這是我們需要面對(duì)的現(xiàn)狀——國(guó)內(nèi)企業(yè)在算力和數(shù)據(jù)資源方面都遠(yuǎn)遠(yuǎn)落后于OpenAI。
對(duì)很多科創(chuàng)公司而言,另一個(gè)更可行的路線是購(gòu)買已有大模型的服務(wù),聚焦于垂直領(lǐng)域的應(yīng)用。但是我們現(xiàn)在觀察到的一個(gè)現(xiàn)象是,不少體量較小的科創(chuàng)公司都宣稱研發(fā)了自己的大模型。如果仔細(xì)調(diào)研這些大模型,就會(huì)發(fā)現(xiàn)其中不少背后都有成熟的大模型的身影,比如GPT-4、ChatGPT之類。
科創(chuàng)企業(yè)熱衷于大模型技術(shù)可以理解,畢竟有市場(chǎng)、資本和用戶等各方面的因素,但大模型不應(yīng)該成為面子工程或者“充門面”的產(chǎn)品。
縱觀全球的大模型發(fā)展格局,頭部的三家公司是OpenAI、Google和Anthropic,他們的代表性產(chǎn)品分別是GPT-4、Gemini、Claude-2。中國(guó)企業(yè)在這場(chǎng)大模型競(jìng)賽中一直處于追隨者的位置。
盡管追上頭部的大模型產(chǎn)品比較困難,但我們的科創(chuàng)企業(yè)必須要追趕,而且需要考慮如何解決兩個(gè)非常大的挑戰(zhàn)。
首先是算力問(wèn)題。模型訓(xùn)練必須的GPU顯卡是一個(gè)瓶頸。目前GPU的主要提供商N(yùn)VIDIA供應(yīng)能力有限,處于供不應(yīng)求的局面。2023年年中,OpenAI曾提出要用一千萬(wàn)張GPU訓(xùn)練模型,近日,OpenAI CEO山姆·奧爾特曼 (Sam Altman)更提出了籌資7萬(wàn)億美元的生產(chǎn)自研AI芯片計(jì)劃。雖然計(jì)劃尚未正式展開,但也說(shuō)明他們具有一定能力。與之相比,國(guó)內(nèi)公司在算力上差距還比較大。
其次是數(shù)據(jù)問(wèn)題。大模型提升能力需要大數(shù)據(jù)訓(xùn)練,能力升級(jí)就能吸引更多用戶,從而獲得更多數(shù)據(jù)和資源,幫助進(jìn)一步提升模型能力。未來(lái),大模型市場(chǎng)可能會(huì)出現(xiàn)比較顯著的馬太效應(yīng),頭部的兩三個(gè)大模型產(chǎn)品會(huì)占據(jù)絕大部分市場(chǎng)。所以,國(guó)內(nèi)企業(yè)一定要在大模型發(fā)展的初期持續(xù)發(fā)力,努力追趕。
現(xiàn)在的大模型裹挾了太多東西,有資本的狂熱、用戶的期待,也有學(xué)界的爭(zhēng)論。科創(chuàng)企業(yè)身處熱潮,更需要冷靜地思考,大模型對(duì)自身業(yè)務(wù)的價(jià)值到底在哪里?能否研發(fā)出真正有核心技術(shù)的產(chǎn)品,而不是做簡(jiǎn)單的“套殼”產(chǎn)品?
國(guó)內(nèi)企業(yè)很擅長(zhǎng)找出應(yīng)用場(chǎng)景,做技術(shù)落地的應(yīng)用,在人工智能領(lǐng)域,可能需要更多能夠研發(fā)核心技術(shù)和具備技術(shù)壁壘的企業(yè)。
大模型并不一定“大力出奇跡”,除了超強(qiáng)的算力、超大規(guī)模的數(shù)據(jù),模型架構(gòu)具體要怎樣實(shí)現(xiàn)?模型訓(xùn)練的策略是什么?大數(shù)據(jù)怎樣處理會(huì)使模型訓(xùn)練效果更好?里面包含非常多的核心技術(shù)和經(jīng)驗(yàn),正是這些技術(shù)和經(jīng)驗(yàn)導(dǎo)致了不同模型之間巨大的性能差距。
期待中國(guó)的科創(chuàng)企業(yè)能夠在核心技術(shù)和前沿技術(shù)研發(fā)上投入更多精力,從而在大模型以及人工智能領(lǐng)域具備更強(qiáng)的競(jìng)爭(zhēng)力。
(本文轉(zhuǎn)載自復(fù)旦管院 ,如有侵權(quán)請(qǐng)電話聯(lián)系13810995524)
* 文章為作者獨(dú)立觀點(diǎn),不代表MBAChina立場(chǎng)。采編部郵箱:news@mbachina.com,歡迎交流與合作。
備考交流

掃碼關(guān)注我們
- 獲取報(bào)考資訊
- 了解院?;顒?dòng)
- 學(xué)習(xí)備考干貨
- 研究上岸攻略
最新動(dòng)態(tài)
推薦項(xiàng)目
活動(dòng)日歷
- 01月
- 02月
- 03月
- 04月
- 05月
- 06月
- 07月
- 08月
- 09月
- 10月
- 11月
- 12月
- 07/03 預(yù)約席位 | 7月3日交大安泰EMBA招生說(shuō)明會(huì)
- 07/05 最高可獲得2萬(wàn)元獎(jiǎng)學(xué)金| 上理管院專業(yè)學(xué)位項(xiàng)目2026聯(lián)合招生發(fā)布會(huì)&MBA/MPA/MEM職業(yè)賦能工坊第三期開放申請(qǐng)中!
- 07/05 財(cái)務(wù)人必修的戰(zhàn)略思維課|復(fù)旦MPAcc公開課報(bào)名
- 07/05 財(cái)務(wù)人必修的戰(zhàn)略思維課|復(fù)旦MPAcc公開課報(bào)名!
- 07/05 【預(yù)告| 7.5北大國(guó)發(fā)院EMBA體驗(yàn)日】“導(dǎo)師·同學(xué)共話會(huì)” 邀您走進(jìn)北大承澤園
- 07/05 上海場(chǎng) | 清華-康奈爾雙學(xué)位金融MBA項(xiàng)目上海場(chǎng)公開課暨招生說(shuō)明會(huì)誠(chéng)邀您參與!
- 07/05 上海交大MTT招生開放日
- 07/05 鄭州活動(dòng)預(yù)告 | 7月5日交大安泰MBA全國(guó)巡展即將來(lái)到中原大地,招生政策、考生激勵(lì)、項(xiàng)目生態(tài)一場(chǎng)活動(dòng)全掌握!
- 07/05 海π智鏈 商道新生 | 2026東華大學(xué)MBA/EMBA/MPAcc/MEM/MF/MIB培養(yǎng)體系煥新發(fā)布會(huì)即將啟幕!
- 07/05 活動(dòng)報(bào)名 | 7月5日深圳招生直通車,15年零售餐飲O2O行業(yè)學(xué)長(zhǎng)以夢(mèng)為馬,為何選擇交大安泰MBA?