日本乱中文字幕系列-日本伦理黄色大片在线观看网站-日本伦理片网站-日本伦理网站-韩国三级视频网站-韩国三级视频在线观看

網(wǎng)站地圖 - 關(guān)于我們
您的當(dāng)前位置: 首頁(yè) > 科技 > 業(yè)內(nèi) 正文

顛覆視頻創(chuàng)作?Sora還需“學(xué)好物理”

作者:用戶投稿 時(shí)間:2024-02-22 14:57 點(diǎn)擊:
導(dǎo)讀: 最近幾天,OpenAI公司發(fā)布的視頻生成大模型Sora成了全世界關(guān)注的焦點(diǎn)。它究竟會(huì)給我們的生活帶來(lái)怎樣的影響?連日來(lái),記者專訪了幾位人工智能領(lǐng)域的專家,專

  最近幾天,OpenAI公司發(fā)布的視頻生成大模型Sora成了全世界關(guān)注的焦點(diǎn)。它究竟會(huì)給我們的生活帶來(lái)怎樣的影響?連日來(lái),記者專訪了幾位人工智能領(lǐng)域的專家,專家表示,Sora還遠(yuǎn)未達(dá)到理解自然規(guī)律的地步,仍有很長(zhǎng)的路要走。

  廣州日?qǐng)?bào)全媒體記者 肖歡歡(除署名外)

  一山更比一山高?Sora來(lái)自“組合拳”式技術(shù)創(chuàng)新

  著名人工智能研究專家、創(chuàng)新工場(chǎng)人工智能工程院執(zhí)行院長(zhǎng)王詠剛表示,OpenAI公布的樣例視頻連貫、流暢、穩(wěn)定,與提示文本的符合程度極高,無(wú)論是時(shí)長(zhǎng)還是質(zhì)量都遠(yuǎn)超此前的視頻生成技術(shù)?!俺醪娇?,Sora是人工智能發(fā)展史上的又一個(gè)里程碑,是文生視頻領(lǐng)域的‘GPT-3時(shí)刻’?!彼J(rèn)為,AI大模型從文本信息處理進(jìn)化到多模態(tài)信息處理,Sora可能是其中至關(guān)重要的一環(huán)?!癆I從處理文本一躍提升到能高質(zhì)量處理或生成視頻,這意味著AI對(duì)世界的理解達(dá)到了一個(gè)全新的高度。通俗來(lái)說(shuō),ChatGPT使AI學(xué)會(huì)了讀書(shū)寫字,Sora的發(fā)布則代表AI初步學(xué)會(huì)了‘拍攝’視頻或電影短片,今年很可能掀起AI視頻技術(shù)與應(yīng)用發(fā)展的巨大浪潮。”

  王詠剛介紹,從ChatGPT到Sora,兩種技術(shù)之間有明確的繼承與發(fā)展關(guān)系。Sora的技術(shù)突破主要得益于兩個(gè)方面:第一,融合了兩大生成式AI技術(shù)――雖然在整體算法框架上沿用了圖像生成領(lǐng)域常用的Diffusion模型,但在框架內(nèi)部巧妙融入ChatGPT使用的Transformer來(lái)編碼和表達(dá)視頻中的時(shí)空信息,得到了名為Diffusion Transformer的組合模型。根據(jù)技術(shù)報(bào)告,Sora在視頻生成時(shí)涌現(xiàn)的精準(zhǔn)、連貫的表達(dá)能力就源自這種組合拳式的科技創(chuàng)新。第二,發(fā)揮GPT的特長(zhǎng),改進(jìn)標(biāo)注質(zhì)量――Sora使用類似GPT-4的技術(shù)對(duì)訓(xùn)練用的樣本視頻做了重新標(biāo)注,從根本上解決了目前視頻訓(xùn)練數(shù)據(jù)缺乏高質(zhì)量標(biāo)注的問(wèn)題。“現(xiàn)在經(jīng)過(guò)GPT重新標(biāo)注,AI可以知道訓(xùn)練視頻中的人長(zhǎng)什么樣子、穿什么衣服、手從哪里運(yùn)動(dòng)到哪里、身體呈現(xiàn)什么姿勢(shì)等。顯然AI可據(jù)此學(xué)有關(guān)這個(gè)世界運(yùn)動(dòng)規(guī)律的更多知識(shí)?!?/p>

  “OpenAI首先研發(fā)出ChatGPT和GPT-4,現(xiàn)在又把ChatGPT的核心技術(shù)與視頻生成的流行技術(shù)框架結(jié)合起來(lái),可以說(shuō)Sora是站在ChatGPT的肩膀上,一山更比一山高?!?/p>

  多模態(tài)同步推進(jìn) 未來(lái)AI的AGI水平將極大提高

  原云天勵(lì)飛聯(lián)合創(chuàng)始人、首席科學(xué)家王孝宇博士是人工智能領(lǐng)域的資深科學(xué)家,連日來(lái)他也密切留意著Sora帶來(lái)的影響。王孝宇認(rèn)為,在具體功能方面,Sora能部分模擬人或事物在現(xiàn)實(shí)世界中的存在方式,并由此產(chǎn)生一定水準(zhǔn)的情感表達(dá);在生成視頻質(zhì)量上,Sora高清的畫(huà)質(zhì)、豐富的細(xì)節(jié),尤其是在處理遮擋和場(chǎng)景連貫性上,跟之前的模型相比有了質(zhì)的飛躍。

  王孝宇介紹,OpenAI這些年一直在進(jìn)行多模態(tài)同步推進(jìn),比如說(shuō)將視頻轉(zhuǎn)化成文字,利用AI給視頻精準(zhǔn)配音等。“打個(gè)比方,生成視頻先需要文本,但先輸入的這句話機(jī)器不一定能理解,先用ChatGPT重新寫一遍,將prompt(提示詞)轉(zhuǎn)化成Sora能夠理解的文字,然后再進(jìn)行視頻創(chuàng)作;同時(shí),也會(huì)把訓(xùn)練視頻轉(zhuǎn)化成Sora可以理解的文字。這些技術(shù)是相互夯實(shí)、相互搭臺(tái)的,而不是相互替代。所以,Sora的技術(shù)架構(gòu)并不復(fù)雜,只不過(guò)它跳脫出以前大家做文生視頻的思路?!?/p>

  王孝宇表示,Sora正是在多模態(tài)演進(jìn)和高質(zhì)量數(shù)據(jù)學(xué)習(xí)的基礎(chǔ)上,實(shí)現(xiàn)了視頻涌現(xiàn)機(jī)制,生成的視頻連貫性比較高,并且能大概理解真實(shí)世界的一些規(guī)律?!癆I技術(shù)方面最大的進(jìn)步不一定是基礎(chǔ)技術(shù)的進(jìn)步,工程學(xué)、呈現(xiàn)效果的進(jìn)步也是進(jìn)步,Sora的最大意義在于,它讓學(xué)界認(rèn)識(shí)到通過(guò)文字和視頻的橋接來(lái)提升AI的AGI(通用人工智能)水平是有可能的。未來(lái)Sora和ChatGPT結(jié)合,將極大提高AI的AGI水平?!?/p>

  AI功能莫過(guò)分夸大 邏輯推理、自然規(guī)律理解能力待提高

  王詠剛表示,盡管Sora在文本生成視頻方面有了質(zhì)的提升,但并不能將其功能過(guò)分夸大?!八€遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到掌握物理規(guī)律的地步?!?/p>

  在王詠剛看來(lái),“機(jī)器學(xué)習(xí)完全理解自然界規(guī)律”還是一個(gè)遙遠(yuǎn)的命題?!癝ora在技術(shù)上并沒(méi)有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范疇,不大可能在智力水平上躍升到另一個(gè)完全不同的境界。”

  對(duì)此,王孝宇也表示認(rèn)同。他表示,Sora的“文生視頻”技術(shù)還不是完美的,還有很多不連貫性,比如說(shuō),視頻中人的手指有時(shí)會(huì)多一根或者少一根,它還不能準(zhǔn)確地理解現(xiàn)實(shí)世界?!耙粋€(gè)模型能生成逼真視頻,并不能代表它理解了物理世界,從目前來(lái)看,Sora并沒(méi)有完全掌握現(xiàn)實(shí)世界的物理規(guī)律,因?yàn)橐彩强粗曨l學(xué)習(xí),它可供學(xué)習(xí)的樣本相當(dāng)有限。模型的預(yù)測(cè)能力依賴于其訓(xùn)練數(shù)據(jù)的多少和質(zhì)量,對(duì)于那些超出訓(xùn)練數(shù)據(jù)分布的新情況,模型可能無(wú)法精確預(yù)測(cè)。要知道,現(xiàn)實(shí)世界的復(fù)雜性遠(yuǎn)超過(guò)任何模型能夠通過(guò)有限數(shù)據(jù)學(xué)習(xí)到的經(jīng)驗(yàn)?!?王孝宇說(shuō),這就像天氣預(yù)報(bào)一樣,即便人類掌握了足夠多的衛(wèi)星云圖和氣象資料,也還是難以精確預(yù)報(bào)每一次臺(tái)風(fēng)的最終走向。“所以,它只能部分模擬現(xiàn)實(shí)世界,掌握人或者其他物體在現(xiàn)實(shí)世界中的存在方式。我同意現(xiàn)在有些學(xué)者的觀點(diǎn),只讓 AI看視頻是學(xué)不成世界模型的,它還不能用作現(xiàn)實(shí)世界的可靠模擬,在邏輯推理上還有很大的進(jìn)步空間?!?/p>

  AI大模型未來(lái)將向哪個(gè)方向發(fā)展?王詠剛說(shuō),大語(yǔ)言模型的評(píng)估是一個(gè)復(fù)雜的課題,但即便如此,對(duì)AI大模型能力的評(píng)估數(shù)據(jù)仍然是其改進(jìn)的關(guān)鍵一環(huán)。他認(rèn)為,目前AI體現(xiàn)出的寫作水平、繪畫(huà)水平比較強(qiáng),在某些方面可以接近人類的專業(yè)水平,但在邏輯推理上,AI的“智力水平”大概還處在人類孩童的階段,無(wú)法處理過(guò)于復(fù)雜的邏輯問(wèn)題,也無(wú)法完全依照人類指令完成所有任務(wù)?!叭狈?fù)雜邏輯推理能力,對(duì)世界的認(rèn)知不夠準(zhǔn)確,難以完全按人類要求工作,這是阻礙AI應(yīng)用落地的最核心問(wèn)題。目前最流行的AI應(yīng)用還停留在知識(shí)問(wèn)答、陪伴式聊天、辦公文案生成、輔助編程、輔助設(shè)計(jì)等領(lǐng)域,只有更進(jìn)一步提高AI的邏輯推理能力及可控性,AI相關(guān)應(yīng)用才能更進(jìn)一步普及?!?/p>

打賞

取消

感謝您的支持,我會(huì)繼續(xù)努力的!

掃碼支持
掃碼打賞,你說(shuō)多少就多少

打開(kāi)支付寶掃一掃,即可進(jìn)行掃碼打賞哦

相關(guān)推薦:

網(wǎng)友評(píng)論:

推薦使用友言、多說(shuō)、暢言(需備案后使用)等社會(huì)化評(píng)論插件

Copyright ? 2021 早報(bào)網(wǎng) 版權(quán)所有
蘇ICP備2024138443號(hào)

蘇公網(wǎng)安備32130202081338號(hào)

本網(wǎng)站所刊載信息,不代表早報(bào)網(wǎng)觀點(diǎn)。如您發(fā)現(xiàn)內(nèi)容涉嫌侵權(quán)違法立即與我們聯(lián)系客服 106291126@qq.com 對(duì)其相關(guān)內(nèi)容進(jìn)行刪除。
早報(bào)網(wǎng)登載文章只用于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述。文章內(nèi)容僅供參考,不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
《早報(bào)網(wǎng)》官方網(wǎng)站:www.www.yinheshijia.cn互聯(lián)網(wǎng)違法和不良信息舉報(bào)中心
Top