日本乱中文字幕系列-日本伦理黄色大片在线观看网站-日本伦理片网站-日本伦理网站-韩国三级视频网站-韩国三级视频在线观看

<center id="8e8mw"><tr id="8e8mw"></tr></center>

<dl id="8e8mw"><xmp id="8e8mw"></xmp></dl><samp id="8e8mw"><tbody id="8e8mw"></tbody></samp>

<center id="8e8mw"><acronym id="8e8mw"></acronym></center>

網(wǎng)站地圖 - 關(guān)于我們

您的當(dāng)前位置：首頁(yè) > 科技 > 業(yè)內(nèi) 正文

顛覆視頻創(chuàng)作？Sora還需“學(xué)好物理”

作者：用戶投稿時(shí)間：2024-02-22 14:57 點(diǎn)擊：次

導(dǎo)讀：　最近幾天，OpenAI公司發(fā)布的視頻生成大模型Sora成了全世界關(guān)注的焦點(diǎn)。它究竟會(huì)給我們的生活帶來(lái)怎樣的影響？連日來(lái)，記者專訪了幾位人工智能領(lǐng)域的專家，專

　　最近幾天，OpenAI公司發(fā)布的視頻生成大模型Sora成了全世界關(guān)注的焦點(diǎn)。它究竟會(huì)給我們的生活帶來(lái)怎樣的影響？連日來(lái)，記者專訪了幾位人工智能領(lǐng)域的專家，專家表示，Sora還遠(yuǎn)未達(dá)到理解自然規(guī)律的地步，仍有很長(zhǎng)的路要走。

　　廣州日?qǐng)?bào)全媒體記者肖歡歡（除署名外）

　　一山更比一山高？Sora來(lái)自“組合拳”式技術(shù)創(chuàng)新

　　著名人工智能研究專家、創(chuàng)新工場(chǎng)人工智能工程院執(zhí)行院長(zhǎng)王詠剛表示，OpenAI公布的樣例視頻連貫、流暢、穩(wěn)定，與提示文本的符合程度極高，無(wú)論是時(shí)長(zhǎng)還是質(zhì)量都遠(yuǎn)超此前的視頻生成技術(shù)?！俺醪娇?，Sora是人工智能發(fā)展史上的又一個(gè)里程碑，是文生視頻領(lǐng)域的‘GPT-3時(shí)刻’?！彼J(rèn)為，AI大模型從文本信息處理進(jìn)化到多模態(tài)信息處理，Sora可能是其中至關(guān)重要的一環(huán)?！癆I從處理文本一躍提升到能高質(zhì)量處理或生成視頻，這意味著AI對(duì)世界的理解達(dá)到了一個(gè)全新的高度。通俗來(lái)說(shuō)，ChatGPT使AI學(xué)會(huì)了讀書(shū)寫字，Sora的發(fā)布則代表AI初步學(xué)會(huì)了‘拍攝’視頻或電影短片，今年很可能掀起AI視頻技術(shù)與應(yīng)用發(fā)展的巨大浪潮。”

　　王詠剛介紹，從ChatGPT到Sora，兩種技術(shù)之間有明確的繼承與發(fā)展關(guān)系。Sora的技術(shù)突破主要得益于兩個(gè)方面：第一，融合了兩大生成式AI技術(shù)――雖然在整體算法框架上沿用了圖像生成領(lǐng)域常用的Diffusion模型，但在框架內(nèi)部巧妙融入ChatGPT使用的Transformer來(lái)編碼和表達(dá)視頻中的時(shí)空信息，得到了名為Diffusion Transformer的組合模型。根據(jù)技術(shù)報(bào)告，Sora在視頻生成時(shí)涌現(xiàn)的精準(zhǔn)、連貫的表達(dá)能力就源自這種組合拳式的科技創(chuàng)新。第二，發(fā)揮GPT的特長(zhǎng)，改進(jìn)標(biāo)注質(zhì)量――Sora使用類似GPT-4的技術(shù)對(duì)訓(xùn)練用的樣本視頻做了重新標(biāo)注，從根本上解決了目前視頻訓(xùn)練數(shù)據(jù)缺乏高質(zhì)量標(biāo)注的問(wèn)題。“現(xiàn)在經(jīng)過(guò)GPT重新標(biāo)注，AI可以知道訓(xùn)練視頻中的人長(zhǎng)什么樣子、穿什么衣服、手從哪里運(yùn)動(dòng)到哪里、身體呈現(xiàn)什么姿勢(shì)等。顯然AI可據(jù)此學(xué)有關(guān)這個(gè)世界運(yùn)動(dòng)規(guī)律的更多知識(shí)?！?/p>

　　“OpenAI首先研發(fā)出ChatGPT和GPT-4，現(xiàn)在又把ChatGPT的核心技術(shù)與視頻生成的流行技術(shù)框架結(jié)合起來(lái)，可以說(shuō)Sora是站在ChatGPT的肩膀上，一山更比一山高?！?/p>

　　多模態(tài)同步推進(jìn) 未來(lái)AI的AGI水平將極大提高

　　原云天勵(lì)飛聯(lián)合創(chuàng)始人、首席科學(xué)家王孝宇博士是人工智能領(lǐng)域的資深科學(xué)家，連日來(lái)他也密切留意著Sora帶來(lái)的影響。王孝宇認(rèn)為，在具體功能方面，Sora能部分模擬人或事物在現(xiàn)實(shí)世界中的存在方式，并由此產(chǎn)生一定水準(zhǔn)的情感表達(dá)；在生成視頻質(zhì)量上，Sora高清的畫(huà)質(zhì)、豐富的細(xì)節(jié)，尤其是在處理遮擋和場(chǎng)景連貫性上，跟之前的模型相比有了質(zhì)的飛躍。

　　王孝宇介紹，OpenAI這些年一直在進(jìn)行多模態(tài)同步推進(jìn)，比如說(shuō)將視頻轉(zhuǎn)化成文字，利用AI給視頻精準(zhǔn)配音等。“打個(gè)比方，生成視頻先需要文本，但先輸入的這句話機(jī)器不一定能理解，先用ChatGPT重新寫一遍，將prompt(提示詞）轉(zhuǎn)化成Sora能夠理解的文字，然后再進(jìn)行視頻創(chuàng)作；同時(shí)，也會(huì)把訓(xùn)練視頻轉(zhuǎn)化成Sora可以理解的文字。這些技術(shù)是相互夯實(shí)、相互搭臺(tái)的，而不是相互替代。所以，Sora的技術(shù)架構(gòu)并不復(fù)雜，只不過(guò)它跳脫出以前大家做文生視頻的思路?！?/p>

　　王孝宇表示，Sora正是在多模態(tài)演進(jìn)和高質(zhì)量數(shù)據(jù)學(xué)習(xí)的基礎(chǔ)上，實(shí)現(xiàn)了視頻涌現(xiàn)機(jī)制，生成的視頻連貫性比較高，并且能大概理解真實(shí)世界的一些規(guī)律?！癆I技術(shù)方面最大的進(jìn)步不一定是基礎(chǔ)技術(shù)的進(jìn)步，工程學(xué)、呈現(xiàn)效果的進(jìn)步也是進(jìn)步，Sora的最大意義在于，它讓學(xué)界認(rèn)識(shí)到通過(guò)文字和視頻的橋接來(lái)提升AI的AGI（通用人工智能）水平是有可能的。未來(lái)Sora和ChatGPT結(jié)合，將極大提高AI的AGI水平?！?/p>

　　AI功能莫過(guò)分夸大邏輯推理、自然規(guī)律理解能力待提高

　　王詠剛表示，盡管Sora在文本生成視頻方面有了質(zhì)的提升，但并不能將其功能過(guò)分夸大?！八€遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到掌握物理規(guī)律的地步?！?/p>

　　在王詠剛看來(lái)，“機(jī)器學(xué)習(xí)完全理解自然界規(guī)律”還是一個(gè)遙遠(yuǎn)的命題?！癝ora在技術(shù)上并沒(méi)有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范疇，不大可能在智力水平上躍升到另一個(gè)完全不同的境界。”

　　對(duì)此，王孝宇也表示認(rèn)同。他表示，Sora的“文生視頻”技術(shù)還不是完美的，還有很多不連貫性，比如說(shuō)，視頻中人的手指有時(shí)會(huì)多一根或者少一根，它還不能準(zhǔn)確地理解現(xiàn)實(shí)世界?！耙粋€(gè)模型能生成逼真視頻，并不能代表它理解了物理世界，從目前來(lái)看，Sora并沒(méi)有完全掌握現(xiàn)實(shí)世界的物理規(guī)律，因?yàn)橐彩强粗曨l學(xué)習(xí)，它可供學(xué)習(xí)的樣本相當(dāng)有限。模型的預(yù)測(cè)能力依賴于其訓(xùn)練數(shù)據(jù)的多少和質(zhì)量，對(duì)于那些超出訓(xùn)練數(shù)據(jù)分布的新情況，模型可能無(wú)法精確預(yù)測(cè)。要知道，現(xiàn)實(shí)世界的復(fù)雜性遠(yuǎn)超過(guò)任何模型能夠通過(guò)有限數(shù)據(jù)學(xué)習(xí)到的經(jīng)驗(yàn)?！?王孝宇說(shuō)，這就像天氣預(yù)報(bào)一樣，即便人類掌握了足夠多的衛(wèi)星云圖和氣象資料，也還是難以精確預(yù)報(bào)每一次臺(tái)風(fēng)的最終走向。“所以，它只能部分模擬現(xiàn)實(shí)世界，掌握人或者其他物體在現(xiàn)實(shí)世界中的存在方式。我同意現(xiàn)在有些學(xué)者的觀點(diǎn)，只讓 AI看視頻是學(xué)不成世界模型的，它還不能用作現(xiàn)實(shí)世界的可靠模擬，在邏輯推理上還有很大的進(jìn)步空間?！?/p>

　　AI大模型未來(lái)將向哪個(gè)方向發(fā)展？王詠剛說(shuō)，大語(yǔ)言模型的評(píng)估是一個(gè)復(fù)雜的課題，但即便如此，對(duì)AI大模型能力的評(píng)估數(shù)據(jù)仍然是其改進(jìn)的關(guān)鍵一環(huán)。他認(rèn)為，目前AI體現(xiàn)出的寫作水平、繪畫(huà)水平比較強(qiáng)，在某些方面可以接近人類的專業(yè)水平，但在邏輯推理上，AI的“智力水平”大概還處在人類孩童的階段，無(wú)法處理過(guò)于復(fù)雜的邏輯問(wèn)題，也無(wú)法完全依照人類指令完成所有任務(wù)?！叭狈?fù)雜邏輯推理能力，對(duì)世界的認(rèn)知不夠準(zhǔn)確，難以完全按人類要求工作，這是阻礙AI應(yīng)用落地的最核心問(wèn)題。目前最流行的AI應(yīng)用還停留在知識(shí)問(wèn)答、陪伴式聊天、辦公文案生成、輔助編程、輔助設(shè)計(jì)等領(lǐng)域，只有更進(jìn)一步提高AI的邏輯推理能力及可控性，AI相關(guān)應(yīng)用才能更進(jìn)一步普及?！?/p>

感謝您的支持，我會(huì)繼續(xù)努力的!

掃碼支持

掃碼打賞，你說(shuō)多少就多少

支付寶

打開(kāi)支付寶掃一掃，即可進(jìn)行掃碼打賞哦

上一篇：馬斯克旗下腦機(jī)接口公司宣布新進(jìn)展
下一篇：大數(shù)據(jù)“殺熟”為何屢禁不止？

隨便看看：

相關(guān)推薦：

網(wǎng)友評(píng)論：

推薦使用友言、多說(shuō)、暢言(需備案后使用)等社會(huì)化評(píng)論插件

欄目分類

最新文章

熱門文章

Copyright ? 2021 早報(bào)網(wǎng) 版權(quán)所有

蘇ICP備2024138443號(hào)

蘇公網(wǎng)安備32130202081338號(hào)

本網(wǎng)站所刊載信息，不代表早報(bào)網(wǎng)觀點(diǎn)。如您發(fā)現(xiàn)內(nèi)容涉嫌侵權(quán)違法立即與我們聯(lián)系客服 106291126@qq.com 對(duì)其相關(guān)內(nèi)容進(jìn)行刪除。
早報(bào)網(wǎng)登載文章只用于傳遞更多信息之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其描述。文章內(nèi)容僅供參考，不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。
《早報(bào)網(wǎng)》官方網(wǎng)站：www.www.yinheshijia.cn互聯(lián)網(wǎng)違法和不良信息舉報(bào)中心

Top

<button id="8ci8w"><input id="8ci8w"></input></button>

<rt id="8ci8w"></rt>

<nav id="8ci8w"><tbody id="8ci8w"></tbody></nav>

<samp id="8ci8w"><em id="8ci8w"></em></samp>

<li id="8ci8w"></li>

<li id="8ci8w"><tbody id="8ci8w"></tbody></li>

<rt id="8ci8w"><tr id="8ci8w"></tr></rt>

<code id="8ci8w"><wbr id="8ci8w"></wbr></code>