OpenAI表示Sora還是有很多問題,可能難以準確模擬複雜場景的物理原理,也還可能無法理解因果關係。但這些展示影片如果沒有作假、沒有事後調整的話,跟其他文字生成影片AI模型相比確實是業內最高竿的技術,令人印象深刻。
OpenAI今天正式發表文字轉影片生成式AI「Sora」!就跟DALL-E一樣,只要給出文字敘述(或靜態圖片也可以),Sora就能自動生成1080p動畫,各種不同的角色、動作類型和背景細節都能盡可能生成!
經過測試,Sora可以生成各種風格(包括真實電影,動漫風或黑白)的影片,長度可達一分鐘,遠遠超過目前大多數其他市面上的文字轉影片模型,而且這些影片都盡可能在保持合理的連貫性上,像是他們展示的第一款影片中除了文字之外,街上水窪的倒影、衣服隨走路的擺動效果,甚至是主角臉上的肌理都栩栩如生。
Sora使用約10000小時的「高品質」影片訓練,OpenAI表示,Sora是基於DALL-E、GPT模型的研究成果,一方面使用DALL-E 3的重述技術,能專為視覺資料生成高度描述性的標題,所以Sora可以更忠實地、也更新深入遵循使用者的文字指令,並生成情感豐富、引人入勝的角色,甚至Sora還能深入理解指令提到的人、事、物在現實物理世界中真正存在的面貌。
當然OpenAI的Sora展示頁面或多或少有一點浮誇成分在,但這些展示影片如果沒有作假、沒有事後調整的話,跟其他文字生成影片AI模型相比確實是業內最高竿的技術,令人印象深刻。
不過就像目前所有的生成式AI一樣,OpenAI表示Sora還是有很多問題,可能難以準確模擬複雜場景的物理原理,也還可能無法理解因果關係。例如一個人咬了一口餅乾,但在之後的影片裡餅乾上可能沒有咬痕;或是無法精確理解指令中的空間關係,可能會出現左右混淆,或是難以生成希望的鏡頭移動角度等。
目前OpenAI並沒有將Sora完全開放,起碼一陣子裡只會定位為「預覽研究」,只有特定跟官方合作的人可以使用,目前已經跟一些外部人士組成「紅隊可以使用Sora來評估相關風險,同時也對一些藝術家、設計師和電影製作人提供使用權限,來獲得改進模型的意見。
OpenAI表示,還會跟專家合作探索模型的漏洞,並正在建立配套工具,來檢測網路上的影片是否由Sora生成;同時還會跟全球政策制定者、教育者、藝術家接觸,來探討如何不會被濫用。
本文經Inside硬塞的網路趨勢觀察授權轉載,原文發表於此
原標題:OpenAI 再展黑科技力!發表文字生影片 AI「Sora」支援 1080p、最長 60 秒
延伸閱讀
- 當AI已能讓泰勒絲對嘴型說中文:詐騙案、新型網路犯罪崛起,該如何有效監管?
- 《路透社》:輝達打造新部門搶客製化晶片300億美元市場,美國國家半導體技術中心將上路
- 《華爾街日報》:阿特曼欲集資220兆重塑全球半導體業,已會見台積電代表
【加入關鍵評論網會員】每天精彩好文直送你的信箱,每週獨享編輯精選、時事精選、藝文週報等特製電子報。還可留言與作者、記者、編輯討論文章內容。立刻點擊免費加入會員!
責任編輯:丁肇九
核稿編輯:翁世航