輝達(NVIDIA)推出AI模型Fugatto,能以文字提示創作音樂、改變口音、轉換聲音等。Fugatto不僅能生成新聲音,還能修改現有音訊,例如改變樂器或口音情緒。此技術目前尚未公開發布。
(中央社)輝達(NVIDIA)美國時間25日發表全新人工智慧(AI)研究成果Fugatto,只要使用文字就能控制音訊輸出,並可以將任何文字提示轉換為音訊,也能根據文字提示創作音樂片段、從現有歌曲中增減樂器、改變聲音口音或情感。
輝達發布新聞稿說明,Fugatto是Foundational Generative Audio Transformer Opus 1的縮寫,可使用文字與音訊檔案的任何組合,產生或轉換描述的音樂、語音與聲音。
輝達應用音訊研究部門經理巴耶(Rafael Valle)表示,「我們希望創造一個能夠像人類一樣理解和生成聲音的模型」,Fugatto是邁向未來的第一步。
輝達指出,音樂製作人可以使用Fugatto快速製作聲音的原型或編輯歌曲構想,嘗試各種風格、聲音和樂器,也能加入效果並提升現有曲目整體音訊品質。
此外,輝達表示,廣告公司可以運用Fugatto,針對現有廣告內容的配音,套用不同口音和情感。語言學習工具可以變得個人化,例如線上課程能使用家人或朋友的聲音講授。
輝達新AI模型變聲好神奇,小號吹出狗叫聲
(中央社)全球人工智慧(AI)晶片霸主輝達瞄準音樂、電影和電玩遊戲製作人,昨天展示一款用於生成音樂和音頻的AI新模型,不僅可用於改造現有音頻,還能自行創造、生成新聲音。
《路透社》報導,輝達表示,目前並未打算立即公開推出這項Fugatto(Foundational Generative Audio Transformer Opus 1)技術。
Runway等新創公司以及諸如Meta Platforms等更大型企業,都有發表可根據文字提示生成音訊或視訊的技術。
而輝達的版本會根據文字描述生成音效和音樂,包括新奇的聲音,例如小號會發出像狗叫的聲音。
Fugatto與其他AI技術不同的地方,在於它能接收和修改現有音頻,例如將鋼琴彈奏的一段音樂轉換為人聲演唱版本,或讓錄下來的口語改變口音及其情緒表達。
輝達深度學習應用研究副總裁卡坦察羅(Bryan Catanzaro)表示:「想想過去50年的合成音頻,就會發現當下的音樂聽起來不一樣,因為有電腦、合成器。」
「我認為生成式AI將為音樂、電玩和想創作的普通人帶來新的能力。」
新聞來源
延伸閱讀
- 輝達財報優於預期Q1營收年增262%,6/7起實施1拆10股票分割,法人看好台股AI趨勢續熱
- 輝達財報熱如「金融超級盃」,黃仁勳談話影響力勝聯準會主席鮑爾
- 黃仁勳:建議台灣投資更多AI超級電腦;人形機器人未來3年將有突破,百年後無所不在
【加入關鍵評論網會員】每天精彩好文直送你的信箱,每週獨享編輯精選、時事精選、藝文週報等特製電子報。還可留言與作者、記者、編輯討論文章內容。立刻點擊免費加入會員!
責任編輯:翁世航
核稿編輯:朱家儀