輝達推AI新模型Fugatto，可用文字提示創作音樂、改變口音，小號也能吹出狗叫聲

（中央社）輝達（NVIDIA）美國時間25日發表全新人工智慧（AI）研究成果Fugatto，只要使用文字就能控制音訊輸出，並可以將任何文字提示轉換為音訊，也能根據文字提示創作音樂片段、從現有歌曲中增減樂器、改變聲音口音或情感。

輝達發布新聞稿說明，Fugatto是Foundational Generative Audio Transformer Opus 1的縮寫，可使用文字與音訊檔案的任何組合，產生或轉換描述的音樂、語音與聲音。

輝達應用音訊研究部門經理巴耶（Rafael Valle）表示，「我們希望創造一個能夠像人類一樣理解和生成聲音的模型」，Fugatto是邁向未來的第一步。

輝達指出，音樂製作人可以使用Fugatto快速製作聲音的原型或編輯歌曲構想，嘗試各種風格、聲音和樂器，也能加入效果並提升現有曲目整體音訊品質。

此外，輝達表示，廣告公司可以運用Fugatto，針對現有廣告內容的配音，套用不同口音和情感。語言學習工具可以變得個人化，例如線上課程能使用家人或朋友的聲音講授。

輝達新AI模型變聲好神奇，小號吹出狗叫聲

（中央社）全球人工智慧（AI）晶片霸主輝達瞄準音樂、電影和電玩遊戲製作人，昨天展示一款用於生成音樂和音頻的AI新模型，不僅可用於改造現有音頻，還能自行創造、生成新聲音。

《路透社》報導，輝達表示，目前並未打算立即公開推出這項Fugatto（Foundational Generative Audio Transformer Opus 1）技術。

Runway等新創公司以及諸如Meta Platforms等更大型企業，都有發表可根據文字提示生成音訊或視訊的技術。

而輝達的版本會根據文字描述生成音效和音樂，包括新奇的聲音，例如小號會發出像狗叫的聲音。

Fugatto與其他AI技術不同的地方，在於它能接收和修改現有音頻，例如將鋼琴彈奏的一段音樂轉換為人聲演唱版本，或讓錄下來的口語改變口音及其情緒表達。

輝達深度學習應用研究副總裁卡坦察羅（Bryan Catanzaro）表示：「想想過去50年的合成音頻，就會發現當下的音樂聽起來不一樣，因為有電腦、合成器。」

「我認為生成式AI將為音樂、電玩和想創作的普通人帶來新的能力。」

【加入關鍵評論網會員】每天精彩好文直送你的信箱，每週獨享編輯精選、時事精選、藝文週報等特製電子報。還可留言與作者、記者、編輯討論文章內容。立刻點擊免費加入會員！

責任編輯：翁世航
核稿編輯：朱家儀