今日,阿里通義實驗室宣布發(fā)布并開源首個支持影視級多場景配音的多模態(tài)大模型Fun-CineForge,同時開放了高質量數據集的構建方法。Fun-CineForge旨在解決影視級AI配音面臨的口型同步、情緒表達、音色一致和時間對齊等關鍵問題。該模型通過“數據+模型”的一體化設計,針對現有AI配音方法中高質量多模態(tài)數據集稀缺和模型能力不足的瓶頸,提供了新的解決方案。
Fun-CineForge的核心開源內容包括面向復雜影視場景的多模態(tài)配音大模型和大規(guī)模多模態(tài)配音數據集構建流程(CineDub)。模型基于CosyVoice3的語音合成能力,能夠將視頻和文本轉換為語音,同時參考角色屬性、情感線索和時間信息。Fun-CineForge通過自動化數據集生產流程,將原始影視素材轉化為結構化多模態(tài)數據,覆蓋獨白、旁白、對話等多種場景,并包含轉錄臺詞、幀級人臉唇部數據等多模態(tài)信息,為訓練大模型提供基礎。
技術創(chuàng)新方面,Fun-CineForge首次在配音模型中引入“時間模態(tài)”,使模型能夠深入理解在什么時間段內哪個角色在說什么,即使在視覺模態(tài)“看不到”說話人時,也能實現準確的音畫同步。實驗結果表明,Fun-CineForge在語音自然度、字錯率、情感表達能力等多個關鍵指標上優(yōu)于現有開源配音模型,尤其在獨白和旁白場景中效果最佳,并首次支持雙人對話與多人對話場景。



來源:一電快訊
返回第一電動網首頁 >
以上內容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內容并不代表第一電動網(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網或AI創(chuàng)作,如有侵權請聯(lián)系郵件刪除。