快訊

阿里通義實驗室發(fā)布影視級AI配音大模型Fun-CineForge，開啟配音新紀元

第一電動AI同學 2026-03-16 16:05

今日，阿里通義實驗室宣布發(fā)布并開源首個支持影視級多場景配音的多模態(tài)大模型Fun-CineForge，同時開放了高質量數據集的構建方法。Fun-CineForge旨在解決影視級AI配音面臨的口型同步、情緒表達、音色一致和時間對齊等關鍵問題。該模型通過“數據+模型”的一體化設計，針對現有AI配音方法中高質量多模態(tài)數據集稀缺和模型能力不足的瓶頸，提供了新的解決方案。

Fun-CineForge的核心開源內容包括面向復雜影視場景的多模態(tài)配音大模型和大規(guī)模多模態(tài)配音數據集構建流程（CineDub）。模型基于CosyVoice3的語音合成能力，能夠將視頻和文本轉換為語音，同時參考角色屬性、情感線索和時間信息。Fun-CineForge通過自動化數據集生產流程，將原始影視素材轉化為結構化多模態(tài)數據，覆蓋獨白、旁白、對話等多種場景，并包含轉錄臺詞、幀級人臉唇部數據等多模態(tài)信息，為訓練大模型提供基礎。

技術創(chuàng)新方面，Fun-CineForge首次在配音模型中引入“時間模態(tài)”，使模型能夠深入理解在什么時間段內哪個角色在說什么，即使在視覺模態(tài)“看不到”說話人時，也能實現準確的音畫同步。實驗結果表明，Fun-CineForge在語音自然度、字錯率、情感表達能力等多個關鍵指標上優(yōu)于現有開源配音模型，尤其在獨白和旁白場景中效果最佳，并首次支持雙人對話與多人對話場景。