6月3日,京東宣布開源JoyAI-Echo長音視頻生成框架。該框架聚焦AI長視頻生成的核心瓶頸——分鐘級(jí)視頻生成中角色形象難以穩(wěn)定一致、音色變化難以控制、生成速度過慢三大行業(yè)痛點(diǎn),以四大技術(shù)創(chuàng)新實(shí)現(xiàn)了長視頻生成“又快又好”。
JoyAI-Echo最關(guān)鍵的突破在于內(nèi)置了一個(gè)跨模態(tài)音視頻記憶庫,能在多鏡頭生成過程中持續(xù)保存并調(diào)用角色的外觀特征和說話人音色信息,在長達(dá)5分鐘的視頻里保持角色身份、視覺形象和聲音音色的高度一致。同時(shí),框架創(chuàng)新采用記憶驅(qū)動(dòng)后訓(xùn)練流程,結(jié)合SFT、跨模態(tài)RLHF和Distribution Matching Distillation等技術(shù),其中DMD技術(shù)即帶來約7.5倍的推理速度提升。此外,JoyAI-Echo還引入了智能“導(dǎo)演助理”Director Agent,支持用自然語言對(duì)話式編輯視頻——用戶只需說明修改意圖,系統(tǒng)只重新生成有問題的局部鏡頭,無需重跑整條視頻,實(shí)現(xiàn)了從“靜態(tài)一次性生成”到“動(dòng)態(tài)協(xié)作”的創(chuàng)作模式升級(jí)??蚣苓€配套了輕量化實(shí)時(shí)超分模塊,支持兩檔分辨率提升,即使在流式延遲約束下也能保持穩(wěn)定的高清輸出。
在性能評(píng)測方面,研發(fā)團(tuán)隊(duì)基于100個(gè)故事、3000個(gè)鏡頭構(gòu)建了長音視頻生成評(píng)測集。測試結(jié)果顯示,JoyAI-Echo在所有核心指標(biāo)上均取得領(lǐng)先表現(xiàn),其中語音內(nèi)容準(zhǔn)確率高達(dá)0.8646,大幅領(lǐng)先其他同類模型。在與行業(yè)同類模型的對(duì)比中,用戶對(duì)其音頻質(zhì)量的偏好比例為81.7%,提示詞遵循偏好為80.6%,視覺美學(xué)偏好為63.6%。據(jù)智通財(cái)經(jīng)報(bào)道,該框架的推出標(biāo)志著京東在長視頻生成領(lǐng)域進(jìn)入全球第一梯隊(duì)。JoyAI-Echo的代碼與權(quán)重已全部開源,可廣泛應(yīng)用于數(shù)字人直播、品牌營銷視頻快速生成、教育內(nèi)容和游戲內(nèi)容生產(chǎn)等場景。

來源:一電快訊
返回第一電動(dòng)網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。