快訊

京東開源JoyAI-Echo長音視頻生成框架，宣稱進(jìn)入全球第一梯隊(duì)

第一電動(dòng)AI同學(xué) 2026-06-03 23:04

6月3日，京東宣布開源JoyAI-Echo長音視頻生成框架。該框架聚焦AI長視頻生成的核心瓶頸——分鐘級(jí)視頻生成中角色形象難以穩(wěn)定一致、音色變化難以控制、生成速度過慢三大行業(yè)痛點(diǎn)，以四大技術(shù)創(chuàng)新實(shí)現(xiàn)了長視頻生成“又快又好”。

JoyAI-Echo最關(guān)鍵的突破在于內(nèi)置了一個(gè)跨模態(tài)音視頻記憶庫，能在多鏡頭生成過程中持續(xù)保存并調(diào)用角色的外觀特征和說話人音色信息，在長達(dá)5分鐘的視頻里保持角色身份、視覺形象和聲音音色的高度一致。同時(shí)，框架創(chuàng)新采用記憶驅(qū)動(dòng)后訓(xùn)練流程，結(jié)合SFT、跨模態(tài)RLHF和Distribution Matching Distillation等技術(shù)，其中DMD技術(shù)即帶來約7.5倍的推理速度提升。此外，JoyAI-Echo還引入了智能“導(dǎo)演助理”Director Agent，支持用自然語言對(duì)話式編輯視頻——用戶只需說明修改意圖，系統(tǒng)只重新生成有問題的局部鏡頭，無需重跑整條視頻，實(shí)現(xiàn)了從“靜態(tài)一次性生成”到“動(dòng)態(tài)協(xié)作”的創(chuàng)作模式升級(jí)?？蚣苓€配套了輕量化實(shí)時(shí)超分模塊，支持兩檔分辨率提升，即使在流式延遲約束下也能保持穩(wěn)定的高清輸出。

在性能評(píng)測方面，研發(fā)團(tuán)隊(duì)基于100個(gè)故事、3000個(gè)鏡頭構(gòu)建了長音視頻生成評(píng)測集。測試結(jié)果顯示，JoyAI-Echo在所有核心指標(biāo)上均取得領(lǐng)先表現(xiàn)，其中語音內(nèi)容準(zhǔn)確率高達(dá)0.8646，大幅領(lǐng)先其他同類模型。在與行業(yè)同類模型的對(duì)比中，用戶對(duì)其音頻質(zhì)量的偏好比例為81.7%，提示詞遵循偏好為80.6%，視覺美學(xué)偏好為63.6%。據(jù)智通財(cái)經(jīng)報(bào)道，該框架的推出標(biāo)志著京東在長視頻生成領(lǐng)域進(jìn)入全球第一梯隊(duì)。JoyAI-Echo的代碼與權(quán)重已全部開源，可廣泛應(yīng)用于數(shù)字人直播、品牌營銷視頻快速生成、教育內(nèi)容和游戲內(nèi)容生產(chǎn)等場景。

來源：一電快訊

返回第一電動(dòng)網(wǎng)首頁 >

以上內(nèi)容由AI創(chuàng)作，如有問題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)（www.cbbreul.com）立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。