5月26日,PrismML公司宣布推出BonsaiImage4B系列圖像生成模型,該模型在iPhone 17 Pro Max上生成512×512圖像的時間約為9.4秒。BonsaiImage4B系列包含1-bitBonsaiImage4B和TernaryBonsaiImage4B兩個版本,1-bit版本專注于極致壓縮,而Ternary版本在保持小體積的同時,提高了畫面質量和提示詞還原度。
這兩個版本的模型都是基于FLUX.2Klein4B構建的,主要調整在于擴散Transformer的權重表示方式。1-bit版本使用二值權重,權重集合為{-1,+1},配合FP16分組縮放后,單權重等效位寬為1.125bit;Ternary版本則采用三值權重,權重集合為{-1,0,+1},等效位寬為1.71bit,因此具有更高的表示靈活性。在體積上,1-bit版本的二值層相對全精度Transformer權重縮小至14分之一,Transformer體積壓到0.93GB,較7.75GB的全精度FLUX.2Klein4B縮小至8.3分之一。運行時內存占用也顯著下降,生成512×512圖像時,1-bit與Ternary版本平均活躍內存分別為1.5GB與1.96GB,全精度FLUX.2Klein4B則高達11.74GB。
在速度與效果方面,BonsaiImage4B在iPhone 17 Pro Max上生成512×512圖像約需9.4秒,在Mac M4 Pro上約6秒;在Mac M4 Pro平臺上,最高可比全精度MFLUX流水線快5.6倍。質量評測覆蓋GenEval、HPSv3、DPG-Bench三項基準,其中Ternary版本在1.21GB體積下保留FLUX.2Klein4B約95%準確性,1-bit版本在不足1GB的前提下保留約88%準確性。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內容并不代表第一電動網(wǎng)(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權請聯(lián)系郵件刪除。