
據介紹,基于現有的Wan2.1文生視頻基礎模型架構,通義萬相首尾幀生視頻模型進一步引入了額外的條件控制機制,通過該機制可實現流暢且精準的首尾幀變換。
在訓練階段,團隊還構建了專門用于首尾幀模式的訓練數據,同時針對文本與視頻編碼模塊、擴散變換模型模塊采用了并行策略,這些策略提升了模型訓練和生成效率,也保障了模型具備高分辨率視頻生成的效果。
在推理階段,為了在有限內存資源的條件下支持高清視頻推理,萬相首尾幀模型分別采用了模型切分策略以及序列并行策略,在確保推理效果無損的前提下,顯著縮短了推理時間。
首尾幀生視頻比文生視頻、單圖生視頻更具可控性,是AI視頻創作者最喜歡的功能之一。但這類模型訓練難度較大,要求對指令遵循、畫面一致性和過渡流暢性有高要求。