JoyHallo-v1開源模型 - 根據普通話語音免費生成逼真面部動畫

首頁

Joyhallo V1

由jdh-algo開發

JoyHallo是一個專注於普通話的音頻驅動人臉動畫生成模型，能夠根據普通話語音生成逼真的面部動畫。

文本生成視頻開源協議:MIT #普通話數字人 #音頻驅動動畫 #跨語言生成

下載量 26

發布時間 : 9/18/2024

模型概述

該模型針對普通話語音特性優化，採用半解耦結構處理唇部、表情和姿態特徵，顯著提升中文視頻生成質量，同時保持英語生成能力。

模型特點

普通話優化

專門針對普通話複雜的唇部動作進行優化，解決了中文語音驅動動畫的技術難點

半解耦結構

創新性地採用半解耦結構處理唇部、表情和姿態特徵間的關聯關係，提升信息利用效率

跨語言能力

在優化普通話生成的同時，仍保持出色的英語視頻生成能力

高效推理

相比傳統結構，推理速度提升14.3%

模型能力

普通話語音驅動人臉動畫生成

英語語音驅動人臉動畫生成

唇部動作同步

面部表情生成

頭部姿態模擬

使用案例

數字人應用

虛擬主播

為普通話新聞播報或節目主持生成逼真的數字人視頻

實現自然流暢的唇部同步和表情變化

醫療諮詢

生成專業醫療內容的講解視頻

準確傳達專業術語的發音口型

教育領域

語言教學

生成標準普通話發音的示範視頻

清晰展示發音時的唇部動作

🚀 JoyHallo：面向中文的數字人模型

JoyHallo是一款面向中文的數字人模型，它解決了中文音頻驅動視頻生成中數據集收集難、唇形運動複雜等問題。該模型通過構建包含多樣化內容的jdh - Hallo數據集，並採用特定的音頻特徵嵌入和半解耦結構，提升了信息利用效率和推理速度，同時具備出色的跨語言視頻生成能力。

🚀 快速開始

暫未提供快速開始相關內容，若有後續可進一步補充。

✨ 主要特性

針對性數據集：收集了來自京東健康國際股份有限公司員工的29小時中文語音視頻，構建了jdh - Hallo數據集，該數據集涵蓋不同年齡、說話風格，包含日常對話和專業醫學話題。
音頻特徵嵌入：採用中文wav2vec2模型進行音頻特徵嵌入，以適配中文語音。
半解耦結構：提出半解耦結構來捕捉唇部、表情和姿態特徵之間的相互關係，提高信息利用效率，使推理速度提升14.3%。
跨語言能力：在生成中文視頻表現出色的同時，保持了強大的英文視頻生成能力，具備優秀的跨語言生成能力。

📚 詳細文檔

📖 簡介

在音頻驅動的視頻生成領域，生成中文視頻面臨著重大挑戰。收集全面的中文數據集十分困難，而且與英語相比，中文複雜的唇形運動讓模型訓練更加複雜。在本研究中，我們從京東健康國際股份有限公司員工那裡收集了29小時的中文語音視頻，得到了jdh - Hallo數據集。該數據集涵蓋了不同年齡段和說話風格，包括日常對話和專業醫學話題。

為了讓JoyHallo模型適配中文，我們採用中文wav2vec2模型進行音頻特徵嵌入。同時，提出了一種半解耦結構來捕捉唇部、表情和姿態特徵之間的相互關係。這種結合不僅提高了信息利用效率，還使推理速度加快了14.3%。值得注意的是，JoyHallo在生成英文視頻方面依然表現強勁，展示了出色的跨語言生成能力。