🚀 心流知鏡(Flow Mirror)
本項目聚焦於端到端語音模型的預訓練,致力於學習能捕捉語音中語義和聲學信息的表徵。在教學、醫療諮詢等場景中,純語音交流具有豐富的表達信息,比單純的ASR轉換文本更具價值。項目受OpenAI的GPT - 4能力及教育用例啟發,旨在為教育等領域提供更智能的語音交互解決方案。
(簡體中文|English)

[更新日誌]
8.29: 創建倉庫,發佈README和路線圖
8.31: 發佈演示網站 (https://voice-playground.91jzx.cn)
9.02: 發佈推理代碼
9.12: 發佈FlowMirror - s - v0.2 - checkpoint - 20240828
✨ 主要特性
- 基於文本的大語言模型初始化,學習統一的文本和音頻表徵,降低工程複雜度。
- 支持ASR、TTS、語音續寫和語音對話等任務。
- 採用兩階段訓練過程,隨著訓練數據增加,模型性能有望進一步提升。
🚀 快速開始
本項目暫未提供詳細的快速開始步驟,你可以參考以下鏈接獲取相關信息:
📚 詳細文檔
項目動機
雖然文本在互聯網上仍是主要的語言形式,但在教學、醫療諮詢等許多場景中,仍依賴直接的口頭交流。此外,幼兒和不具備讀寫能力的人可以通過聽和說進行廣泛的交流和表達,這表明純語音交流可以為交互提供足夠的智能。口語(無文本)交流本身包含豐富的表達信息,在教育和培訓等場景中,比單純通過ASR轉換的文本更有價值。
另外,本項目受到OpenAI的GPT - 4所展示的能力及其在演示視頻中展示的教育用例的啟發。
團隊介紹
浙江精準學是一家由阿里巴巴投資的公司,專注於提供與教育相關的硬件和軟件產品(AI輔助學習設備)。精準學的AI團隊致力於利用AI技術實現與人類教育相當或超越人類教育的主動學習體驗,同時努力降低技術成本,使這些解決方案能夠讓每個人都負擔得起。
研究背景
據我們所知,最早的端到端語音模型源自Meta的Speechbot GLSM系列。以下幾篇相關研究論文為我們的工作提供了有價值的參考和實驗經驗:
- SpiritLM: Nguyen等人(2024)探索了口語和書面語言模型的交織。更多信息
- GLSM: Lakhotia等人(2021)開發了一種從原始音頻生成的口語語言模型。更多信息
- AudioLM: Borsos等人(2023)提出了一種用於音頻生成的語言建模方法。更多信息
- SpeechGPT: Zhang等人(2023)增強了大語言模型的跨模態對話能力。更多信息
- SpeechFlow: Liu等人(2024)介紹了一種使用流匹配的語音生成預訓練方法。更多信息
技術方法
總體而言,我們將端到端語音模型的預訓練視為一個學習能捕捉語音中語義和聲學信息表徵的過程。使用基於文本的大語言模型進行初始化,帶來了學習統一的文本和音頻表徵的可能性,並顯著降低了工程複雜度。因此,我們將整體訓練過程設計為以下兩個階段。
由於缺乏支持中文、特別是針對教育詞彙的自監督預訓練語音編碼器,我們基於Meta的HuBERT論文開發了一個專注於語義信息的自監督語音編碼器。受RVQVAE的啟發,我們使用大量中文語音數據從零開始訓練了一個專注於聲學信息的音頻編解碼器(9層碼本)。

基於這些自監督預訓練的編解碼器,我們使用Qwen2系列大語言模型作為初始化參數。如圖所示,我們採用了一種非對稱結構,其中輸入主要是語義單元,輸出包括聲學單元和文本。

FlowMirror - s v0.1和v0.2分別使用20,000小時和50,000小時的語音數據進行預訓練,支持ASR、TTS、語音續寫和語音對話等任務。這些實驗結果初步驗證了端到端語音模型的可行性,並展示了網絡設計的可擴展性,表明該模型在未來版本中將實現更強的能力。
模型評估
定性音頻示例
可以通過以下對話參考定性音頻示例:
example_1 = "人在沒有目標的時候才應該有壓力"
example_2 = "這個階段需要學習什麼知識?"
example_3 = "怎麼把事情做對要花時間去培養"
example_4 = "這裡的藥材長勢不錯"
對話語音示例
示例1: "People should only feel pressure when they lack a goal."
輸入
輸出
示例2: "The growth of the herbs here looks promising."
輸入
輸出
演示網站
演示部署在https://voice-playground.91jzx.cn,由於資源有限,最多支持10個併發用戶。當前部署的檢查點是心流知鏡 - s v0.2 - 240822 - checkpoint。未來版本將更新到最新的v0.2和v0.3檢查點。
多任務評估
在本項目中,ASR子任務被視為對預訓練過程中語音中可學習語義信息捕捉程度的評估。當前檢查點在預訓練的第一階段實現了與Whisper - small大致相當的ASR性能。評估數據包括未在訓練期間使用的公開在線語音數據和未參與端到端訓練的Wenet數據。從這兩個數據集中隨機抽取1,024個句子進行評估。
數據集來源 |
數量 |
中文字符錯誤率/詞錯誤率 |
公開數據集 - 測試 |
1,024 |
12.55% |
WenetSpeech - 測試 |
1,024 |
24.23% |
由於這個檢查點來自早期階段,預計隨著訓練數據和時間的增加,即使不增加模型大小,語音語義和文本之間的對齊也將顯著改善。
[待辦事項]
將添加來自AudioBench的評估數據。
注意:迫切需要構建一箇中文版本的AudioBench以進行更全面的評估。
侷限性和不足
- 在三階段訓練過程中,我們沒有使用傳統的文本大語言模型預訓練數據。與原始的Qwen2模型相比,這可能導致在MMLU評估中性能下降。未來版本將致力於緩解這一問題。
- 當前版本僅控制說話者的語音音色。其他語音特徵,如情感、韻律、語速、停頓、非語言聲音和音高尚未進行微調。
- 有時,對話響應可能無關或回答錯誤的話題(例如,語音中的同音詞導致的誤解)。在這個階段,由於參數規模有限(1.5B)和預訓練語音數據的特殊分佈(在對話主題上分佈不均勻),以及數據預處理的瓶頸,我們預計隨著更多有針對性的數據的增加,這方面將有顯著改善。
- 當前版本尚不支持多輪對話。
- 推理速度有很大的提升空間。當前在L20 GPU上的首次字節時間(TTFB)約為670ms。我們預計,即使不進行量化,通過TensorRT優化和應用其他流行技術,整體吞吐量也可以提高一個數量級。
許可證
由於v0.1 - v0.3的自監督編碼器中使用了WenetSpeech數據,自監督預訓練語音編碼器和端到端檢查點權重文件僅限於學術使用。代碼遵循Apache 2.0許可證。
為了進一步促進對中文和亞洲語言語音模型的探索,我們計劃發佈一個基於公開收集數據(不包括Wenet)訓練的新版本,提供一個更自由可用的自監督編碼器和解碼器。
路線圖
項目計劃如下:
2024年8月
心流知鏡 - s v0.1 & 0.2 (500M - 1.5B參數)
- [x] 中文自監督音頻編解碼器
- [x] 心流知鏡 - s v0.1 & 0.2 (500M - 1.5B參數)
- [x] 基於WebRTC的體驗網站
- [x] 雙輸出:語音和文本
2024年9月
心流知鏡 - s v0.2
- [x] 開源檢查點和推理代碼
- [ ] 加速推理版本
- [ ] 支持設備端部署
- [ ] 發佈用於學術使用的自監督語音編碼器和音頻編解碼器權重
2024年10月
心流知鏡 - s v0.3
- [ ] 針對中小學學科教學進行優化
- [ ] 支持在對話中選擇說話者語音
- [ ] 富有表現力的語音(情感、音量、音高、語速等)
- [ ] 構建專注於中文的AudioBench評估數據集
2024年11月
心流知鏡 - s v0.3 - 多語言版本
- [ ] 支持東亞和全球主要語言
- [ ] 支持多語言交互式對話
2024年12月
心流知鏡 - s v0.4
- [ ] 支持教育場景中的高質量全雙工對話
- [ ] 更大的模型規模
2025年1月
心流知鏡 - s v0.5
2025年3月
心流知鏡 - s1
- [ ] 發佈更大模型規模的版本
- [ ] 擴展到視覺能力
招聘信息
我們正在以下領域招聘,包括團隊領導職位。歡迎感興趣的候選人申請:
- 語音ASR/TTS/對話SLLM
- 角色扮演大語言模型
- 多模態模型推理加速
- 視覺理解和文檔智能
- 角色視頻生成通用框架
社區交流
釘釘群: 90720015617
