🚀 心流知镜 - FlowMirror
このプロジェクトは、音声に基づくコミュニケーションの価値を活かし、AI技術を用いて教育や医療相談などのシナリオでの対話体験を向上させることを目指しています。
(简体中文|English)

[更新履歴]
8.29: リポジトリを作成し、READMEとロードマップを公開
8.31: デモサイトを公開 (https://voice-playground.91jzx.cn)
9.02: 推論コードを公開
9.12: FlowMirror-s-v0.2-checkpoint-20240828を公開
🚀 クイックスタート
このセクションでは、心流知镜の概要と始め方について説明します。
✨ 主な機能
- 音声認識 (ASR)、音声合成 (TTS)、音声継続、音声対話などのタスクをサポート
- 非対称構造を採用し、入力は主に意味単位、出力は音響単位とテキストの両方を含む
📚 ドキュメント
動機
インターネット上ではテキストが言語の主要な形式ですが、教育や医療相談などの多くのシナリオでは、直接の口頭コミュニケーションに依存しています。また、幼児や識字能力のない人々も、聴き話を通じて広範なコミュニケーションと表現を行うことができ、純粋な音声ベースのコミュニケーションが十分なインテリジェンスを提供できることを示しています。口頭(テキストなし)コミュニケーションには、本質的に豊富な表現情報が含まれており、教育やトレーニングなどのシナリオでは、純粋にASRで変換されたテキストよりも価値があります。
さらに、このプロジェクトは、OpenAIのGPT - 4が示す能力とデモビデオで紹介された教育用途からインスピレーションを得ています。
チーム
浙江精准学は、アリババが出資する会社で、教育関連のハードウェアとソフトウェア製品(AI支援学習デバイス)を提供することに焦点を当てています。精准学のAIチームは、AI技術を用いて人間の教育と同等またはそれ以上の能動的な学習体験を実現するとともに、技術コストを削減して誰もが利用できるソリューションを目指しています。
背景
私たちの知る限り、最初のエンドツーエンド音声モデルはMetaのSpeechbot GLSMシリーズに由来します。いくつかの関連する研究論文が、私たちの研究に貴重な参考と実験経験を提供しています。
- SpiritLM: Nguyenら (2024) は、口頭と書面の言語モデルのインターリーブを探索しました。詳細情報
- GLSM: Lakhotiaら (2021) は、生の音声から生成的な口頭言語モデルを開発しました。詳細情報
- AudioLM: Borsosら (2023) は、音声生成のための言語モデリングアプローチを提案しました。詳細情報
- SpeechGPT: Zhangら (2023) は、大規模言語モデルのクロスモーダル会話能力を強化しました。詳細情報
- SpeechFlow: Liuら (2024) は、フローマッチングを用いた音声生成事前学習方法を導入しました。詳細情報
方法論
全体的に、エンドツーエンド音声モデルの事前学習を、音声に内在する意味情報と音響情報の両方を捉える表現学習のプロセスと見なしています。テキストベースのLLMで初期化することで、統一されたテキストと音声の表現を学習する可能性が生まれ、エンジニアリングの複雑さが大幅に軽減されます。そこで、以下の2段階で全体的な学習プロセスを設計しました。
中国語をサポートする自己教師付き事前学習音声エンコーダが不足しているため、特に教育用語彙に焦点を当てた自己教師付き音声エンコーダを、Meta HuBERT論文に基づいて開発しました。RVQVAEからインスピレーションを得て、広範な中国語音声データを使用して、音響情報に焦点を当てた音声コーデック(9層のコードブック)をゼロから学習しました。

これらの自己教師付き事前学習コーデックに基づいて、qwen2シリーズのLLMモデルを初期パラメータとして使用しました。図に示すように、非対称構造を採用し、入力は主に意味単位、出力は音響単位とテキストの両方を含みます。

FlowMirror - s v0.1とv0.2は、それぞれ20,000時間と50,000時間の音声データで事前学習され、ASR、TTS、音声継続、音声対話などのタスクをサポートしています。これらの実験結果は、エンドツーエンド音声モデルの実現可能性を予備的に検証し、ネットワーク設計の拡張性を示しており、将来のバージョンではさらに強力な能力を実現することが期待されます。
評価
定性的な音声サンプルは、以下の対話を通じて参照できます。
example_1 = "人在没有目标的时候才应该有压力"
example_2 = "这个阶段需要学习什么知识?"
example_3 = "怎么把事情做对要花时间去培养"
example_4 = "这里的药材长势不错"
対話音声サンプル
サンプル1: "人は目標がないときにこそ、プレッシャーを感じるべきです。"
入力
出力
サンプル2: "ここの薬草の生育状況は良好です。"
入力
出力
デモサイト
デモはhttps://voice-playground.91jzx.cnにデプロイされており、リソース制限のため、最大10人の同時ユーザーをサポートしています。現在デプロイされているチェックポイントは、心流知镜 - s v0.2 - 240822 - checkpointです。将来のバージョンでは、最新のv0.2とv0.3のチェックポイントに更新されます。
マルチタスク評価
このプロジェクトでは、ASRサブタスクを、事前学習中に音声内の学習可能な意味情報をどれだけうまく捉えたかの評価と見なしています。現在のチェックポイントは、事前学習の最初の段階で、Whisper - smallとほぼ同等のASR性能を達成しています。評価データは、学習中に使用されていない公開されたオンライン音声データと、エンドツーエンド学習に参加していないWenetデータから構成されています。両方のデータセットからランダムに1,024文をサンプリングして評価しました。
データセットソース |
数量 |
中国語CER/WER |
公開データセット - テスト |
1,024 |
12.55% |
WenetSpeech - テスト |
1,024 |
24.23% |
このチェックポイントは初期エポックのものであるため、学習データと時間の増加に伴い、モデルサイズを増やさなくても、音声意味とテキストのアライメントが大幅に改善されることが期待されます。
[TODO]
AudioBenchの評価データを追加します。
注: より包括的な評価のために、中国語版のAudioBenchを構築する必要があります。
制限と欠点
- 3段階の学習プロセスでは、従来のテキストLLM事前学習データを使用していません。元のqwen2モデルと比較すると、MMLU評価での性能が低下する可能性があります。将来のバージョンではこれを軽減することを目指します。
- 現在のバージョンでは、話者の声質のみを制御しています。感情、抑揚、話速、ポーズ、非言語音、音高等の他の音声特性は微調整されていません。
- 時々、対話応答が関係ない内容になったり、誤ったトピックを扱ったりすることがあります(例えば、音声の同音異義語による誤解釈)。現段階では、パラメータサイズが限られていること(1.5B)と、事前学習音声データの特殊な分布(会話トピックが均等に分布していない)、およびデータ前処理のボトルネックのため、より多くのターゲット指向のデータが増えると、この領域で大幅な改善が見られることが期待されます。
- 現在のバージョンでは、マルチターン対話はサポートされていません。
- 推論速度を大幅に改善する余地があります。L20 GPUでの現在のTTFBは約670msです。TensorRT最適化や他の一般的な技術の適用により、量子化を行わなくても全体的なスループットを1桁向上させることが期待されます。
ライセンス
v0.1 - v0.3の自己教師付きエンコーダでWenetSpeechデータを使用しているため、自己教師付き事前学習音声エンコーダとエンドツーエンドチェックポイントの重みファイルは学術用途に限定されています。コードはApache 2.0ライセンスの下で提供されています。
中国語やアジア言語の音声モデルの探索をさらに促進するために、公開収集データ(Wenetを除く)で学習された新しいバージョンをリリースする予定で、より自由に使用できる自己教師付きエンコーダとデコーダを提供します。
ロードマップ
プロジェクトは以下のように計画されています。
2024年8月
心流知镜 - s v0.1 & 0.2 (500M - 1.5Bパラメータ)
- [x] 中国語自己教師付き音声コーデック
- [x] 心流知镜 - s v0.1 & 0.2 (500M - 1.5Bパラメータ)
- [x] WebRTCベースの体験サイト
- [x] 音声とテキストの二重出力
2024年9月
心流知镜 - s v0.2
- [x] チェックポイントと推論コードのオープンソース化
- [ ] 高速推論バージョン
- [ ] デバイス上でのデプロイのサポート
- [ ] 学術用途の自己教師付き音声エンコーダと音声コーデックの重みのリリース
2024年10月
心流知镜 - s v0.3
- [ ] 中小学校の科目授業向けに強化
- [ ] 対話での話者の声の選択のサポート
- [ ] 表現力のある音声(感情、音量、音高、話速など)
- [ ] 中国語に焦点を当てたAudioBench評価データセットの構築
2024年11月
心流知镜 - s v0.3 - 多言語版
- [ ] 東アジアと世界の主要言語のサポート
- [ ] 多言語対話のサポート
2024年12月
心流知镜 - s v0.4
- [ ] 教育シナリオでの高品質、完全双方向対話のサポート
- [ ] より大きなモデルサイズ
2025年1月
心流知镜 - s v0.5
2025年3月
心流知镜 - s1
- [ ] より大きなモデルサイズのリリース
- [ ] 視覚機能への拡張
採用情報
以下の分野で、グループリーダーの役割を含めて採用中です。興味のある方はぜひ応募してください。
- 音声ASR/TTS/対話SLLM
- ロールプレイングLLMモデル
- マルチモーダルモデルの推論高速化
- 視覚理解とドキュメントインテリジェンス
- キャラクタービデオ生成の一般的なフレームワーク
コミュニティ
钉钉グループ: 90720015617
