Mistral Speech To Text
これは実験的なモデルで、オーディオ波形をASCIIアートに変換し、Mistralモデルを微調整してテキストを予測します。
Downloads 20
Release Time : 4/4/2024
Model Overview
このモデルは、オーディオ波形のASCIIアート表現を通じて音声からテキストへの変換を試みる、概念実証プロジェクトです。
Model Features
革新的なASCIIアート入力
オーディオ波形をASCIIアートに変換してモデル入力とし、非伝統的な音声認識方法を探求
Mistralベースの微調整
強力なMistral 7Bモデルを基盤として微調整を実施
実験的手法
斬新だが未成熟な音声認識のアプローチを提示
Model Capabilities
オーディオ波形分析
ASCIIアート理解
テキスト予測
Use Cases
音声認識研究
音声認識代替手法の探求
伝統的なスペクトル分析に依存しない音声認識方法の探索
現時点での効果は限定的、ROUGE-1 F1スコア約0.11
教育デモ
機械学習の革新的手法教育
NLPにおける非伝統的入力表現の応用例を展示
🚀 音声波形のASCIIアートを用いたMistralモデルの実験
このプロジェクトは、音声波形をASCIIアートに変換し、それを用いてMistralモデルを微調整する小規模な実験です。Mistralハッカソンで行われたMistral playing DOOM experimentにインスパイアされています。
🚀 クイックスタート
この実験は以下の手順で行われます。
Audio -> Waveform Visualization -> Waveform ASCII Art -> Finetune Mistral on ASCII Art to predict text from ASCII Art
クイックビデオ説明
🔍 波形の例
🔍 ASCIIアートの例
y
x
x
x
ux
tx
dx
9 ex v
4 dr v
4 do s
1Y 6o e o5
x 1Y y 6o ze 7 iYY
e YYz r Ys Ym xd Y gYY
6 YYY r Ys Yl xd sY Y eYY Y
z 6 YYY y s k z Ys Yl xd sY Y m vYYY s 5Y z
Yh 6Y xfYYY y qq i 2m Ydu Y6 Y vd sYY Yz cq vYYY eY 5Y0 b z q
YYz 6Y xywYYYY ZzqYt f YY Ydu Y6 Y vd sYY Yl 6d iYYY YYz 5YY Y z 9 g il
YYx YYo gfwYYYY ZxkY6 wf Z9YY Ydu xz6 Y6 Yi8 v4 sYY z YY 6d 4YYY uYYu o 5YY f Y zkyY 0 1Y z
YYw YY7 hfwYYYY 7 ZYkYY 1 z 7Y yYYYY YdY 8zY Y6 Y78 v4 sYYyt Y YY 6d 4YYYz3YYY o 4YYx e Yzx0xY Z 1Y 8
YYw YYY 5dwYYYYeYmZYmYY Y Y YY sYYYYY YdYl x 50Yo 9 Y6 YYY4 v5 vYY3tpY YY 6d 4YYYyYYYY m 3YYq Y Yzg0iY Y 4ZY 98 p
YYsjYYYYz 5Y7YYYYYYdYYYYY Y Y YY YYYYYY YcYY 5lY8YYa1 Y6 YYY2 v7YYYYYYpYz YYY 6d ZYYYtYYYY Yg 3YYo Y Yz8YZY xw Y YYY Y5 p Y
YY6YYYYYa YY9YYYYYYYYYYYYrYyYz YYe YYYYYY YYYYv YsYYYYYYY uY5 YYYY0 vYYYYYYYoYz YYY 6Y YYYYtYYYY Y7 3YYi rY wYz7YYYvkt YYYYY Y4yo4 1Yay
3YYdYYYYY8 YYYYYYYYYYYYYYYYYwYu YY3 YYYYYY YYYYn YeYYYYYYYZ uY5 YYYY0 uYYYYYYY6Yz YYY 6Y9 YYYYsYYYY Y58 3YYi6pY ZYz5YYY2e5 YYYYY Y2qeYz1YY9
YYY5YYYYY5 YYYYYYYYYYYYYYYYYuYu YY1 YYYYYY YYYY3 YYYYYYYYYY uYYYYYYY0 hYYYYYYY6YyrYYY 6YY YYYYYYYYY YYY 3YYfYsY YYz1YYY1Y2Y YYYYY YYq0YYYYYY
YYYYYYYYYY YYYYYYYYYYYYYYYYYsYuyYYYoYYYYYY1 YYYY2YYYYYYYYYYY vYYYYYYYY z4YYYYYYYYYYYYYYZg1YYYYYYYYYYYYzYYYz ZYYYYdYlYYYYYYYZYYY YYYYYzYYYYYYYYYY
YYY1YYYYYY YYYYYYYYYYYYYYYYYsYu YYYoYYYYYY4 YYYY2YYYYYYYYYYY vYYYYYYYY 7YYYYYYYZYYYYYYZv7YYYYYYYYYYYY YYYz 1YYYYdYmYYYYYYYZYYY YYYYYzYYYYYYYYYY
YYY6YYYYY6 YYYYYYYYYYYYYYYYYvYu YY1 YYYYYY YYYY3 YYYYYYYYYY uYYYYYYY0 hYYYYYYY6YyxYYY 6YY YYYYYYYYY YYY 3YYfYtY YYz3YYY1Y2Y YYYYY YYq0YYYYYY
cYYcYYYYY8 YYYYYYYYYYYYYYYYYxYu YY3 YYYYYY YYYYn YfYYYYYYYZ uY5 YYYY0 vYYYYYYY6Yz YYY 6Y9 YYYYsYYYY Y5n 3YYi8pY 1Yz6YYY3g7 YYYYY Y2qkYz1YYa
YY9YYYYYf YY9YYYYYYYYYYYYrYyYz YYi YYYYYY Y1YYv YsYZYYYYY uY5 YYYYb vYYYYYYYoYz YYY 6Y YYYYtYYYY Y7 3YYi rY wYz7YYYvku YYYYY Y3zo6 1Yn
YYskYYYYz 5Y8YYYYYYdYY2YY Y Y YY YYYYYY YcYY 5lY8YYd3 Y6 YYY4 v9YYYYYYpYz YYY 6d 1YYYtYYYY Yg 3YYp Y Yz8Y1Y yw Y YYY Y5 q Y
YYw YYY 5dwYYYYhYpZYmYY Y Y YY wYYYYY YdYr z 50Yo 0 Y6 YYY5 v5 vYY4tpY YY 6d 4YYYzYYYY m 3YYq Y Yzh0iY Y 4ZY 98 o
YYw YY7 hfwYYYY b ZYkYY 4 cY yYYYY YdY dzY Y6 Y78 v4 sYYzt Y YY 6d 4YYY 7YYY o 5YYx f Yzy0yY 3 1Y 8
YYx ZYo hfwYYYY ZykY7 wf Z9YY Ydu xz7 Y6 Ykb v3 sYY YY 6d 9YYY uYYy o 5YY f Y zpyY b 1Y z
YY 6Y xywYYYY ZzqYy f YY Ydu Y6 Y vd sYY Yo 6d jYYY 1Yz 5YY Y z 9 g lm
Yi 6Y ygYYY y qq i 9m Ydu Y6 Y vd sYY Y cs vYYY rY 5Yp e z t
6 YYY y s o Ys Yl xd sY Y r vYYY y 5Y z
6 YYY r Ys Yl xd sY Y eYY Y
e YYz r Ys Ym xd Y gYY
x 1Y z 6o ze 8 mYY
14 6o e o5
4 do t
4 dv v
h ex v
dx
ux
ux
x
x
x
y
📦 モデルと結果
Mistral 7B 0.2をASCIIアートで微調整しました。結果からわかるように、この実験はあまり成果がありませんでした。
- 2エポック - 0-hero/mistral-speech-to-text-preview - このエポックの後、損失はほぼ横ばいになりました。
-
Metrics: rouge-1: {'r': 0.12919024091165357, 'p': 0.1163312036605547, 'f': 0.11315199212991178} rouge-2: {'r': 0.013705453572242508, 'p': 0.0137500428446463, 'f': 0.012676757505648992} rouge-l: {'r': 0.11261286554140228, 'p': 0.09921920076529338, 'f': 0.09705621471622536} length_correlation: 0.014470676120233311 avg_actual_length: 16.59 avg_pred_length: 21.46 exact_match_accuracy: 0.0
-
- 4エポック - 0-hero/mistral-speech-to-text - (こちら)
-
Metrics: rouge-1: {'r': 0.11869828051815862, 'p': 0.11697319273190071, 'f': 0.11154343875398197} rouge-2: {'r': 0.008572925612399297, 'p': 0.009040061245943597, 'f': 0.008369604666309954} rouge-l: {'r': 0.10780857719316121, 'p': 0.10373665666448233, 'f': 0.09985384905943501} length_correlation: -0.1500200314034927 avg_actual_length: 16.59 avg_pred_length: 18.32 exact_match_accuracy: 0.0
-
📚 データセット
lj_speechデータセットを使用して、音声波形をASCIIアートに変換しました。
- 0-hero/lj_speech_with_spectogram_conversations - 訓練データとテストデータに分割されたShareGPTスタイルの微調整用データセット
- 0-hero/lj_speech_with_spectogram - ASCIIアートを含む生データセット
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で公開されています。
Qwen2 Audio 7B
Apache-2.0
Qwen2-Audioは通義千問の大規模音声言語モデルシリーズで、音声チャットと音声分析の2つのインタラクションモードをサポートしています。
音声生成テキスト
Transformers English

Q
Qwen
28.26k
114
Qwen2 Audio 7B GGUF
Apache-2.0
Qwen2-Audioは先進的な小規模マルチモーダルモデルで、音声とテキスト入力をサポートし、音声認識モジュールに依存せずに音声インタラクションを実現します。
音声生成テキスト English
Q
NexaAIDev
5,001
153
Ultravox V0 5 Llama 3 3 70b
MIT
UltravoxはLlama3.3-70BとWhisperを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力をサポートし、音声エージェントや翻訳などのシナリオに適しています。
音声生成テキスト
Transformers Supports Multiple Languages

U
fixie-ai
3,817
26
Ultravox V0 4
MIT
UltravoxはLlama3.1-8B-InstructとWhisper-mediumを基にしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers Supports Multiple Languages

U
fixie-ai
1,851
48
Aero 1 Audio
MIT
軽量級オーディオモデル、音声認識、オーディオ理解及びオーディオ命令実行などの多様なタスクに優れる
音声生成テキスト
Transformers English

A
lmms-lab
1,348
74
Ultravox V0 4 1 Mistral Nemo
MIT
UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。
音声生成テキスト
Transformers Supports Multiple Languages

U
fixie-ai
1,285
25
Ultravox V0 6 Qwen 3 32b
MIT
Ultravoxはマルチモーダル音声大規模言語モデルで、音声入力を理解して処理することができ、複数の言語とノイズ環境をサポートします。
音声生成テキスト
Transformers Supports Multiple Languages

U
fixie-ai
1,240
0
Omniaudio 2.6B
Apache-2.0
世界最速かつ最も効率的なエッジデバイス向け音声言語モデル、2.6Bパラメータのマルチモーダルモデルで、テキストと音声入力を同時に処理可能。
音声生成テキスト English
O
NexaAIDev
1,149
265
Qwen2 Audio 7B Instruct 4bit
これはQwen2-Audio-7B-Instructの4ビット量子化バージョンで、アリババクラウドのオリジナルQwenモデルに基づいて開発された、オーディオ-テキストマルチモーダル大規模言語モデルです。
音声生成テキスト
Transformers

Q
alicekyting
1,090
6
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravoxは多言語音声テキスト変換モデルで、LLaMA-3-2.1Bアーキテクチャを最適化し、複数言語の音声認識と文字起こしタスクをサポートします。
音声生成テキスト
Transformers Supports Multiple Languages

U
onnx-community
1,088
3
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98