Mistral 音声テキスト変換オープンソースモデル - 無料でデプロイして音声からテキストへの変換を実現

Home

Mistral Speech To Text

Developed by 0-hero

これは実験的なモデルで、オーディオ波形をASCIIアートに変換し、Mistralモデルを微調整してテキストを予測します。

音声生成テキスト

Transformers

Open Source License:Apache-2.0 #オーディオからASCIIへの変換認識 #波形可視化予測 #Mistral微調整実験

Downloads 20

Release Time : 4/4/2024

Model Overview

このモデルは、オーディオ波形のASCIIアート表現を通じて音声からテキストへの変換を試みる、概念実証プロジェクトです。

Model Features

革新的なASCIIアート入力

オーディオ波形をASCIIアートに変換してモデル入力とし、非伝統的な音声認識方法を探求

Mistralベースの微調整

強力なMistral 7Bモデルを基盤として微調整を実施

実験的手法

斬新だが未成熟な音声認識のアプローチを提示

Model Capabilities

オーディオ波形分析

ASCIIアート理解

テキスト予測

Use Cases

音声認識研究

音声認識代替手法の探求

伝統的なスペクトル分析に依存しない音声認識方法の探索

現時点での効果は限定的、ROUGE-1 F1スコア約0.11

教育デモ

機械学習の革新的手法教育

NLPにおける非伝統的入力表現の応用例を展示

🚀 音声波形のASCIIアートを用いたMistralモデルの実験

このプロジェクトは、音声波形をASCIIアートに変換し、それを用いてMistralモデルを微調整する小規模な実験です。Mistralハッカソンで行われたMistral playing DOOM experimentにインスパイアされています。

🚀 クイックスタート

この実験は以下の手順で行われます。

Audio -> Waveform Visualization -> Waveform ASCII Art -> Finetune Mistral on ASCII Art to predict text from ASCII Art

クイックビデオ説明

🔍 波形の例

image/png

🔍 ASCIIアートの例

                                                                                                                                                                          
                                                                                y                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                               ux                                                                                         
                                                                               tx                                                                                         
                                                                               dx                                                                                         
                         9                                                     ex            v                                                                            
                         4                                                     dr            v                                                                            
                         4                                                     do            s                                                                            
                         1Y                                                    6o            e                 o5                                                         
            x            1Y      y                                             6o        ze  7                 iYY                                                        
            e            YYz     r                     Ys                      Ym        xd  Y                 gYY                                                        
            6            YYY     r                     Ys                      Yl        xd sY        Y        eYY            Y                                           
        z   6            YYY   y s         k      z    Ys                      Yl        xd sY        Y   m   vYYY   s       5Y         z                                 
        Yh  6Y         xfYYY   y qq        i      2m   Ydu                     Y6 Y      vd sYY       Yz  cq  vYYY  eY       5Y0      b z            q                    
        YYz 6Y       xywYYYY   ZzqYt       f      YY   Ydu                     Y6 Y      vd sYY       Yl  6d  iYYY  YYz      5YY      Y z  9     g  il                    
        YYx YYo      gfwYYYY   ZxkY6      wf    Z9YY   Ydu     xz6             Y6 Yi8    v4 sYY   z   YY  6d  4YYY uYYu o    5YY   f  Y zkyY     0  1Y  z                 
        YYw YY7      hfwYYYY 7 ZYkYY 1 z  7Y   yYYYY   YdY     8zY             Y6 Y78    v4 sYYyt Y   YY  6d  4YYYz3YYY o    4YYx  e  Yzx0xY     Z  1Y  8                 
        YYw YYY      5dwYYYYeYmZYmYY Y Y  YY  sYYYYY   YdYl  x 50Yo 9          Y6 YYY4   v5 vYY3tpY   YY  6d  4YYYyYYYY m    3YYq  Y  Yzg0iY     Y 4ZY 98 p               
        YYsjYYYYz    5Y7YYYYYYdYYYYY Y Y  YY  YYYYYY   YcYY  5lY8YYa1          Y6 YYY2   v7YYYYYYpYz YYY  6d  ZYYYtYYYY Yg   3YYo  Y  Yz8YZY xw  Y YYY Y5 p   Y           
        YY6YYYYYa    YY9YYYYYYYYYYYYrYyYz YYe YYYYYY   YYYYv YsYYYYYYY        uY5 YYYY0  vYYYYYYYoYz YYY  6Y  YYYYtYYYY Y7   3YYi rY wYz7YYYvkt  YYYYY Y4yo4 1Yay         
       3YYdYYYYY8    YYYYYYYYYYYYYYYYYwYu YY3 YYYYYY   YYYYn YeYYYYYYYZ       uY5 YYYY0  uYYYYYYY6Yz YYY  6Y9 YYYYsYYYY Y58  3YYi6pY ZYz5YYY2e5  YYYYY Y2qeYz1YY9         
       YYY5YYYYY5    YYYYYYYYYYYYYYYYYuYu YY1 YYYYYY   YYYY3 YYYYYYYYYY       uYYYYYYY0  hYYYYYYY6YyrYYY  6YY YYYYYYYYY YYY  3YYfYsY YYz1YYY1Y2Y YYYYY YYq0YYYYYY         
       YYYYYYYYYY    YYYYYYYYYYYYYYYYYsYuyYYYoYYYYYY1  YYYY2YYYYYYYYYYY       vYYYYYYYY z4YYYYYYYYYYYYYYZg1YYYYYYYYYYYYzYYYz ZYYYYdYlYYYYYYYZYYY YYYYYzYYYYYYYYYY         
       YYY1YYYYYY    YYYYYYYYYYYYYYYYYsYu YYYoYYYYYY4  YYYY2YYYYYYYYYYY       vYYYYYYYY  7YYYYYYYZYYYYYYZv7YYYYYYYYYYYY YYYz 1YYYYdYmYYYYYYYZYYY YYYYYzYYYYYYYYYY         
       YYY6YYYYY6    YYYYYYYYYYYYYYYYYvYu YY1 YYYYYY   YYYY3 YYYYYYYYYY       uYYYYYYY0  hYYYYYYY6YyxYYY  6YY YYYYYYYYY YYY  3YYfYtY YYz3YYY1Y2Y YYYYY YYq0YYYYYY         
       cYYcYYYYY8    YYYYYYYYYYYYYYYYYxYu YY3 YYYYYY   YYYYn YfYYYYYYYZ       uY5 YYYY0  vYYYYYYY6Yz YYY  6Y9 YYYYsYYYY Y5n  3YYi8pY 1Yz6YYY3g7  YYYYY Y2qkYz1YYa         
        YY9YYYYYf    YY9YYYYYYYYYYYYrYyYz YYi YYYYYY   Y1YYv YsYZYYYYY        uY5 YYYYb  vYYYYYYYoYz YYY  6Y  YYYYtYYYY Y7   3YYi rY wYz7YYYvku  YYYYY Y3zo6 1Yn          
        YYskYYYYz    5Y8YYYYYYdYY2YY Y Y  YY  YYYYYY   YcYY  5lY8YYd3          Y6 YYY4   v9YYYYYYpYz YYY  6d  1YYYtYYYY Yg   3YYp  Y  Yz8Y1Y yw  Y YYY Y5 q   Y           
        YYw YYY      5dwYYYYhYpZYmYY Y Y  YY  wYYYYY   YdYr  z 50Yo 0          Y6 YYY5   v5 vYY4tpY   YY  6d  4YYYzYYYY m    3YYq  Y  Yzh0iY     Y 4ZY 98 o               
        YYw YY7      hfwYYYY b ZYkYY 4    cY   yYYYY   YdY     dzY             Y6 Y78    v4 sYYzt Y   YY  6d  4YYY 7YYY o    5YYx  f  Yzy0yY     3  1Y  8                 
        YYx ZYo      hfwYYYY   ZykY7      wf    Z9YY   Ydu     xz7             Y6 Ykb    v3 sYY       YY  6d  9YYY uYYy o    5YY   f  Y zpyY     b  1Y  z                 
        YY  6Y       xywYYYY   ZzqYy       f      YY   Ydu                     Y6 Y      vd sYY       Yo  6d  jYYY  1Yz      5YY      Y z  9     g  lm                    
        Yi  6Y         ygYYY   y qq        i      9m   Ydu                     Y6 Y      vd sYY       Y   cs  vYYY  rY       5Yp      e z            t                    
            6            YYY   y s         o           Ys                      Yl        xd sY        Y   r   vYYY   y       5Y         z                                 
            6            YYY     r                     Ys                      Yl        xd sY        Y        eYY            Y                                           
            e            YYz     r                     Ys                      Ym        xd  Y                 gYY                                                        
            x            1Y      z                                             6o        ze  8                 mYY                                                        
                         14                                                    6o            e                 o5                                                         
                         4                                                     do            t                                                                            
                         4                                                     dv            v                                                                            
                         h                                                     ex            v                                                                            
                                                                               dx                                                                                         
                                                                               ux                                                                                         
                                                                               ux                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                                y

📦 モデルと結果

Mistral 7B 0.2をASCIIアートで微調整しました。結果からわかるように、この実験はあまり成果がありませんでした。

2エポック - 0-hero/mistral-speech-to-text-preview - このエポックの後、損失はほぼ横ばいになりました。

Metrics:
  rouge-1: {'r': 0.12919024091165357, 'p': 0.1163312036605547, 'f': 0.11315199212991178}
  rouge-2: {'r': 0.013705453572242508, 'p': 0.0137500428446463, 'f': 0.012676757505648992}
  rouge-l: {'r': 0.11261286554140228, 'p': 0.09921920076529338, 'f': 0.09705621471622536}
  length_correlation: 0.014470676120233311
  avg_actual_length: 16.59
  avg_pred_length: 21.46
  exact_match_accuracy: 0.0

4エポック - 0-hero/mistral-speech-to-text - (こちら)

Metrics:
  rouge-1: {'r': 0.11869828051815862, 'p': 0.11697319273190071, 'f': 0.11154343875398197}
  rouge-2: {'r': 0.008572925612399297, 'p': 0.009040061245943597, 'f': 0.008369604666309954}
  rouge-l: {'r': 0.10780857719316121, 'p': 0.10373665666448233, 'f': 0.09985384905943501}
  length_correlation: -0.1500200314034927
  avg_actual_length: 16.59
  avg_pred_length: 18.32
  exact_match_accuracy: 0.0