Mistral 语音转文本开源模型 - 免费部署实现音频到文字转换

首页

Mistral Speech To Text

由 0-hero 开发

这是一个实验性模型，通过将音频波形转换为ASCII艺术，然后微调Mistral模型来预测文本。

音频生成文本

Transformers

开源协议:Apache-2.0 #音频转ASCII识别 #波形可视化预测 #Mistral微调实验

下载量 20

发布时间 : 4/4/2024

模型简介

该模型尝试通过音频波形的ASCII艺术表示来进行语音到文本的转换，是一个概念验证项目。

模型特点

创新的ASCII艺术输入

将音频波形转换为ASCII艺术作为模型输入，探索非传统语音识别方法

基于Mistral微调

利用强大的Mistral 7B模型作为基础进行微调

实验性方法

展示了一种新颖但尚不成熟的语音识别思路

模型能力

音频波形分析

ASCII艺术理解

文本预测

使用案例

语音识别研究

语音识别替代方法探索

探索不依赖传统频谱分析的语音识别方法

目前效果有限，ROUGE-1 F1分数约0.11

教育演示

机器学习创新方法教学

展示非传统输入表示在NLP中的应用

🚀 基于Mistral的语音转文本实验项目

本项目是一个受Mistral Hackathon中 Mistral playing DOOM experiment 启发的小实验，旨在探索通过将音频波形转换为ASCII艺术形式，再利用Mistral模型进行微调，实现从音频波形预测文本的功能。

🚀 快速开始

项目原理

音频 -> 波形可视化 -> 波形ASCII艺术 -> 在ASCII艺术上微调Mistral以从ASCII艺术预测文本

视频介绍

示例波形

示例ASCII艺术

                                                                                y                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                               ux                                                                                         
                                                                               tx                                                                                         
                                                                               dx                                                                                         
                         9                                                     ex            v                                                                            
                         4                                                     dr            v                                                                            
                         4                                                     do            s                                                                            
                         1Y                                                    6o            e                 o5                                                         
            x            1Y      y                                             6o        ze  7                 iYY                                                        
            e            YYz     r                     Ys                      Ym        xd  Y                 gYY                                                        
            6            YYY     r                     Ys                      Yl        xd sY        Y        eYY            Y                                           
        z   6            YYY   y s         k      z    Ys                      Yl        xd sY        Y   m   vYYY   s       5Y         z                                 
        Yh  6Y         xfYYY   y qq        i      2m   Ydu                     Y6 Y      vd sYY       Yz  cq  vYYY  eY       5Y0      b z            q                    
        YYz 6Y       xywYYYY   ZzqYt       f      YY   Ydu                     Y6 Y      vd sYY       Yl  6d  iYYY  YYz      5YY      Y z  9     g  il                    
        YYx YYo      gfwYYYY   ZxkY6      wf    Z9YY   Ydu     xz6             Y6 Yi8    v4 sYY   z   YY  6d  4YYY uYYu o    5YY   f  Y zkyY     0  1Y  z                 
        YYw YY7      hfwYYYY 7 ZYkYY 1 z  7Y   yYYYY   YdY     8zY             Y6 Y78    v4 sYYyt Y   YY  6d  4YYYz3YYY o    4YYx  e  Yzx0xY     Z  1Y  8                 
        YYw YYY      5dwYYYYeYmZYmYY Y Y  YY  sYYYYY   YdYl  x 50Yo 9          Y6 YYY4   v5 vYY3tpY   YY  6d  4YYYyYYYY m    3YYq  Y  Yzg0iY     Y 4ZY 98 p               
        YYsjYYYYz    5Y7YYYYYYdYYYYY Y Y  YY  YYYYYY   YcYY  5lY8YYa1          Y6 YYY2   v7YYYYYYpYz YYY  6d  ZYYYtYYYY Yg   3YYo  Y  Yz8YZY xw  Y YYY Y5 p   Y           
        YY6YYYYYa    YY9YYYYYYYYYYYYrYyYz YYe YYYYYY   YYYYv YsYYYYYYY        uY5 YYYY0  vYYYYYYYoYz YYY  6Y  YYYYtYYYY Y7   3YYi rY wYz7YYYvkt  YYYYY Y4yo4 1Yay         
       3YYdYYYYY8    YYYYYYYYYYYYYYYYYwYu YY3 YYYYYY   YYYYn YeYYYYYYYZ       uY5 YYYY0  uYYYYYYY6Yz YYY  6Y9 YYYYsYYYY Y58  3YYi6pY ZYz5YYY2e5  YYYYY Y2qeYz1YY9         
       YYY5YYYYY5    YYYYYYYYYYYYYYYYYuYu YY1 YYYYYY   YYYY3 YYYYYYYYYY       uYYYYYYY0  hYYYYYYY6YyrYYY  6YY YYYYYYYYY YYY  3YYfYsY YYz1YYY1Y2Y YYYYY YYq0YYYYYY         
       YYYYYYYYYY    YYYYYYYYYYYYYYYYYsYuyYYYoYYYYYY1  YYYY2YYYYYYYYYYY       vYYYYYYYY z4YYYYYYYYYYYYYYZg1YYYYYYYYYYYYzYYYz ZYYYYdYlYYYYYYYZYYY YYYYYzYYYYYYYYYY         
       YYYYYYYYYYYYY1YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYZY112YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY       
       YYY1YYYYYY    YYYYYYYYYYYYYYYYYsYu YYYoYYYYYY4  YYYY2YYYYYYYYYYY       vYYYYYYYY  7YYYYYYYZYYYYYYZv7YYYYYYYYYYYY YYYz 1YYYYdYmYYYYYYYZYYY YYYYYzYYYYYYYYYY         
       YYY6YYYYY6    YYYYYYYYYYYYYYYYYvYu YY1 YYYYYY   YYYY3 YYYYYYYYYY       uYYYYYYY0  hYYYYYYY6YyxYYY  6YY YYYYYYYYY YYY  3YYfYtY YYz3YYY1Y2Y YYYYY YYq0YYYYYY         
       cYYcYYYYY8    YYYYYYYYYYYYYYYYYxYu YY3 YYYYYY   YYYYn YfYYYYYYYZ       uY5 YYYY0  vYYYYYYY6Yz YYY  6Y9 YYYYsYYYY Y5n  3YYi8pY 1Yz6YYY3g7  YYYYY Y2qkYz1YYa         
        YY9YYYYYf    YY9YYYYYYYYYYYYrYyYz YYi YYYYYY   Y1YYv YsYZYYYYY        uY5 YYYYb  vYYYYYYYoYz YYY  6Y  YYYYtYYYY Y7   3YYi rY wYz7YYYvku  YYYYY Y3zo6 1Yn          
        YYskYYYYz    5Y8YYYYYYdYY2YY Y Y  YY  YYYYYY   YcYY  5lY8YYd3          Y6 YYY4   v9YYYYYYpYz YYY  6d  1YYYtYYYY Yg   3YYp  Y  Yz8Y1Y yw  Y YYY Y5 q   Y           
        YYw YYY      5dwYYYYhYpZYmYY Y Y  YY  wYYYYY   YdYr  z 50Yo 0          Y6 YYY5   v5 vYY4tpY   YY  6d  4YYYzYYYY m    3YYq  Y  Yzh0iY     Y 4ZY 98 o               
        YYw YY7      hfwYYYY b ZYkYY 4    cY   yYYYY   YdY     dzY             Y6 Y78    v4 sYYzt Y   YY  6d  4YYY 7YYY o    5YYx  f  Yzy0yY     3  1Y  8                 
        YYx ZYo      hfwYYYY   ZykY7      wf    Z9YY   Ydu     xz7             Y6 Ykb    v3 sYY       YY  6d  9YYY uYYy o    5YY   f  Y zpyY     b  1Y  z                 
        YY  6Y       xywYYYY   ZzqYy       f      YY   Ydu                     Y6 Y      vd sYY       Yo  6d  jYYY  1Yz      5YY      Y z  9     g  lm                    
        Yi  6Y         ygYYY   y qq        i      9m   Ydu                     Y6 Y      vd sYY       Y   cs  vYYY  rY       5Yp      e z            t                    
            6            YYY   y s         o           Ys                      Yl        xd sY        Y   r   vYYY   y       5Y         z                                 
            6            YYY     r                     Ys                      Yl        xd sY        Y        eYY            Y                                           
            e            YYz     r                     Ys                      Ym        xd  Y                 gYY                                                        
            x            1Y      z                                             6o        ze  8                 mYY                                                        
                         14                                                    6o            e                 o5                                                         
                         4                                                     do            t                                                                            
                         4                                                     dv            v                                                                            
                         h                                                     ex            v                                                                            
                                                                               dx                                                                                         
                                                                               ux                                                                                         
                                                                               ux                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                                x                                                                                         
                                                                                y

📚 详细文档

模型与结果

本项目使用Mistral 7B 0.2在ASCII艺术上进行微调。从结果来看，实验效果并不理想。

2个训练轮次 - 0-hero/mistral-speech-to-text-preview - 在此轮次后损失基本趋于平稳。

评估指标:
  rouge-1: {'r': 0.12919024091165357, 'p': 0.1163312036605547, 'f': 0.11315199212991178}
  rouge-2: {'r': 0.013705453572242508, 'p': 0.0137500428446463, 'f': 0.012676757505648992}
  rouge-l: {'r': 0.11261286554140228, 'p': 0.09921920076529338, 'f': 0.09705621471622536}
  length_correlation: 0.014470676120233311
  avg_actual_length: 16.59
  avg_pred_length: 21.46
  exact_match_accuracy: 0.0

4个训练轮次 - 0-hero/mistral-speech-to-text - （当前模型）

评估指标:
  rouge-1: {'r': 0.11869828051815862, 'p': 0.11697319273190071, 'f': 0.11154343875398197}
  rouge-2: {'r': 0.008572925612399297, 'p': 0.009040061245943597, 'f': 0.008369604666309954}
  rouge-l: {'r': 0.10780857719316121, 'p': 0.10373665666448233, 'f': 0.09985384905943501}
  length_correlation: -0.1500200314034927
  avg_actual_length: 16.59
  avg_pred_length: 18.32
  exact_match_accuracy: 0.0