Mistral Speech To Text
这是一个实验性模型,通过将音频波形转换为ASCII艺术,然后微调Mistral模型来预测文本。
下载量 20
发布时间 : 4/4/2024
模型简介
该模型尝试通过音频波形的ASCII艺术表示来进行语音到文本的转换,是一个概念验证项目。
模型特点
创新的ASCII艺术输入
将音频波形转换为ASCII艺术作为模型输入,探索非传统语音识别方法
基于Mistral微调
利用强大的Mistral 7B模型作为基础进行微调
实验性方法
展示了一种新颖但尚不成熟的语音识别思路
模型能力
音频波形分析
ASCII艺术理解
文本预测
使用案例
语音识别研究
语音识别替代方法探索
探索不依赖传统频谱分析的语音识别方法
目前效果有限,ROUGE-1 F1分数约0.11
教育演示
机器学习创新方法教学
展示非传统输入表示在NLP中的应用
🚀 基于Mistral的语音转文本实验项目
本项目是一个受Mistral Hackathon中 Mistral playing DOOM experiment 启发的小实验,旨在探索通过将音频波形转换为ASCII艺术形式,再利用Mistral模型进行微调,实现从音频波形预测文本的功能。
🚀 快速开始
项目原理
音频 -> 波形可视化 -> 波形ASCII艺术 -> 在ASCII艺术上微调Mistral以从ASCII艺术预测文本
视频介绍
示例波形
示例ASCII艺术
y
x
x
x
ux
tx
dx
9 ex v
4 dr v
4 do s
1Y 6o e o5
x 1Y y 6o ze 7 iYY
e YYz r Ys Ym xd Y gYY
6 YYY r Ys Yl xd sY Y eYY Y
z 6 YYY y s k z Ys Yl xd sY Y m vYYY s 5Y z
Yh 6Y xfYYY y qq i 2m Ydu Y6 Y vd sYY Yz cq vYYY eY 5Y0 b z q
YYz 6Y xywYYYY ZzqYt f YY Ydu Y6 Y vd sYY Yl 6d iYYY YYz 5YY Y z 9 g il
YYx YYo gfwYYYY ZxkY6 wf Z9YY Ydu xz6 Y6 Yi8 v4 sYY z YY 6d 4YYY uYYu o 5YY f Y zkyY 0 1Y z
YYw YY7 hfwYYYY 7 ZYkYY 1 z 7Y yYYYY YdY 8zY Y6 Y78 v4 sYYyt Y YY 6d 4YYYz3YYY o 4YYx e Yzx0xY Z 1Y 8
YYw YYY 5dwYYYYeYmZYmYY Y Y YY sYYYYY YdYl x 50Yo 9 Y6 YYY4 v5 vYY3tpY YY 6d 4YYYyYYYY m 3YYq Y Yzg0iY Y 4ZY 98 p
YYsjYYYYz 5Y7YYYYYYdYYYYY Y Y YY YYYYYY YcYY 5lY8YYa1 Y6 YYY2 v7YYYYYYpYz YYY 6d ZYYYtYYYY Yg 3YYo Y Yz8YZY xw Y YYY Y5 p Y
YY6YYYYYa YY9YYYYYYYYYYYYrYyYz YYe YYYYYY YYYYv YsYYYYYYY uY5 YYYY0 vYYYYYYYoYz YYY 6Y YYYYtYYYY Y7 3YYi rY wYz7YYYvkt YYYYY Y4yo4 1Yay
3YYdYYYYY8 YYYYYYYYYYYYYYYYYwYu YY3 YYYYYY YYYYn YeYYYYYYYZ uY5 YYYY0 uYYYYYYY6Yz YYY 6Y9 YYYYsYYYY Y58 3YYi6pY ZYz5YYY2e5 YYYYY Y2qeYz1YY9
YYY5YYYYY5 YYYYYYYYYYYYYYYYYuYu YY1 YYYYYY YYYY3 YYYYYYYYYY uYYYYYYY0 hYYYYYYY6YyrYYY 6YY YYYYYYYYY YYY 3YYfYsY YYz1YYY1Y2Y YYYYY YYq0YYYYYY
YYYYYYYYYY YYYYYYYYYYYYYYYYYsYuyYYYoYYYYYY1 YYYY2YYYYYYYYYYY vYYYYYYYY z4YYYYYYYYYYYYYYZg1YYYYYYYYYYYYzYYYz ZYYYYdYlYYYYYYYZYYY YYYYYzYYYYYYYYYY
YYYYYYYYYYYYY1YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYZY112YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY
YYY1YYYYYY YYYYYYYYYYYYYYYYYsYu YYYoYYYYYY4 YYYY2YYYYYYYYYYY vYYYYYYYY 7YYYYYYYZYYYYYYZv7YYYYYYYYYYYY YYYz 1YYYYdYmYYYYYYYZYYY YYYYYzYYYYYYYYYY
YYY6YYYYY6 YYYYYYYYYYYYYYYYYvYu YY1 YYYYYY YYYY3 YYYYYYYYYY uYYYYYYY0 hYYYYYYY6YyxYYY 6YY YYYYYYYYY YYY 3YYfYtY YYz3YYY1Y2Y YYYYY YYq0YYYYYY
cYYcYYYYY8 YYYYYYYYYYYYYYYYYxYu YY3 YYYYYY YYYYn YfYYYYYYYZ uY5 YYYY0 vYYYYYYY6Yz YYY 6Y9 YYYYsYYYY Y5n 3YYi8pY 1Yz6YYY3g7 YYYYY Y2qkYz1YYa
YY9YYYYYf YY9YYYYYYYYYYYYrYyYz YYi YYYYYY Y1YYv YsYZYYYYY uY5 YYYYb vYYYYYYYoYz YYY 6Y YYYYtYYYY Y7 3YYi rY wYz7YYYvku YYYYY Y3zo6 1Yn
YYskYYYYz 5Y8YYYYYYdYY2YY Y Y YY YYYYYY YcYY 5lY8YYd3 Y6 YYY4 v9YYYYYYpYz YYY 6d 1YYYtYYYY Yg 3YYp Y Yz8Y1Y yw Y YYY Y5 q Y
YYw YYY 5dwYYYYhYpZYmYY Y Y YY wYYYYY YdYr z 50Yo 0 Y6 YYY5 v5 vYY4tpY YY 6d 4YYYzYYYY m 3YYq Y Yzh0iY Y 4ZY 98 o
YYw YY7 hfwYYYY b ZYkYY 4 cY yYYYY YdY dzY Y6 Y78 v4 sYYzt Y YY 6d 4YYY 7YYY o 5YYx f Yzy0yY 3 1Y 8
YYx ZYo hfwYYYY ZykY7 wf Z9YY Ydu xz7 Y6 Ykb v3 sYY YY 6d 9YYY uYYy o 5YY f Y zpyY b 1Y z
YY 6Y xywYYYY ZzqYy f YY Ydu Y6 Y vd sYY Yo 6d jYYY 1Yz 5YY Y z 9 g lm
Yi 6Y ygYYY y qq i 9m Ydu Y6 Y vd sYY Y cs vYYY rY 5Yp e z t
6 YYY y s o Ys Yl xd sY Y r vYYY y 5Y z
6 YYY r Ys Yl xd sY Y eYY Y
e YYz r Ys Ym xd Y gYY
x 1Y z 6o ze 8 mYY
14 6o e o5
4 do t
4 dv v
h ex v
dx
ux
ux
x
x
x
y
📚 详细文档
模型与结果
本项目使用Mistral 7B 0.2在ASCII艺术上进行微调。从结果来看,实验效果并不理想。
- 2个训练轮次 - 0-hero/mistral-speech-to-text-preview - 在此轮次后损失基本趋于平稳。
评估指标: rouge-1: {'r': 0.12919024091165357, 'p': 0.1163312036605547, 'f': 0.11315199212991178} rouge-2: {'r': 0.013705453572242508, 'p': 0.0137500428446463, 'f': 0.012676757505648992} rouge-l: {'r': 0.11261286554140228, 'p': 0.09921920076529338, 'f': 0.09705621471622536} length_correlation: 0.014470676120233311 avg_actual_length: 16.59 avg_pred_length: 21.46 exact_match_accuracy: 0.0
- 4个训练轮次 - 0-hero/mistral-speech-to-text - (当前模型)
评估指标: rouge-1: {'r': 0.11869828051815862, 'p': 0.11697319273190071, 'f': 0.11154343875398197} rouge-2: {'r': 0.008572925612399297, 'p': 0.009040061245943597, 'f': 0.008369604666309954} rouge-l: {'r': 0.10780857719316121, 'p': 0.10373665666448233, 'f': 0.09985384905943501} length_correlation: -0.1500200314034927 avg_actual_length: 16.59 avg_pred_length: 18.32 exact_match_accuracy: 0.0
数据集
项目使用 lj_speech 数据集将音频波形转换为ASCII艺术。
- 0-hero/lj_speech_with_spectogram_conversations - 采用ShareGPT风格的微调数据集,包含训练集和测试集。
- 0-hero/lj_speech_with_spectogram - 包含ASCII艺术的原始数据集。
📄 许可证
本项目采用Apache 2.0许可证。
Qwen2 Audio 7B
Apache-2.0
Qwen2-Audio是通义千问大音频语言模型系列,支持语音聊天和音频分析两种交互模式。
音频生成文本
Transformers 英语

Q
Qwen
28.26k
114
Qwen2 Audio 7B GGUF
Apache-2.0
Qwen2-Audio是先进的小规模多模态模型,支持音频与文本输入,无需依赖语音识别模块即可实现语音交互。
音频生成文本 英语
Q
NexaAIDev
5,001
153
Ultravox V0 5 Llama 3 3 70b
MIT
Ultravox是基于Llama3.3-70B和Whisper构建的多模态语音大语言模型,支持语音和文本输入,适用于语音代理、翻译等场景。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
3,817
26
Ultravox V0 4
MIT
Ultravox 是一款基于 Llama3.1-8B-Instruct 和 Whisper-medium 的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
1,851
48
Aero 1 Audio
MIT
轻量级音频模型,擅长语音识别、音频理解及执行音频指令等多元任务
音频生成文本
Transformers 英语

A
lmms-lab
1,348
74
Ultravox V0 4 1 Mistral Nemo
MIT
Ultravox 是一个基于 Mistral-Nemo 和 Whisper 的多模态模型,可同时处理语音和文本输入,适用于语音代理、语音翻译等任务。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
1,285
25
Ultravox V0 6 Qwen 3 32b
MIT
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
1,240
0
Omniaudio 2.6B
Apache-2.0
全球最快、最高效的端侧部署音频语言模型,2.6B参数的多模态模型,可同时处理文本和音频输入。
音频生成文本 英语
O
NexaAIDev
1,149
265
Qwen2 Audio 7B Instruct 4bit
这是Qwen2-Audio-7B-Instruct的4位量化版本,基于阿里巴巴云原版Qwen模型开发,是一个音频-文本多模态大语言模型。
音频生成文本
Transformers

Q
alicekyting
1,090
6
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravox是一个多语言音频转文本模型,基于LLaMA-3-2.1B架构优化,支持多种语言的语音识别和转录任务。
音频生成文本
Transformers 支持多种语言

U
onnx-community
1,088
3
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98