Speechless-llama3.2-v0.1开源文本转语义模型 - 免TTS直接将音频转语义标记

首页

Speechless Llama3.2 V0.1

由 homebrewltd 开发

Speechless是一款紧凑的开源文本转语义模型（10亿参数），旨在直接将音频转换为离散的语义表征标记，无需依赖传统的文本转语音（TTS）模型。

语音合成

Safetensors

支持多种语言开源协议:Apache-2.0 #音频语义标记 #跨语言支持 #端到端语音处理

下载量 28

发布时间 : 12/28/2024

模型简介

该模型通过直接将文本转换为语义语音标记，简化了训练流程，节省了资源，并实现了可扩展性，尤其适用于资源匮乏的语言。

模型特点

直接音频转换

无需依赖传统的文本转语音（TTS）模型，直接将音频转换为离散的语义表征标记。

资源高效

简化了训练流程，节省了资源，尤其适用于资源匮乏的语言。

多语言支持

支持英文和越南文，基于超过400小时的英文和1000小时的越南语数据训练。

模型能力

音频转语义标记

多语言处理

高效资源利用

使用案例

语音处理

语音标记生成

将音频直接转换为离散的语义表征标记，用于后续处理或分析。

词错误率在越南文测试集上为3.99，在英文测试集上为3.27。

🚀 Speechless

Speechless是一个轻量级的开源文本到语义模型（拥有10亿参数），旨在将音频直接转换为离散语义标记，无需借助文本转语音（TTS）模型。与传统的依赖音频生成和处理（TTS → ASR）的流程不同，Speechless通过直接将文本转换为语义语音标记，消除了这种复杂性，简化了训练过程，节省了资源，并实现了可扩展性，尤其适用于低资源语言。

该模型在约400小时的英语数据和约1000小时的越南语数据上进行训练，是Ichigo v0.5系列的核心组件。

如需了解更多详情，请查看我们的官方博客文章。

image/png

🚀 快速开始

你可以使用以下示例代码加载模型。

import torch
from transformers import pipeline

model_id = "homebrewltd/Speechless-llama3.2-v0.1"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")

>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]

✨ 主要特性

轻量级开源文本到语义模型，无需TTS模型。
直接将文本转换为语义语音标记，简化训练，节省资源。
适用于低资源语言，具有可扩展性。
在英语和越南语数据上进行训练。

📦 安装指南

文档未提及安装步骤，跳过该章节。

💻 使用示例

基础用法

import torch
from transformers import pipeline

model_id = "homebrewltd/Speechless-llama3.2-v0.1"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")

>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]

高级用法

文档未提及高级用法代码示例，跳过该部分。

📚 详细文档

模型概述

属性	详情
开发者	Homebrew Research
模型架构	Llama
模型类型	文本到语义
支持语言	英语和越南语
许可证	Apache 2.0

资源

博客：Blog post

预期用途

预期用例：此模型主要用于研究目的。该版本专注于将音频直接转换为离散语义标记，无需借助文本转语音（TTS）模型。
非预期用途：严禁以任何违反适用法律法规的方式使用Ichigo Whisper。

🔧 技术细节

训练规格

参数	值
训练轮数	2
全局批次大小	144
学习率	3e-4
学习率调度器	Cosine
优化器	AdamW
热身比例	0.05
权重衰减	0.01
最大序列长度	512
梯度裁剪范数	1.0

评估

越南语 | 模型名称 | 测试数据集 | 测试样本数 | 字错误率（WER） | |------------|--------------|--------------|-----| | Speechless v0.1 | viet_bud500 | 7500 | 3.99 |
英语 | 模型名称 | 测试数据集 | 测试样本数 | 字错误率（WER） | |------------|--------------|--------------|-----| | Speechless v0.1 | librispeech_asr | 2620 | 3.27 |

📄 许可证

本模型使用Apache 2.0许可证。

致谢

WhisperSpeech
Llama3.2

引用信息

BibTeX

@article{Speechless 2024,
  title={Speechless},
  author={Homebrew Research},
  year=2024,
  month=December},
  url={https://huggingface.co/homebrewltd/Speechless-llama3.2-v0.1}