Shuka-1开源语言模型 - 支持印度语言音频理解与多语言零样本问答

首页

Shuka 1

由 sarvamai 开发

Shuka v1 是一款原生支持印度语言音频理解的语言模型，结合自主研发的音频编码器和Llama3-8B-Instruct解码器，支持多语言零样本问答任务。

音频生成文本

Transformers

支持多种语言#印度语言音频理解 #零样本多语言支持 #高效微调投影器

下载量 729

发布时间 : 8/8/2024

模型简介

Shuka v1 是一个音频转文本模型，专为印度语言设计，支持英语和印地语，并在其他印度语言上表现优异。

模型特点

多语言支持

原生支持英语和印地语，并在其他印度语言上表现优异。

高效训练

仅使用不足100小时的音频数据进行训练，仅微调投影器权重。

零样本问答

在其他印度语言的零样本问答任务中表现优异。

模型能力

音频转文本

多语言音频理解

零样本问答

使用案例

语音识别

印地语语音转文本

将印地语音频转换为文本

高准确率的文本输出

多语言问答

多语言零样本问答

在未专门训练的语言上进行问答任务

表现优异

🚀 Shuka v1 语言模型

Shuka v1 是一款能够原生理解印度语系音频的语言模型。它结合了先进的音频编码器与强大的解码器，为印度语系音频处理带来了高效且精准的解决方案，在多语言音频问答等场景中展现出卓越的性能。

🚀 快速开始

你可以通过以下步骤使用 Shuka v1：

# install libraries
# pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

import transformers
import librosa

# load the model pipeline on gpu:0
pipe = transformers.pipeline(model='sarvamai/shuka_v1', trust_remote_code=True, device=0, torch_dtype='bfloat16')

# get a sample audio
# wget https://huggingface.co/sarvamai/shuka_v1/resolve/main/hi-question.webm

audio, sr = librosa.load("./hi-question.webm", sr=16000)
turns = [
          {'role': 'system', 'content': 'Respond naturally and informatively.'},
          {'role': 'user', 'content': '<|audio|>'}
        ]

pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=512)

✨ 主要特性

多语言支持：虽然仅在英语和印地语数据上微调投影器，但编码器的多语言特性使 Shuka v1 在其他印度语系语言的零样本问答中表现出色，已在孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语等语言上进行了测试。
高效训练：遵循节俭训练模型的传统，Shuka v1 在不到 100 小时的音频数据上进行训练。
模型架构：由编码器 - 解码器架构组成，编码器采用自研的先进音频编码器 Saaras v1，解码器采用 Meta 的 Llama3 - 8B - Instruct，两者通过一个约 6000 万参数的小型投影器连接，训练时仅微调投影器的权重，其余网络保持冻结。

📦 安装指南

安装所需的库：

pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

💻 使用示例

基础用法

# install libraries
# pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

import transformers
import librosa

# load the model pipeline on gpu:0
pipe = transformers.pipeline(model='sarvamai/shuka_v1', trust_remote_code=True, device=0, torch_dtype='bfloat16')

# get a sample audio
# wget https://huggingface.co/sarvamai/shuka_v1/resolve/main/hi-question.webm

audio, sr = librosa.load("./hi-question.webm", sr=16000)
turns = [
          {'role': 'system', 'content': 'Respond naturally and informatively.'},
          {'role': 'user', 'content': '<|audio|>'}
        ]

pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=512)