Shuka-1開源語言模型 - 支持印度語言音頻理解與多語言零樣本問答

首頁

Shuka 1

由sarvamai開發

Shuka v1 是一款原生支持印度語言音頻理解的語言模型，結合自主研發的音頻編碼器和Llama3-8B-Instruct解碼器，支持多語言零樣本問答任務。

音頻生成文本

Transformers

支持多種語言#印度語言音頻理解 #零樣本多語言支持 #高效微調投影器

下載量 729

發布時間 : 8/8/2024

模型概述

Shuka v1 是一個音頻轉文本模型，專為印度語言設計，支持英語和印地語，並在其他印度語言上表現優異。

模型特點

多語言支持

原生支持英語和印地語，並在其他印度語言上表現優異。

高效訓練

僅使用不足100小時的音頻數據進行訓練，僅微調投影器權重。

零樣本問答

在其他印度語言的零樣本問答任務中表現優異。

模型能力

音頻轉文本

多語言音頻理解

零樣本問答

使用案例

語音識別

印地語語音轉文本

將印地語音頻轉換為文本

高準確率的文本輸出

多語言問答

多語言零樣本問答

在未專門訓練的語言上進行問答任務

表現優異

🚀 Shuka v1 語言模型

Shuka v1 是一款能夠原生理解印度語系音頻的語言模型。它結合了先進的音頻編碼器與強大的解碼器，為印度語系音頻處理帶來了高效且精準的解決方案，在多語言音頻問答等場景中展現出卓越的性能。

🚀 快速開始

你可以通過以下步驟使用 Shuka v1：

# install libraries
# pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

import transformers
import librosa

# load the model pipeline on gpu:0
pipe = transformers.pipeline(model='sarvamai/shuka_v1', trust_remote_code=True, device=0, torch_dtype='bfloat16')

# get a sample audio
# wget https://huggingface.co/sarvamai/shuka_v1/resolve/main/hi-question.webm

audio, sr = librosa.load("./hi-question.webm", sr=16000)
turns = [
          {'role': 'system', 'content': 'Respond naturally and informatively.'},
          {'role': 'user', 'content': '<|audio|>'}
        ]

pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=512)

✨ 主要特性

多語言支持：雖然僅在英語和印地語數據上微調投影器，但編碼器的多語言特性使 Shuka v1 在其他印度語系語言的零樣本問答中表現出色，已在孟加拉語、英語、古吉拉特語、印地語、卡納達語、馬拉雅拉姆語、馬拉地語、奧里亞語、旁遮普語、泰米爾語和泰盧固語等語言上進行了測試。
高效訓練：遵循節儉訓練模型的傳統，Shuka v1 在不到 100 小時的音頻數據上進行訓練。
模型架構：由編碼器 - 解碼器架構組成，編碼器採用自研的先進音頻編碼器 Saaras v1，解碼器採用 Meta 的 Llama3 - 8B - Instruct，兩者通過一個約 6000 萬參數的小型投影器連接，訓練時僅微調投影器的權重，其餘網絡保持凍結。

📦 安裝指南

安裝所需的庫：

pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

💻 使用示例

基礎用法

# install libraries
# pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

import transformers
import librosa

# load the model pipeline on gpu:0
pipe = transformers.pipeline(model='sarvamai/shuka_v1', trust_remote_code=True, device=0, torch_dtype='bfloat16')

# get a sample audio
# wget https://huggingface.co/sarvamai/shuka_v1/resolve/main/hi-question.webm

audio, sr = librosa.load("./hi-question.webm", sr=16000)
turns = [
          {'role': 'system', 'content': 'Respond naturally and informatively.'},
          {'role': 'user', 'content': '<|audio|>'}
        ]

pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=512)