Shuka - 1オープンソース言語モデル - インド語の音声理解と多言語ゼロショット質問応答をサポート

ホーム

Shuka 1

sarvamaiによって開発

Shuka v1は、インド言語の音声理解をネイティブサポートする言語モデルで、独自開発の音声エンコーダーとLlama3-8B-Instructデコーダーを組み合わせ、多言語ゼロショットQAタスクをサポートします。

音声生成テキスト

Transformers

複数言語対応#インド言語音声理解 #ゼロショット多言語サポート #効率的なファインチューニングプロジェクター

ダウンロード数 729

リリース時間 : 8/8/2024

モデル概要

Shuka v1は、インド言語向けに設計された音声テキスト変換モデルで、英語とヒンディー語をサポートし、その他のインド言語でも優れた性能を発揮します。

モデル特徴

多言語サポート

英語とヒンディー語をネイティブサポートし、その他のインド言語でも優れた性能を発揮します。

効率的なトレーニング

わずか100時間未満の音声データを使用してトレーニングし、プロジェクターの重みのみをファインチューニングします。

ゼロショットQA

他のインド言語のゼロショットQAタスクで優れた性能を発揮します。

モデル能力

音声テキスト変換

多言語音声理解

ゼロショットQA

使用事例

音声認識

ヒンディー語音声テキスト変換

ヒンディー語の音声をテキストに変換

高精度なテキスト出力

多言語QA

多言語ゼロショットQA

特別にトレーニングされていない言語でQAタスクを実行

優れた性能

🚀 Shuka v1

Shuka v1は、インド諸語の音声をネイティブに理解する言語モデルです。2つのモデルを組み合わせて構築されたエンコーダ・デコーダモデルです。

当社の最先端のオンプレミス音声エンコーダ：Saaras v1
デコーダとしてMetaのLlama3 - 8B - Instruct

エンコーダとデコーダは、約6000万のパラメータを持つ小さなプロジェクターで接続されています。学習中は、プロジェクターの重みのみが微調整され、ネットワークの残りの部分は凍結されます。効率的なモデル学習の伝統に則り、Shuka v1は100時間未満の音声データで学習されています。

英語とヒンディー語のデータでプロジェクターのみを微調整していますが、エンコーダの多言語性により、Shuka v1は他のインド諸語でのゼロショットQAでも良好な性能を発揮します。ベンガル語、英語、グジャラート語、ヒンディー語、カンナダ語、マラヤーラム語、マラーティー語、オリヤー語、パンジャーブ語、タミル語、テルグ語でモデルをテストしています。

このデモビデオでShuka v1の機能を確認し、以下のようにHugging Faceのパイプラインを使用して始めましょう。

🚀 クイックスタート

必要ライブラリのインストール

# install libraries
# pip install transformers==4.41.2 peft==0.11.1 librosa==0.10.2

コード例

import transformers
import librosa

# load the model pipeline on gpu:0
pipe = transformers.pipeline(model='sarvamai/shuka_v1', trust_remote_code=True, device=0, torch_dtype='bfloat16')

# get a sample audio
# wget https://huggingface.co/sarvamai/shuka_v1/resolve/main/hi-question.webm

audio, sr = librosa.load("./hi-question.webm", sr=16000)
turns = [
          {'role': 'system', 'content': 'Respond naturally and informatively.'},
          {'role': 'user', 'content': '<|audio|>'}
        ]

pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=512)