llama-3-typhoon-v1.5-8b-audio-previewオープンソースモデル - タイ語と英語のバイリンガル処理に対応した音声とテキストの入出力機能付き

ホーム

Llama 3 Typhoon V1.5 8b Audio Preview

scb10xによって開発

Typhoon-Audio プレビュー版はタイ語と英語に対応したオーディオ-言語モデルで、テキストと音声入力を処理し、テキストを出力します。

音声生成テキスト

Transformers

#タイ語・英語音声文字起こし #マルチモーダル音声処理 #低リソース言語サポート

ダウンロード数 218

リリース時間 : 8/10/2024

モデル概要

Typhoon-1.5-8b-instructをベースにしたマルチモーダル音声-言語モデルで、タイ語と英語の音声文字起こし、翻訳、質問応答タスクをサポートします。

モデル特徴

マルチモーダル入力

テキストと音声入力をネイティブにサポートし、テキストを出力します。

タイ語最適化

タイ語に特化して最適化されており、タイ語の音声文字起こしや質問応答をサポートします。

高性能

タイ語ASR、翻訳、質問応答タスクで優れた性能を発揮し、同類のモデルを凌駕します。

モデル能力

音声文字起こし

テキスト生成

音声コマンド理解

多言語翻訳

使用事例

音声文字起こし

タイ語音声文字起こし

タイ語の音声コンテンツをテキストに変換します。

WER（単語誤り率）は14.17

翻訳

英語→タイ語翻訳

英語の音声またはテキストをタイ語に翻訳します。

BLEUスコアは17.52

タイ語→英語翻訳

タイ語の音声またはテキストを英語に翻訳します。

BLEUスコアは24.14

質問応答

タイ語音声質問応答

タイ語音声に基づく質問に回答します。

F1スコアは64.60

🚀 Typhoon-Audio プレビュー

llama-3-typhoon-v1.5-8b-audio-preview は、タイ語の 音声言語 モデルです。このモデルは、テキストと音声の両方の入力モダリティをサポートし、出力はテキスト形式です。2024年8月のこのバージョンは、当社のマルチモーダル取り組みの一環としての最初の音声言語モデルであり、研究用の プレビュー バージョンです。ベースとなる言語モデルは、llama-3-typhoon-v1.5-8b-instruct です。

詳細については、技術レポートを参照してください。*基礎モデルを作成する際のMetaの努力を認め、ライセンスに準拠するため、モデル名に「llama-3」を明示的に含めています。

✨ 主な機能

モデルタイプ：大規模言語モデル（LLM）はTyphoon-1.5-8b-instructに基づいており、音声エンコーダはWhisperのエンコーダとBEATsに基づいています。
要件：transformers 4.38.0以上が必要です。
主な言語：タイ語（🇹🇭）と英語（🇺🇸）
デモ：https://audio.opentyphoon.ai/
ライセンス：Llama 3 Community License

📦 インストール

要件として、transformers 4.38.0以上が必要です。

💻 使用例

基本的な使用法

from transformers import AutoModel
import soundfile as sf
import librosa

# Initialize from the trained model
model = AutoModel.from_pretrained(
    "scb10x/llama-3-typhoon-v1.5-8b-audio-preview", 
    torch_dtype=torch.float16,
    trust_remote_code=True
)
model.to("cuda")
model.eval()

# read a wav file (it needs to be in 16 kHz and clipped to 30 seconds)
audio, sr = sf.read("path_to_your_audio.wav")
if len(audio.shape) == 2:
    audio = audio[:, 0]
if len(audio) > 30 * sr:
    audio = audio[: 30 * sr]
if sr != 16000:
    audio = librosa.resample(audio, orig_sr=sr, target_sr=16000, res_type="fft")

# Run generation
prompt_pattern="<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n<Speech><SpeechHere></Speech> {}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
response = model.generate(
    audio=audio,
    prompt="transcribe this audio",
    prompt_pattern=prompt_pattern,
    do_sample=False,
    max_new_tokens=512,
    repetition_penalty=1.1,
    num_beams=1,
    # temperature=0.4,
    # top_p=0.9,
)
print(response)

高度な使用法

# この関数については、modeling_typhoonaudio.py を参照してください。
# これはストリーミング生成用の model.generate_stream() です。

生成パラメータ:

audio -- 音声入力。例えば、上記の例のように soundfile.read または librosa.resample を使用してwavファイルを読み込みます。
prompt (str) -- モデルへのテキスト入力。
prompt_pattern (str) -- 特殊トークンで拡張されたチャットテンプレート。トレーニング中と同じに設定する必要があります。
max_new_tokens (int, オプション, デフォルトは1024)
num_beams (int, オプション, デフォルトは4)
do_sample (bool, オプション, デフォルトはTrue)
top_p (float, オプション, デフォルトは0.9)
repetition_penalty (float, オプション, デフォルトは1.0)
length_penalty (float, オプション, デフォルトは1.0)
temperature (float, オプション, デフォルトは1.0)

📚 ドキュメント

評価結果

詳細な情報は、技術レポートで提供されています。

モデル	ASR-en (WER↓)	ASR-th (WER↓)	En2Th (BLEU↑)	X2Th (BLEU↑)	Th2En (BLEU↑)
SALMONN-13B	5.79	98.07	0.07	0.10	14.97
DiVA-8B	30.28	65.21	9.82	5.31	7.97
Gemini-1.5-pro-001	5.98	13.56	20.69	13.52	22.54
Typhoon-Audio-Preview	8.72	14.17	17.52	10.67	24.14

モデル	Gender-th (Acc)	SpokenQA-th (F1)	SpeechInstruct-th
SALMONN-13B	93.26	2.95	1.18
DiVA-8B	50.12	15.13	2.68
Gemini-1.5-pro-001	81.32	62.10	3.93
Typhoon-Audio-Preview	93.74	64.60	6.11

想定用途と制限

このモデルは実験的なものであり、必ずしも人間の指示に正確に従うとは限らず、幻覚的な出力を生成する可能性があります。さらに、このモデルにはモデレーション機構がないため、有害または不適切な応答を生成する可能性があります。開発者は、特定のアプリケーションに基づいて潜在的なリスクを慎重に評価する必要があります。

🤝 フォローとサポート

https://twitter.com/opentyphoon
https://discord.gg/us5gAYmrxw

🙏 謝辞

SALMONNチームがコードとデータをオープンソース化してくれたこと、およびマヒドール大学のBiomedical and Data Labが微調整されたWhisperを公開してくれたことで、そのエンコーダを採用することができたことに感謝します。また、多くのオープンソースプロジェクトが有用な知識共有、データ、コード、およびモデルの重みを提供してくれたことにも感謝します。

タイフーンチーム

Potsawee Manakul, Sittipong Sripaisarnmongkol, Natapong Nitarach, Warit Sirichotedumrong, Adisai Na-Thalang, Phatrasek Jirabovonvisut, Parinthapat Pengpun, Krisanapong Jirayoot, Pathomporn Chokchainant, Kasima Tharnpipitchai, Kunat Pipatanakul