🚀 Typhoon-Audio プレビュー
llama-3-typhoon-v1.5-8b-audio-preview は、タイ語の 音声言語 モデルです。このモデルは、テキストと音声の両方の入力モダリティをサポートし、出力はテキスト形式です。2024年8月のこのバージョンは、当社のマルチモーダル取り組みの一環としての最初の音声言語モデルであり、研究用の プレビュー バージョンです。ベースとなる言語モデルは、llama-3-typhoon-v1.5-8b-instruct です。
詳細については、技術レポート を参照してください。*基礎モデルを作成する際のMetaの努力を認め、ライセンスに準拠するため、モデル名に「llama-3」を明示的に含めています。
✨ 主な機能
- モデルタイプ:大規模言語モデル(LLM)はTyphoon-1.5-8b-instructに基づいており、音声エンコーダはWhisperのエンコーダとBEATsに基づいています。
- 要件:transformers 4.38.0以上が必要です。
- 主な言語:タイ語(🇹🇭)と英語(🇺🇸)
- デモ:https://audio.opentyphoon.ai/
- ライセンス:Llama 3 Community License
📦 インストール
要件として、transformers 4.38.0以上が必要です。
💻 使用例
基本的な使用法
from transformers import AutoModel
import soundfile as sf
import librosa
model = AutoModel.from_pretrained(
"scb10x/llama-3-typhoon-v1.5-8b-audio-preview",
torch_dtype=torch.float16,
trust_remote_code=True
)
model.to("cuda")
model.eval()
audio, sr = sf.read("path_to_your_audio.wav")
if len(audio.shape) == 2:
audio = audio[:, 0]
if len(audio) > 30 * sr:
audio = audio[: 30 * sr]
if sr != 16000:
audio = librosa.resample(audio, orig_sr=sr, target_sr=16000, res_type="fft")
prompt_pattern="<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n<Speech><SpeechHere></Speech> {}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
response = model.generate(
audio=audio,
prompt="transcribe this audio",
prompt_pattern=prompt_pattern,
do_sample=False,
max_new_tokens=512,
repetition_penalty=1.1,
num_beams=1,
)
print(response)
高度な使用法
生成パラメータ:
- audio -- 音声入力。例えば、上記の例のように
soundfile.read
または librosa.resample
を使用してwavファイルを読み込みます。
- prompt (
str
) -- モデルへのテキスト入力。
- prompt_pattern (
str
) -- 特殊トークンで拡張されたチャットテンプレート。トレーニング中と同じに設定する必要があります。
- max_new_tokens (
int
, オプション, デフォルトは1024)
- num_beams (
int
, オプション, デフォルトは4)
- do_sample (
bool
, オプション, デフォルトはTrue)
- top_p (
float
, オプション, デフォルトは0.9)
- repetition_penalty (
float
, オプション, デフォルトは1.0)
- length_penalty (
float
, オプション, デフォルトは1.0)
- temperature (
float
, オプション, デフォルトは1.0)
📚 ドキュメント
評価結果
詳細な情報は、技術レポート で提供されています。
モデル |
ASR-en (WER↓) |
ASR-th (WER↓) |
En2Th (BLEU↑) |
X2Th (BLEU↑) |
Th2En (BLEU↑) |
SALMONN-13B |
5.79 |
98.07 |
0.07 |
0.10 |
14.97 |
DiVA-8B |
30.28 |
65.21 |
9.82 |
5.31 |
7.97 |
Gemini-1.5-pro-001 |
5.98 |
13.56 |
20.69 |
13.52 |
22.54 |
Typhoon-Audio-Preview |
8.72 |
14.17 |
17.52 |
10.67 |
24.14 |
モデル |
Gender-th (Acc) |
SpokenQA-th (F1) |
SpeechInstruct-th |
SALMONN-13B |
93.26 |
2.95 |
1.18 |
DiVA-8B |
50.12 |
15.13 |
2.68 |
Gemini-1.5-pro-001 |
81.32 |
62.10 |
3.93 |
Typhoon-Audio-Preview |
93.74 |
64.60 |
6.11 |
想定用途と制限
このモデルは実験的なものであり、必ずしも人間の指示に正確に従うとは限らず、幻覚的な出力を生成する可能性があります。さらに、このモデルにはモデレーション機構がないため、有害または不適切な応答を生成する可能性があります。開発者は、特定のアプリケーションに基づいて潜在的なリスクを慎重に評価する必要があります。
🤝 フォローとサポート
- https://twitter.com/opentyphoon
- https://discord.gg/us5gAYmrxw
🙏 謝辞
SALMONNチームがコードとデータをオープンソース化してくれたこと、およびマヒドール大学のBiomedical and Data Labが微調整されたWhisperを公開してくれたことで、そのエンコーダを採用することができたことに感謝します。また、多くのオープンソースプロジェクトが有用な知識共有、データ、コード、およびモデルの重みを提供してくれたことにも感謝します。
タイフーンチーム
Potsawee Manakul, Sittipong Sripaisarnmongkol, Natapong Nitarach, Warit Sirichotedumrong, Adisai Na-Thalang, Phatrasek Jirabovonvisut, Parinthapat Pengpun,
Krisanapong Jirayoot, Pathomporn Chokchainant, Kasima Tharnpipitchai, Kunat Pipatanakul
📄 ライセンス
このモデルは Llama 3 Community License の下で提供されています。