モデル概要
モデル特徴
モデル能力
使用事例
🚀 Ichigo-llama3sモデル
Ichigo-llama3sは、音声とテキストの入力をネイティブに理解するモデルファミリーで、音声理解能力を強化することを目的としています。
🚀 クイックスタート
このモデルをGoogle Colab Notebookを使って試すことができます。
まず、音声ファイルを音声トークンに変換する必要があります。
device = "cuda" if torch.cuda.is_available() else "cpu"
if not os.path.exists("whisper-vq-stoks-medium-en+pl-fixed.model"):
hf_hub_download(
repo_id="jan-hq/WhisperVQ",
filename="whisper-vq-stoks-medium-en+pl-fixed.model",
local_dir=".",
)
vq_model = RQBottleneckTransformer.load_model(
"whisper-vq-stoks-medium-en+pl-fixed.model"
).to(device)
vq_model.ensure_whisper(device)
def audio_to_sound_tokens(audio_path, target_bandwidth=1.5, device=device):
wav, sr = torchaudio.load(audio_path)
if sr != 16000:
wav = torchaudio.functional.resample(wav, sr, 16000)
with torch.no_grad():
codes = vq_model.encode_audio(wav.to(device))
codes = codes[0].cpu().tolist()
result = ''.join(f'<|sound_{num:04d}|>' for num in codes)
return f'<|sound_start|>{result}<|sound_end|>'
次に、他のLLMと同じようにモデルを推論することができます。
def setup_pipeline(model_path, use_4bit=False, use_8bit=False):
tokenizer = AutoTokenizer.from_pretrained(model_path)
model_kwargs = {"device_map": "auto"}
if use_4bit:
model_kwargs["quantization_config"] = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
)
elif use_8bit:
model_kwargs["quantization_config"] = BitsAndBytesConfig(
load_in_8bit=True,
bnb_8bit_compute_dtype=torch.bfloat16,
bnb_8bit_use_double_quant=True,
)
else:
model_kwargs["torch_dtype"] = torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)
return pipeline("text-generation", model=model, tokenizer=tokenizer)
def generate_text(pipe, messages, max_new_tokens=64, temperature=0.0, do_sample=False):
generation_args = {
"max_new_tokens": max_new_tokens,
"return_full_text": False,
"temperature": temperature,
"do_sample": do_sample,
}
output = pipe(messages, **generation_args)
return output[0]['generated_text']
# Usage
llm_path = "homebrewltd/llama3.1-s-instruct-v0.2"
pipe = setup_pipeline(llm_path, use_8bit=True)
✨ 主な機能
このモデルファミリーは、音声とテキストの入力をネイティブに理解することができます。このモデルは、homebrewltd/Ichigo-llama3.1-s-base-v0.3の教師あり微調整(SFT)バージョンで、Instruction Speech WhisperVQ v4データセットの10億以上のトークンで学習されています。このデータセットはInstruction Speech WhisperVQ v3をベースに構築されており、マルチターンの音声会話とノイズ除去機能が追加されています。その結果、モデルはノイズの多い環境入力に対する堅牢性が向上し、マルチターンの会話能力が強化され、実世界のアプリケーションでより信頼性が高くなります。
📦 インストール
このモデルを使用するには、上記のコードサンプルに従って、必要なライブラリをインストールし、モデルを設定する必要があります。
💻 使用例
基本的な使用法
device = "cuda" if torch.cuda.is_available() else "cpu"
if not os.path.exists("whisper-vq-stoks-medium-en+pl-fixed.model"):
hf_hub_download(
repo_id="jan-hq/WhisperVQ",
filename="whisper-vq-stoks-medium-en+pl-fixed.model",
local_dir=".",
)
vq_model = RQBottleneckTransformer.load_model(
"whisper-vq-stoks-medium-en+pl-fixed.model"
).to(device)
vq_model.ensure_whisper(device)
def audio_to_sound_tokens(audio_path, target_bandwidth=1.5, device=device):
wav, sr = torchaudio.load(audio_path)
if sr != 16000:
wav = torchaudio.functional.resample(wav, sr, 16000)
with torch.no_grad():
codes = vq_model.encode_audio(wav.to(device))
codes = codes[0].cpu().tolist()
result = ''.join(f'<|sound_{num:04d}|>' for num in codes)
return f'<|sound_start|>{result}<|sound_end|>'
高度な使用法
def setup_pipeline(model_path, use_4bit=False, use_8bit=False):
tokenizer = AutoTokenizer.from_pretrained(model_path)
model_kwargs = {"device_map": "auto"}
if use_4bit:
model_kwargs["quantization_config"] = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
)
elif use_8bit:
model_kwargs["quantization_config"] = BitsAndBytesConfig(
load_in_8bit=True,
bnb_8bit_compute_dtype=torch.bfloat16,
bnb_8bit_use_double_quant=True,
)
else:
model_kwargs["torch_dtype"] = torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)
return pipeline("text-generation", model=model, tokenizer=tokenizer)
def generate_text(pipe, messages, max_new_tokens=64, temperature=0.0, do_sample=False):
generation_args = {
"max_new_tokens": max_new_tokens,
"return_full_text": False,
"temperature": temperature,
"do_sample": do_sample,
}
output = pipe(messages, **generation_args)
return output[0]['generated_text']
# Usage
llm_path = "homebrewltd/llama3.1-s-instruct-v0.2"
pipe = setup_pipeline(llm_path, use_8bit=True)
📚 ドキュメント
モデル詳細
プロパティ | 詳細 |
---|---|
モデル開発者 | Homebrew Research |
入力 | テキストと音声 |
出力 | テキスト |
モデルアーキテクチャ | Llama-3 |
言語 | 英語 |
想定される使用方法
このモデルファミリーは主に研究アプリケーションを目的としています。このバージョンは、音声理解能力に関するLLMをさらに改善することを目指しています。ただし、llama3-sを適用可能な法律や規制に違反する方法で使用することは厳禁です。
トレーニングプロセス
トレーニングメトリクス画像
以下は、トレーニング損失曲線を可視化したスナップショットです。
MMLU
モデル | MMLUスコア |
---|---|
llama3.1-instruct-8b | 69.40 |
ichigo-llama3.1-s-v0.4 | 64.66 |
ichigo-llama3.1-s-v0.3: phase 3 | 63.79 |
ichigo-llama3.1-s-v0.3: phase 2 | 63.08 |
ichigo-llama3.1-s-base-v0.3 | 42.11 |
llama3.5-instruct-v0.2 | 50.27 |
AudioBench評価
モデルベンチ | Open-hermes Instruction Audio (GPT-4-O judge 0:5) | Alpaca Instruction Audio (GPT-4-O judge 0:5) |
---|---|---|
Llama3.1-s-v2 | 3.45 | 3.53 |
Ichigo-llama3.1-s v0.4 | 3.5 | 3.52 |
Ichigo-llama3.1-s v0.3-phase2 -cp7000 | 3.42 | 3.62 |
Ichigo-llama3.1-s v0.3-phase2-cplast | 3.31 | 3.6 |
Ichigo-llama3.1-s v0.3-phase3 | 3.64 | 3.68 |
Qwen2-audio-7B | 2.63 | 2.24 |
ハードウェア
- GPU構成: 8台のNVIDIA H100-SXM-80GBのクラスター。
- GPU使用時間:
- 継続的なトレーニング: 12時間。
トレーニング引数
最新のFSDP2トレーニングコード実装には、torchtuneライブラリを利用しています。
パラメータ | 命令微調整 |
---|---|
エポック | 1 |
グローバルバッチサイズ | 256 |
学習率 | 7e-5 |
学習スケジューラ | ウォームアップ付きコサイン |
オプティマイザ | Adam torch fused |
ウォームアップ比率 | 0.01 |
重み減衰 | 0.005 |
最大シーケンス長 | 4096 |
サンプル
- 良い例:
例1を切り替えるにはクリック
例2を切り替えるにはクリック
- 誤解の例:
例3を切り替えるにはクリック
- 逸脱した例:
例4を切り替えるにはクリック
引用情報
BibTeX:
@article{Llama3-S: Sound Instruction Language Model 2024,
title={Llama3-S},
author={Homebrew Research},
year=2024,
month=August},
url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-20}
謝辞
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。











