Ichigo-llama3.1-s-instruct-v0.4オープンソース多モーダルモデル - 音声とテキスト入力をサポート、多輪対話でのノイズ耐性が強い

ホーム

Ichigo Llama3.1 S Instruct V0.4

homebrewltdによって開発

Llama-3アーキテクチャに基づくマルチモーダル言語モデルで、音声とテキストの入力を理解し、ノイズ耐性とマルチターン対話能力を備えています

テキスト生成オーディオ

Safetensors

英語オープンソースライセンス:Apache-2.0 #音声テキスト双方向モーダル #ノイズ耐性 #マルチターン音声対話

ダウンロード数 486

リリース時間 : 11/8/2024

モデル概要

このモデルはLlama-3アーキテクチャを基に開発された音声-テキストマルチモーダルモデルで、教師あり微調整により音声理解能力を強化し、特に環境ノイズ下での性能とマルチターン対話能力を最適化しています

モデル特徴

マルチモーダル入力サポート

音声とテキスト入力をネイティブにサポートし、音声内容を理解してテキスト応答を生成できます

ノイズ耐性

トレーニングにノイズ抑制能力を追加し、騒がしい環境でも良好な性能を維持できます

マルチターン対話最適化

新たに追加されたマルチターン音声対話データでトレーニングし、対話の一貫性を強化しました

効率的なトレーニング

torchtuneライブラリを使用してFSDP2トレーニングを実現し、トレーニング効率を最適化しました

モデル能力

音声からテキストへの変換

テキスト生成

マルチターン対話

ノイズ環境理解

使用事例

音声アシスタント

インテリジェント音声アシスタント

音声コマンドを理解して応答するインテリジェントアシスタントを構築

AudioBench評価で3.5点(GPT-4-Oスコア)を獲得

音声文字起こし

会議議事録の文字起こし

会議の音声内容をリアルタイムでテキストに変換

教育アプリケーション

言語学習アシスタント

学習者が英語のリスニングとスピーキングを練習するのを支援

🚀 Ichigo-llama3sモデル

Ichigo-llama3sは、音声とテキストの入力をネイティブに理解するモデルファミリーで、音声理解能力を強化することを目的としています。

🚀 クイックスタート

このモデルをGoogle Colab Notebookを使って試すことができます。

まず、音声ファイルを音声トークンに変換する必要があります。

device = "cuda" if torch.cuda.is_available() else "cpu"
if not os.path.exists("whisper-vq-stoks-medium-en+pl-fixed.model"):
    hf_hub_download(
        repo_id="jan-hq/WhisperVQ",
        filename="whisper-vq-stoks-medium-en+pl-fixed.model",
        local_dir=".",
    )
vq_model = RQBottleneckTransformer.load_model(
        "whisper-vq-stoks-medium-en+pl-fixed.model"
    ).to(device)
vq_model.ensure_whisper(device)
def audio_to_sound_tokens(audio_path, target_bandwidth=1.5, device=device):

    wav, sr = torchaudio.load(audio_path)
    if sr != 16000:
        wav = torchaudio.functional.resample(wav, sr, 16000)
    with torch.no_grad():
        codes = vq_model.encode_audio(wav.to(device))
        codes = codes[0].cpu().tolist()

    result = ''.join(f'<|sound_{num:04d}|>' for num in codes)
    return f'<|sound_start|>{result}<|sound_end|>'

次に、他のLLMと同じようにモデルを推論することができます。

def setup_pipeline(model_path, use_4bit=False, use_8bit=False):
    tokenizer = AutoTokenizer.from_pretrained(model_path)

    model_kwargs = {"device_map": "auto"}

    if use_4bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.bfloat16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
        )
    elif use_8bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_8bit=True,
            bnb_8bit_compute_dtype=torch.bfloat16,
            bnb_8bit_use_double_quant=True,
        )
    else:
        model_kwargs["torch_dtype"] = torch.bfloat16

    model = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)

    return pipeline("text-generation", model=model, tokenizer=tokenizer)

def generate_text(pipe, messages, max_new_tokens=64, temperature=0.0, do_sample=False):
    generation_args = {
        "max_new_tokens": max_new_tokens,
        "return_full_text": False,
        "temperature": temperature,
        "do_sample": do_sample,
    }

    output = pipe(messages, **generation_args)
    return output[0]['generated_text']

# Usage
llm_path = "homebrewltd/llama3.1-s-instruct-v0.2"
pipe = setup_pipeline(llm_path, use_8bit=True)

✨ 主な機能

このモデルファミリーは、音声とテキストの入力をネイティブに理解することができます。このモデルは、homebrewltd/Ichigo-llama3.1-s-base-v0.3の教師あり微調整（SFT）バージョンで、Instruction Speech WhisperVQ v4データセットの10億以上のトークンで学習されています。このデータセットはInstruction Speech WhisperVQ v3をベースに構築されており、マルチターンの音声会話とノイズ除去機能が追加されています。その結果、モデルはノイズの多い環境入力に対する堅牢性が向上し、マルチターンの会話能力が強化され、実世界のアプリケーションでより信頼性が高くなります。

📦 インストール

このモデルを使用するには、上記のコードサンプルに従って、必要なライブラリをインストールし、モデルを設定する必要があります。

💻 使用例

基本的な使用法

device = "cuda" if torch.cuda.is_available() else "cpu"
if not os.path.exists("whisper-vq-stoks-medium-en+pl-fixed.model"):
    hf_hub_download(
        repo_id="jan-hq/WhisperVQ",
        filename="whisper-vq-stoks-medium-en+pl-fixed.model",
        local_dir=".",
    )
vq_model = RQBottleneckTransformer.load_model(
        "whisper-vq-stoks-medium-en+pl-fixed.model"
    ).to(device)
vq_model.ensure_whisper(device)
def audio_to_sound_tokens(audio_path, target_bandwidth=1.5, device=device):

    wav, sr = torchaudio.load(audio_path)
    if sr != 16000:
        wav = torchaudio.functional.resample(wav, sr, 16000)
    with torch.no_grad():
        codes = vq_model.encode_audio(wav.to(device))
        codes = codes[0].cpu().tolist()

    result = ''.join(f'<|sound_{num:04d}|>' for num in codes)
    return f'<|sound_start|>{result}<|sound_end|>'

高度な使用法

def setup_pipeline(model_path, use_4bit=False, use_8bit=False):
    tokenizer = AutoTokenizer.from_pretrained(model_path)

    model_kwargs = {"device_map": "auto"}

    if use_4bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.bfloat16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
        )
    elif use_8bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_8bit=True,
            bnb_8bit_compute_dtype=torch.bfloat16,
            bnb_8bit_use_double_quant=True,
        )
    else:
        model_kwargs["torch_dtype"] = torch.bfloat16

    model = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)

    return pipeline("text-generation", model=model, tokenizer=tokenizer)

def generate_text(pipe, messages, max_new_tokens=64, temperature=0.0, do_sample=False):
    generation_args = {
        "max_new_tokens": max_new_tokens,
        "return_full_text": False,
        "temperature": temperature,
        "do_sample": do_sample,
    }

    output = pipe(messages, **generation_args)
    return output[0]['generated_text']

# Usage
llm_path = "homebrewltd/llama3.1-s-instruct-v0.2"
pipe = setup_pipeline(llm_path, use_8bit=True)

📚 ドキュメント

モデル詳細

プロパティ	詳細
モデル開発者	Homebrew Research
入力	テキストと音声
出力	テキスト
モデルアーキテクチャ	Llama-3
言語	英語

想定される使用方法

このモデルファミリーは主に研究アプリケーションを目的としています。このバージョンは、音声理解能力に関するLLMをさらに改善することを目指しています。ただし、llama3-sを適用可能な法律や規制に違反する方法で使用することは厳禁です。

トレーニングプロセス

トレーニングメトリクス画像

以下は、トレーニング損失曲線を可視化したスナップショットです。

image/png

MMLU

モデル	MMLUスコア
llama3.1-instruct-8b	69.40
ichigo-llama3.1-s-v0.4	64.66
ichigo-llama3.1-s-v0.3: phase 3	63.79
ichigo-llama3.1-s-v0.3: phase 2	63.08
ichigo-llama3.1-s-base-v0.3	42.11
llama3.5-instruct-v0.2	50.27

AudioBench評価

モデルベンチ	Open-hermes Instruction Audio (GPT-4-O judge 0:5)	Alpaca Instruction Audio (GPT-4-O judge 0:5)
Llama3.1-s-v2	3.45	3.53
Ichigo-llama3.1-s v0.4	3.5	3.52
Ichigo-llama3.1-s v0.3-phase2 -cp7000	3.42	3.62
Ichigo-llama3.1-s v0.3-phase2-cplast	3.31	3.6
Ichigo-llama3.1-s v0.3-phase3	3.64	3.68
Qwen2-audio-7B	2.63	2.24

ハードウェア

GPU構成: 8台のNVIDIA H100-SXM-80GBのクラスター。
GPU使用時間:
- 継続的なトレーニング: 12時間。

トレーニング引数

最新のFSDP2トレーニングコード実装には、torchtuneライブラリを利用しています。

パラメータ	命令微調整
エポック	1
グローバルバッチサイズ	256
学習率	7e-5
学習スケジューラ	ウォームアップ付きコサイン
オプティマイザ	Adam torch fused
ウォームアップ比率	0.01
重み減衰	0.005
最大シーケンス長	4096

サンプル

良い例:

例1を切り替えるにはクリック

例2を切り替えるにはクリック

誤解の例:

例3を切り替えるにはクリック

逸脱した例:

例4を切り替えるにはクリック

引用情報

BibTeX:

@article{Llama3-S: Sound Instruction Language Model 2024,
  title={Llama3-S},
  author={Homebrew Research},
  year=2024,
  month=August},
  url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-20}