Ichigo-llama3.1-s-instruct-v0.3-phase-3オープンソースモデル - 曖昧な入力を処理、多輪対話、音声とテキスト入力をサポート

ホーム

Ichigo Llama3.1 S Instruct V0.3 Phase 3

Menloによって開発

Ichigo-llama3sシリーズモデルの一つで、曖昧な入力やマルチターン対話の処理能力向上に特化し、音声とテキスト入力をサポートします。

テキスト生成オーディオ

Safetensors

英語オープンソースライセンス:Apache-2.0 #音声テキスト双方向モード #曖昧な指示の最適化 #マルチターン対話の強化

ダウンロード数 20

リリース時間 : 9/25/2024

モデル概要

このモデルはLlama-3アーキテクチャに基づく大規模言語モデルで、特に音声理解とマルチターン対話に最適化されており、英語音声とテキスト入力をサポートし、出力はテキストです。

モデル特徴

マルチモーダル入力サポート

音声とテキスト入力をネイティブにサポートし、音声とテキストの混合入力を処理できます。

最適化された音声理解

特に音声理解能力を最適化し、曖昧な音声入力をより効果的に処理できます。

マルチターン対話能力

マルチターン対話の処理能力を向上させ、複雑な対話シナリオに適しています。

モデル能力

音声からテキストへの変換

テキスト生成

マルチターン対話処理

使用事例

音声アシスタント

インテリジェント音声アシスタント

音声指令を理解し応答を生成できるインテリジェントアシスタントの構築に使用されます。

Open-hermes音声指令テストで3.42点を獲得（GPT-4-Oスコア0:5）。

音声文字起こし

会議議事録の文字起こし

会議の録音をテキスト記録に変換し、後のテキスト分析と処理をサポートします。

🚀 イチゴ-ラマ3sモデル

イチゴ-ラマ3sは、音声とテキスト入力をネイティブに理解するモデルファミリーです。このモデルは、音声理解能力を向上させるために微調整されており、研究用途に最適です。

🚀 クイックスタート

このモデルをGoogle Colab Notebookを使って試すことができます。

まず、音声ファイルを音声トークンに変換する必要があります。

device = "cuda" if torch.cuda.is_available() else "cpu"
if not os.path.exists("whisper-vq-stoks-medium-en+pl-fixed.model"):
    hf_hub_download(
        repo_id="jan-hq/WhisperVQ",
        filename="whisper-vq-stoks-medium-en+pl-fixed.model",
        local_dir=".",
    )
vq_model = RQBottleneckTransformer.load_model(
        "whisper-vq-stoks-medium-en+pl-fixed.model"
    ).to(device)
vq_model.ensure_whisper(device)
def audio_to_sound_tokens(audio_path, target_bandwidth=1.5, device=device):

    wav, sr = torchaudio.load(audio_path)
    if sr != 16000:
        wav = torchaudio.functional.resample(wav, sr, 16000)
    with torch.no_grad():
        codes = vq_model.encode_audio(wav.to(device))
        codes = codes[0].cpu().tolist()

    result = ''.join(f'<|sound_{num:04d}|>' for num in codes)
    return f'<|sound_start|>{result}<|sound_end|>'

次に、他のLLMと同じようにモデルを推論することができます。

def setup_pipeline(model_path, use_4bit=False, use_8bit=False):
    tokenizer = AutoTokenizer.from_pretrained(model_path)

    model_kwargs = {"device_map": "auto"}

    if use_4bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.bfloat16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
        )
    elif use_8bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_8bit=True,
            bnb_8bit_compute_dtype=torch.bfloat16,
            bnb_8bit_use_double_quant=True,
        )
    else:
        model_kwargs["torch_dtype"] = torch.bfloat16

    model = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)

    return pipeline("text-generation", model=model, tokenizer=tokenizer)

def generate_text(pipe, messages, max_new_tokens=64, temperature=0.0, do_sample=False):
    generation_args = {
        "max_new_tokens": max_new_tokens,
        "return_full_text": False,
        "temperature": temperature,
        "do_sample": do_sample,
    }

    output = pipe(messages, **generation_args)
    return output[0]['generated_text']

# Usage
llm_path = "homebrewltd/llama3.1-s-instruct-v0.2"
pipe = setup_pipeline(llm_path, use_8bit=True)

✨ 主な機能

音声とテキスト入力をネイティブに理解する能力。
音声理解能力を向上させるための微調整。
不可聴入力やマルチターン会話の処理能力の向上。

📚 ドキュメント

モデル詳細

Homebrew Researchによって開発・公開されたイチゴ-ラマ3sモデルファミリーは、音声とテキスト入力をネイティブに理解することができます。

このモデルは、homebrewltd/イチゴ-ラマ3.1-s-命令-v0.3-フェーズ2からユーザーインタラクションを改善するために微調整されており、特に不可聴入力やマルチターン会話の処理に重点を置いています。

属性	详情
モデル開発者	Homebrew Research
入力	テキストと音声
出力	テキスト
モデルアーキテクチャ	Llama-3
言語	英語

想定用途

想定使用ケース：このモデルファミリーは主に研究用途を想定しています。このバージョンは、音声理解能力に関するLLMをさらに改善することを目指しています。
想定外の使用：適用される法律や規制に違反する方法でのラマ3-sの使用は、厳格に禁止されています。

学習プロセス

学習指標画像

以下は、学習損失曲線を視覚化したスナップショットです。 image/png

MMLU

モデル	MMLUスコア
ラマ3.5-命令-8b	69.40
イチゴ-ラマ3.1-s-v0.3: フェーズ3	63.79
イチゴ-ラマ3.1-s-v0.3: フェーズ2	63.08
イチゴ-ラマ3.1-s-ベース-v0.3	42.11
ラマ3.5-命令-v0.2	50.27

AudioBench評価

モデルベンチ	Open-hermes命令音声 (GPT-4-O判定0:5)	アルパカ命令音声 (GPT-4-O判定0:5)
ラマ3.1-s-v2	3.45	3.53
イチゴ-ラマ3.1-s v0.3-フェーズ2 -cp7000	3.42	3.62
イチゴ-ラマ3.1-s v0.3-フェーズ2-cplast	3.31	3.6
イチゴ-ラマ3.1-s v0.3-フェーズ3	3.64	3.68
Qwen2-オーディオ-7B	2.63	2.24

ハードウェア

GPU構成：8台のNVIDIA H100-SXM-80GBクラスター。
GPU使用時間：継続学習で3時間。

学習引数

torchtuneライブラリを使用して、最新のFSDP2学習コードを実装しています。

パラメータ	継続学習
エポック	1
グローバルバッチサイズ	256
学習率	1.5e-5
学習スケジューラー	ウォームアップ付きLambdaLR
オプティマイザー	AdamW Fused
ウォームアップステップ	8
重み減衰	0.005
最大長	4096
精度	bf16

その他詳細

論文: http://arxiv.org/abs/2410.15316

引用情報

BibTeX:

@article{Llama3-S: Sound Instruction Language Model 2024,
  title={Llama3-S},
  author={Homebrew Research},
  year=2024,
  month=August,
  url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-20}