免費可部署！mini-Ichigo-llama3.2-3B-s-instruct開源模型支持音文輸入理解

首頁

Mini Ichigo Llama3.2 3B S Instruct

由Menlo開發

Ichigo-llama3s系列模型是由Homebrew Research開發的多模態語言模型，原生支持音頻和文本輸入理解。該模型基於Llama-3架構，通過WhisperVQ作為音頻文件標記器進行訓練，提升了音頻理解能力。

文本生成音頻

Safetensors

英語開源協議:Apache-2.0 #多模態音頻理解 #WhisperVQ標記化 #指令微調優化

下載量 22

發布時間 : 10/8/2024

模型概述

該模型主要面向研究應用，旨在提升大語言模型對音頻的理解能力。支持英語語言處理，可用於音頻到文本轉換等任務。

模型特點

多模態輸入支持

原生支持音頻和文本輸入理解，能夠處理複雜的多模態任務。

音頻語義標記

使用WhisperVQ作為音頻文件標記器，擴展了音頻語義標記實驗。

研究導向設計

主要面向研究應用，特別關注提升大語言模型對音頻的理解能力。

模型能力

音頻理解

文本生成

多模態處理

使用案例

研究應用

音頻語義理解研究

用於研究大語言模型對音頻內容的理解能力。

在AudioBench評估中取得2.58-3.68的GPT-4-O評分

教育應用

語音輔助學習

可作為語音輔助學習工具的基礎模型。

🚀 Ichigo-llama3s 模型

Ichigo-llama3s 模型家族由 Homebrew Research 開發併發布，該模型家族能夠原生理解音頻和文本輸入，主要用於研究應用，旨在進一步提升大語言模型的聲音理解能力。

🚀 快速開始

你可以通過 Google Colab Notebook 來試用此模型。

步驟 1：將音頻文件轉換為聲音令牌

device = "cuda" if torch.cuda.is_available() else "cpu"
if not os.path.exists("whisper-vq-stoks-medium-en+pl-fixed.model"):
    hf_hub_download(
        repo_id="jan-hq/WhisperVQ",
        filename="whisper-vq-stoks-medium-en+pl-fixed.model",
        local_dir=".",
    )
vq_model = RQBottleneckTransformer.load_model(
        "whisper-vq-stoks-medium-en+pl-fixed.model"
    ).to(device)
vq_model.ensure_whisper(device)
def audio_to_sound_tokens(audio_path, target_bandwidth=1.5, device=device):

    wav, sr = torchaudio.load(audio_path)
    if sr != 16000:
        wav = torchaudio.functional.resample(wav, sr, 16000)
    with torch.no_grad():
        codes = vq_model.encode_audio(wav.to(device))
        codes = codes[0].cpu().tolist()

    result = ''.join(f'<|sound_{num:04d}|>' for num in codes)
    return f'<|sound_start|>{result}<|sound_end|>'

步驟 2：像使用其他大語言模型一樣進行推理

def setup_pipeline(model_path, use_4bit=False, use_8bit=False):
    tokenizer = AutoTokenizer.from_pretrained(model_path)

    model_kwargs = {"device_map": "auto"}

    if use_4bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.bfloat16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
        )
    elif use_8bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_8bit=True,
            bnb_8bit_compute_dtype=torch.bfloat16,
            bnb_8bit_use_double_quant=True,
        )
    else:
        model_kwargs["torch_dtype"] = torch.bfloat16

    model = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)

    return pipeline("text-generation", model=model, tokenizer=tokenizer)

def generate_text(pipe, messages, max_new_tokens=64, temperature=0.0, do_sample=False):
    generation_args = {
        "max_new_tokens": max_new_tokens,
        "return_full_text": False,
        "temperature": temperature,
        "do_sample": do_sample,
    }

    output = pipe(messages, **generation_args)
    return output[0]['generated_text']

# 使用示例
llm_path = "homebrewltd/llama3.1-s-instruct-v0.2"
pipe = setup_pipeline(llm_path, use_8bit=True)

✨ 主要特性

多模態輸入：能夠原生理解音頻和文本輸入。
研究導向：主要用於研究應用，旨在提升大語言模型的聲音理解能力。

📦 安裝指南

文檔未提及具體安裝步驟，可參考快速開始部分在 Google Colab 中試用。

💻 使用示例

基礎用法

參考快速開始部分的代碼示例，將音頻文件轉換為聲音令牌並進行模型推理。

高級用法

文檔未提及高級用法相關內容。

📚 詳細文檔

模型詳情

模型開發者：Homebrew Research
輸入：文本和聲音
輸出：文本
模型架構：Llama - 3
語言：英語

預期用途

預期用例：該模型家族主要用於研究應用，此版本旨在進一步提升大語言模型的聲音理解能力。
禁止用途：嚴禁以任何違反適用法律法規的方式使用 llama3 - s。

訓練過程

訓練指標圖像

image/png

MMLU 評估結果

模型	MMLU 分數
llama3.1 - instruct - 8b	69.40
ichigo - llama3.1 - s - v0.3: phase 3	63.79
ichigo - llama3.1 - s - v0.3: phase 2	63.08
ichigo - llama3.1 - s - base - v0.3	42.11
mini - ichigo - llama3.2 - 3B - s - instruct	58.60
mini - ichigo - llama3.2 - 3B - s - base	59.61
llama3.1 - s - instruct - v0.2	50.27

AudioBench 評估結果

模型基準	Open - hermes Instruction Audio (GPT - 4 - O judge 0:5)	Alpaca Instruction Audio (GPT - 4 - O judge 0:5)
[Llama3.1 - s - v2](https://huggingface.co/homebrewltd/llama3 - s - instruct - v0.2)	3.45	3.53
[Ichigo - llama3.1 - s v0.3 - phase2 - cp7000](https://huggingface.co/homebrewltd/Ichigo - llama3.1 - s - instruct - v0.3 - phase - 2)	3.42	3.62
[Ichigo - llama3.1 - s v0.3 - phase2 - cplast](https://huggingface.co/jan - hq/llama3 - s - instruct - v0.3 - checkpoint - last)	3.31	3.6
[Ichigo - llama3.1 - s v0.3 - phase3](https://huggingface.co/homebrewltd/Ichigo - llama3.1 - s - instruct - v0.3 - phase - 3)	3.64	3.68
[mini - Ichigo - llama3.2 - 3B - s - instruct](https://huggingface.co/homebrewltd/mini - Ichigo - llama3.2 - 3B - s - instruct)	2.58	2.07
[Qwen2 - audio - 7B](https://huggingface.co/Qwen/Qwen2 - Audio - 7B)	2.63	2.24

硬件配置

GPU 配置：10 個 NVIDIA A6000 - 48GB GPU 集群
GPU 使用時間：微調 12 小時

訓練參數

參數	指令微調
Epoch	1
全局批次大小	360
學習率	7e - 5
學習調度器	帶預熱的 LambdaLR
優化器	Adam torch fused
預熱比例	0.01
權重衰減	0.005
最大序列長度	4096

示例

良好示例

點擊切換示例 1

點擊切換示例 2

誤解示例

點擊切換示例 3

偏離示例

點擊切換示例 4

引用信息

BibTeX：

@article{Llama3-S: Sound Instruction Language Model 2024,
  title={Llama3-S},
  author={Homebrew Research},
  year=2024,
  month=August,
  url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-20}