Ichigo-llama3.1-s-instruct-v0.4开源多模态模型 - 支持音文输入、多轮对话抗噪强

首页

Ichigo Llama3.1 S Instruct V0.4

由 homebrewltd 开发

基于Llama-3架构的多模态语言模型，支持音频和文本输入理解，具有噪声鲁棒性和多轮对话能力

文本生成音频

Safetensors

英语开源协议:Apache-2.0 #语音文本双模态 #噪声鲁棒性 #多轮语音对话

下载量 486

发布时间 : 11/8/2024

模型简介

该模型是基于Llama-3架构开发的语音-文本多模态模型，通过监督微调增强了语音理解能力，特别优化了环境噪声下的表现和多轮对话能力

模型特点

多模态输入支持

原生支持音频和文本输入，能够理解语音内容并生成文本响应

噪声鲁棒性

在训练中加入了噪声抑制能力，在嘈杂环境下仍能保持良好表现

多轮对话优化

通过新增的多轮语音对话数据训练，增强了对话连贯性

高效训练

使用torchtune库实现FSDP2训练，优化了训练效率

模型能力

语音转文本

文本生成

多轮对话

噪声环境理解

使用案例

语音助手

智能语音助手

构建能够理解语音指令并做出回应的智能助手

在AudioBench评估中获得3.5分(GPT-4-O评分)

语音转录

会议记录转录

将会议语音内容实时转录为文字

教育应用

语言学习助手

帮助学习者练习英语听力和口语

🚀 Ichigo-llama3s 模型

Ichigo-llama3s 模型家族由 Homebrew Research 开发并发布，该模型家族能够原生理解音频和文本输入。此模型在声音理解能力上有显著提升，可有效处理多轮语音对话，并能在嘈杂环境中保持良好性能，适用于多种研究应用场景。

🚀 快速开始

你可以通过 Google Colab Notebook 来试用这个模型。

首先，我们需要将音频文件转换为声音令牌：

device = "cuda" if torch.cuda.is_available() else "cpu"
if not os.path.exists("whisper-vq-stoks-medium-en+pl-fixed.model"):
    hf_hub_download(
        repo_id="jan-hq/WhisperVQ",
        filename="whisper-vq-stoks-medium-en+pl-fixed.model",
        local_dir=".",
    )
vq_model = RQBottleneckTransformer.load_model(
        "whisper-vq-stoks-medium-en+pl-fixed.model"
    ).to(device)
vq_model.ensure_whisper(device)
def audio_to_sound_tokens(audio_path, target_bandwidth=1.5, device=device):

    wav, sr = torchaudio.load(audio_path)
    if sr != 16000:
        wav = torchaudio.functional.resample(wav, sr, 16000)
    with torch.no_grad():
        codes = vq_model.encode_audio(wav.to(device))
        codes = codes[0].cpu().tolist()

    result = ''.join(f'<|sound_{num:04d}|>' for num in codes)
    return f'<|sound_start|>{result}<|sound_end|>'

然后，我们可以像使用其他大语言模型一样对该模型进行推理：

def setup_pipeline(model_path, use_4bit=False, use_8bit=False):
    tokenizer = AutoTokenizer.from_pretrained(model_path)

    model_kwargs = {"device_map": "auto"}

    if use_4bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.bfloat16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
        )
    elif use_8bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_8bit=True,
            bnb_8bit_compute_dtype=torch.bfloat16,
            bnb_8bit_use_double_quant=True,
        )
    else:
        model_kwargs["torch_dtype"] = torch.bfloat16

    model = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)

    return pipeline("text-generation", model=model, tokenizer=tokenizer)

def generate_text(pipe, messages, max_new_tokens=64, temperature=0.0, do_sample=False):
    generation_args = {
        "max_new_tokens": max_new_tokens,
        "return_full_text": False,
        "temperature": temperature,
        "do_sample": do_sample,
    }

    output = pipe(messages, **generation_args)
    return output[0]['generated_text']

# Usage
llm_path = "homebrewltd/llama3.1-s-instruct-v0.2"
pipe = setup_pipeline(llm_path, use_8bit=True)

✨ 主要特性

多模态输入理解：原生支持音频和文本输入，能够处理复杂的多模态信息。
增强的声音处理能力：在多轮语音对话和嘈杂环境下表现出色，具有更好的鲁棒性。
广泛的应用场景：主要用于研究领域，可推动声音理解相关技术的发展。

📚 详细文档

模型详情

我们开发并发布了 Ichigo-llama3s 模型家族。该模型家族能够原生理解音频和文本输入。

此模型是 homebrewltd/Ichigo-llama3.1-s-base-v0.3 的监督微调（SFT）版本，在来自 Instruction Speech WhisperVQ v4 数据集的超过 10 亿个标记上进行训练。该数据集基于 Instruction Speech WhisperVQ v3 构建，增加了多轮语音对话和噪声抑制能力，从而提高了性能。因此，该模型在面对嘈杂的环境输入时表现出更强的鲁棒性，并增强了多轮对话能力，使其在实际应用中更加可靠。

模型开发者：Homebrew Research。

输入：文本和声音。

输出：文本。

模型架构：Llama-3。

语言：英语。

预期用途

预期用例：该模型家族主要用于研究应用。此版本旨在进一步提高大语言模型的声音理解能力。

禁止用途：严禁以任何违反适用法律法规的方式使用 llama3-s。

🔧 技术细节

训练过程

训练指标图像

以下是训练损失曲线的可视化快照： image/png

MMLU 评估结果

模型	MMLU 得分
llama3.1-instruct-8b	69.40
ichigo-llama3.1-s-v0.4	64.66
ichigo-llama3.1-s-v0.3: phase 3	63.79
ichigo-llama3.1-s-v0.3: phase 2	63.08
ichigo-llama3.1-s-base-v0.3	42.11
llama3.5-instruct-v0.2	50.27

AudioBench 评估结果

模型基准	Open-hermes Instruction Audio (GPT - 4 - O judge 0:5)	Alpaca Instruction Audio (GPT - 4 - O judge 0:5)
Llama3.1-s-v2	3.45	3.53
Ichigo-llama3.1-s v0.4	3.5	3.52
Ichigo-llama3.1-s v0.3-phase2 -cp7000	3.42	3.62
Ichigo-llama3.1-s v0.3-phase2-cplast	3.31	3.6
Ichigo-llama3.1-s v0.3-phase3	3.64	3.68
Qwen2-audio-7B	2.63	2.24

硬件

GPU 配置：8 块 NVIDIA H100 - SXM - 80GB 组成的集群。

GPU 使用情况：

持续训练：12 小时。

训练参数

我们使用 torchtune 库实现最新的 FSDP2 训练代码。

参数	指令微调
轮数	1
全局批次大小	256
学习率	7e - 5
学习调度器	带热身的余弦调度器
优化器	Adam torch fused
热身比例	0.01
权重衰减	0.005
最大序列长度	4096

📄 许可证

本项目采用 Apache-2.0 许可证。

📖 引用信息

BibTeX：

@article{Llama3-S: Sound Instruction Language Model 2024,
  title={Llama3-S},
  author={Homebrew Research},
  year=2024,
  month=August,
  url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-20}