🚀 [Ichigo-llama3s模型]
[Ichigo-llama3s] 模型家族由 Homebrew Research 开发并发布,该家族模型能够原生理解音频和文本输入,拓展了语义标记实验,在音频理解能力上有独特优势,主要用于研究应用。
🚀 快速开始
你可以通过 Google Colab Notebook 尝试使用此模型。
首先,需要将音频文件转换为声音标记:
device = "cuda" if torch.cuda.is_available() else "cpu"
if not os.path.exists("whisper-vq-stoks-medium-en+pl-fixed.model"):
hf_hub_download(
repo_id="jan-hq/WhisperVQ",
filename="whisper-vq-stoks-medium-en+pl-fixed.model",
local_dir=".",
)
vq_model = RQBottleneckTransformer.load_model(
"whisper-vq-stoks-medium-en+pl-fixed.model"
).to(device)
vq_model.ensure_whisper(device)
def audio_to_sound_tokens(audio_path, target_bandwidth=1.5, device=device):
wav, sr = torchaudio.load(audio_path)
if sr != 16000:
wav = torchaudio.functional.resample(wav, sr, 16000)
with torch.no_grad():
codes = vq_model.encode_audio(wav.to(device))
codes = codes[0].cpu().tolist()
result = ''.join(f'<|sound_{num:04d}|>' for num in codes)
return f'<|sound_start|>{result}<|sound_end|>'
然后,可以像使用其他大语言模型一样对该模型进行推理:
def setup_pipeline(model_path, use_4bit=False, use_8bit=False):
tokenizer = AutoTokenizer.from_pretrained(model_path)
model_kwargs = {"device_map": "auto"}
if use_4bit:
model_kwargs["quantization_config"] = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
)
elif use_8bit:
model_kwargs["quantization_config"] = BitsAndBytesConfig(
load_in_8bit=True,
bnb_8bit_compute_dtype=torch.bfloat16,
bnb_8bit_use_double_quant=True,
)
else:
model_kwargs["torch_dtype"] = torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)
return pipeline("text-generation", model=model, tokenizer=tokenizer)
def generate_text(pipe, messages, max_new_tokens=64, temperature=0.0, do_sample=False):
generation_args = {
"max_new_tokens": max_new_tokens,
"return_full_text": False,
"temperature": temperature,
"do_sample": do_sample,
}
output = pipe(messages, **generation_args)
return output[0]['generated_text']
llm_path = "homebrewltd/llama3.1-s-instruct-v0.2"
pipe = setup_pipeline(llm_path, use_8bit=True)
✨ 主要特性
- 多模态输入:原生支持音频和文本输入。
- 语义标记拓展:使用 WhisperVQ 作为音频文件的标记器,拓展了语义标记实验。
📚 详细文档
模型详情
我们开发并发布了 Ichigo-llama3s 模型家族,该家族模型能够原生理解音频和文本输入。
我们从 homebrewltd/mini-Ichigo-llama3.2-3B-s-base 开始,使用 Instruction Speech WhisperVQ v3 数据集中近 10 亿个标记,将 WhisperVQ 作为音频文件的标记器,拓展了语义标记实验。
模型开发者:Homebrew Research。
输入:文本和声音。
输出:文本。
模型架构:Llama - 3。
语言:英语。
预期用途
预期用例:该模型家族主要用于研究应用,此版本旨在进一步提升大语言模型的声音理解能力。
禁止用途:严禁以任何违反适用法律法规的方式使用 llama3 - s。
训练过程
训练指标图像
以下是训练损失曲线的可视化快照:

模型 |
MMLU 分数 |
llama3.1 - instruct - 8b |
69.40 |
ichigo - llama3.1 - s - v0.3: phase 3 |
63.79 |
ichigo - llama3.1 - s - v0.3: phase 2 |
63.08 |
ichigo - llama3.1 - s - base - v0.3 |
42.11 |
mini - ichigo - llama3.2 - 3B - s - instruct |
58.60 |
mini - ichigo - llama3.2 - 3B - s - base |
59.61 |
llama3.1 - s - instruct - v0.2 |
50.27 |
模型基准 |
Open - hermes Instruction Audio (GPT - 4 - O judge 0:5) |
Alpaca Instruction Audio (GPT - 4 - O judge 0:5) |
[Llama3.1 - s - v2](https://huggingface.co/homebrewltd/llama3 - s - instruct - v0.2) |
3.45 |
3.53 |
[Ichigo - llama3.1 - s v0.3 - phase2 - cp7000](https://huggingface.co/homebrewltd/Ichigo - llama3.1 - s - instruct - v0.3 - phase - 2) |
3.42 |
3.62 |
[Ichigo - llama3.1 - s v0.3 - phase2 - cplast](https://huggingface.co/jan - hq/llama3 - s - instruct - v0.3 - checkpoint - last) |
3.31 |
3.6 |
[Ichigo - llama3.1 - s v0.3 - phase3](https://huggingface.co/homebrewltd/Ichigo - llama3.1 - s - instruct - v0.3 - phase - 3) |
3.64 |
3.68 |
[mini - Ichigo - llama3.2 - 3B - s - instruct](https://huggingface.co/homebrewltd/mini - Ichigo - llama3.2 - 3B - s - instruct) |
2.58 |
2.07 |
[Qwen2 - audio - 7B](https://huggingface.co/Qwen/Qwen2 - Audio - 7B) |
2.63 |
2.24 |
硬件
GPU 配置:10 个 NVIDIA A6000 - 48GB GPU 集群。
GPU 使用情况:
训练参数
我们使用 torchtune 库实现最新的 FSDP2 训练代码。
参数 |
指令微调 |
轮数 |
1 |
全局批量大小 |
360 |
学习率 |
7e - 5 |
学习率调度器 |
带热身的 LambdaLR |
优化器 |
Adam torch fused |
热身比例 |
0.01 |
权重衰减 |
0.005 |
最大序列长度 |
4096 |
示例
良好示例
点击切换示例 1
点击切换示例 2
误解示例
点击切换示例 3
偏离示例
点击切换示例 4
引用信息
BibTeX:
@article{Llama3-S: Sound Instruction Language Model 2024,
title={Llama3-S},
author={Homebrew Research},
year=2024,
month=August,
url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-20}
致谢
- WhisperSpeech
- [Meta - Llama - 3.1 - 8B - Instruct ](https://huggingface.co/meta - llama/Meta - Llama - 3.1 - 8B - Instruct)
📄 许可证
本项目采用 apache - 2.0 许可证。