Hiber Multi 10B Instruct
H
Hiber Multi 10B Instruct
由 Hibernates 开发
Hiber-Multi-10B-Instruct 是一个基于 Transformer 架构的先进多语言大模型,支持多种语言,具有100亿参数,适用于文本生成任务。
下载量 86
发布时间 : 2/14/2025
模型简介
Hiber-Multi-10B-Instruct 是一个多语言混合模型,基于 Llama3.1 架构,经过指令微调,支持多种语言,适用于文本生成推理任务。
模型特点
多语言支持
支持8种主要语言,包括英文、中文、西班牙文等,适用于多语言文本生成任务。
高效推理
采用闪电注意力2.0优化和量化技术,显著提升推理速度和效率。
先进架构
基于Llama3.1架构,采用SwiGLU激活函数和RMSNorm层归一化,提升模型性能。
指令微调
经过指令微调,能够更好地理解和执行用户指令。
模型能力
多语言文本生成
指令理解与执行
长文本生成
批量推理
使用案例
多语言应用
多语言客服助手
用于多语言客服场景,自动生成高质量的客服回复。
多语言内容创作
支持多种语言的内容创作,如文章撰写、翻译等。
教育
语言学习助手
辅助语言学习者进行多语言练习和对话生成。
🚀 Hiber-Multi-10B-Instruct
这是一款基于先进变压器架构构建的多语言语言模型,具备强大的文本生成能力,可处理多种语言的指令任务,为多语言场景下的应用提供了高效解决方案。
✨ 主要特性
- 多语言支持:支持英语、中文、西班牙语、法语、德语、日语、韩语和俄语等多种语言。
- 先进架构:基于先进的变压器架构,拥有高效的注意力机制和创新的架构设计。
- 高性能表现:在内存使用、吞吐量和延迟等方面表现出色。
📦 安装指南
文档未提供具体安装步骤,此部分跳过。
💻 使用示例
基础用法
from dataclasses import dataclass
from typing import Optional, List, Dict, Union
import torch
import torch.nn.functional as F
from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
@dataclass
class GenerationConfig:
temperature: float = 0.7
top_p: float = 0.9
top_k: int = 50
repetition_penalty: float = 1.1
max_new_tokens: int = 512
do_sample: bool = True
num_beams: int = 1
class HiberMultiPipeline:
def __init__(
self,
model_name: str = "Hiber-Multi-10B-Instruct",
device_map: str = "auto",
torch_dtype: Optional[torch.dtype] = torch.bfloat16,
load_in_8bit: bool = False,
load_in_4bit: bool = False,
):
self.config = AutoConfig.from_pretrained(model_name)
self.tokenizer = AutoTokenizer.from_pretrained(
model_name,
padding_side="left",
truncation_side="left",
)
quantization_config = None
if load_in_8bit or load_in_4bit:
from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(
load_in_8bit=load_in_8bit,
load_in_4bit=load_in_4bit,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_quant_type="nf4",
)
self.model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map=device_map,
torch_dtype=torch_dtype,
quantization_config=quantization_config,
trust_remote_code=True,
)
def generate(
self,
messages: List[Dict[str, str]],
generation_config: Optional[GenerationConfig] = None,
) -> str:
if generation_config is None:
generation_config = GenerationConfig()
prompt = self.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
inputs = self.tokenizer(
prompt,
return_tensors="pt",
padding=True,
truncation=True,
max_length=self.config.max_position_embeddings,
).to(self.model.device)
with torch.inference_mode():
outputs = self.model.generate(
**inputs,
pad_token_id=self.tokenizer.pad_token_id,
bos_token_id=self.tokenizer.bos_token_id,
eos_token_id=self.tokenizer.eos_token_id,
**asdict(generation_config),
)
response = self.tokenizer.decode(
outputs[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=True,
)
return response.strip()
@torch.inference_mode()
def batch_generate(
self,
batch_messages: List[List[Dict[str, str]]],
generation_config: Optional[GenerationConfig] = None,
batch_size: int = 8,
) -> List[str]:
responses = []
for i in range(0, len(batch_messages), batch_size):
batch = batch_messages[i:i + batch_size]
responses.extend([
self.generate(msgs, generation_config)
for msgs in batch
])
return responses
高级用法
文档未提供高级用法示例,此部分跳过。
📚 详细文档
架构概述
基于先进变压器架构构建的最先进多语言语言模型:
MODEL_SPECS = {
"architecture": "Decoder-only Transformer",
"params": "10B",
"context_length": 4096,
"hidden_size": 4096,
"attention_heads": 32,
"kv_heads": 8,
"intermediate_size": 14336,
"num_layers": 48,
"vocab_size": 32000,
"position_encoding": "Rotary",
"activation": "SwiGLU",
"norm_type": "RMSNorm"
}
关键组件
-
先进的注意力机制
- 32头多查询注意力
- 分组查询注意力(8个KV头)
- Flash Attention 2.0优化
- 长序列滑动窗口注意力
-
架构创新
- SwiGLU激活函数
- RMSNorm层归一化
- 旋转位置嵌入(RoPE)
- 自适应KV缓存
- 专家混合路由
性能特征
内存使用
- FP16:20GB显存
- INT8:12GB显存
- INT4:8GB显存
吞吐量(A100 GPU)
- 批量大小1:32个令牌/秒
- 批量大小8:180个令牌/秒
- 批量大小32:420个令牌/秒
延迟(毫秒)
LATENCY_PROFILE = {
"first_token": 42,
"token_throughput": {
"batch_1": 31.25,
"batch_8": 5.56,
"batch_32": 2.38
},
"context_scaling": {
"1024_tokens": 1.0,
"2048_tokens": 1.2,
"4096_tokens": 1.8
}
}
系统要求
最低配置
- CUDA 11.8+
- PyTorch 2.0+
- 16GB显存(INT8)
- 64GB内存
- AVX2支持
推荐配置
- CUDA 12.0+
- PyTorch 2.1+
- 24GB以上显存
- 128GB内存
- NVIDIA Ampere GPU
- NVMe SSD
🔧 技术细节
文档未提供具体技术细节,此部分跳过。
📄 许可证
本模型使用的许可证为llama3.1。
引用
@software{hiber_multi_2024,
title = {Hiber-Multi-10B-Instruct: Advanced Multilingual Language Model},
author = {{Hibernates + UCLA Research Team}},
year = {2024},
publisher = {HuggingFace},
version = {1.0.0},
architecture = {Transformer},
parameters = {10B},
license = {LLaMA 3.1}
}
信息表格
属性 | 详情 |
---|---|
模型类型 | 文本生成模型 |
基础模型 | meta-llama/Llama-3.1-8B-Instruct |
支持语言 | 英语、中文、西班牙语、法语、德语、日语、韩语、俄语 |
库名称 | transformers |
标签 | text-generation-inference、hiber-multi、safetensors、Llama3.1、multilingual-llm、instruction-tuning、flash-attention2、quantization |
许可证 | llama3.1 |
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98