Hiber Multi 10B Instruct
H
Hiber Multi 10B Instruct
由Hibernates開發
Hiber-Multi-10B-Instruct 是一個基於 Transformer 架構的先進多語言大模型,支持多種語言,具有100億參數,適用於文本生成任務。
下載量 86
發布時間 : 2/14/2025
模型概述
Hiber-Multi-10B-Instruct 是一個多語言混合模型,基於 Llama3.1 架構,經過指令微調,支持多種語言,適用於文本生成推理任務。
模型特點
多語言支持
支持8種主要語言,包括英文、中文、西班牙文等,適用於多語言文本生成任務。
高效推理
採用閃電注意力2.0優化和量化技術,顯著提升推理速度和效率。
先進架構
基於Llama3.1架構,採用SwiGLU激活函數和RMSNorm層歸一化,提升模型性能。
指令微調
經過指令微調,能夠更好地理解和執行用戶指令。
模型能力
多語言文本生成
指令理解與執行
長文本生成
批量推理
使用案例
多語言應用
多語言客服助手
用於多語言客服場景,自動生成高質量的客服回覆。
多語言內容創作
支持多種語言的內容創作,如文章撰寫、翻譯等。
教育
語言學習助手
輔助語言學習者進行多語言練習和對話生成。
🚀 Hiber-Multi-10B-Instruct
這是一款基於先進變壓器架構構建的多語言語言模型,具備強大的文本生成能力,可處理多種語言的指令任務,為多語言場景下的應用提供了高效解決方案。
✨ 主要特性
- 多語言支持:支持英語、中文、西班牙語、法語、德語、日語、韓語和俄語等多種語言。
- 先進架構:基於先進的變壓器架構,擁有高效的注意力機制和創新的架構設計。
- 高性能表現:在內存使用、吞吐量和延遲等方面表現出色。
📦 安裝指南
文檔未提供具體安裝步驟,此部分跳過。
💻 使用示例
基礎用法
from dataclasses import dataclass
from typing import Optional, List, Dict, Union
import torch
import torch.nn.functional as F
from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
@dataclass
class GenerationConfig:
temperature: float = 0.7
top_p: float = 0.9
top_k: int = 50
repetition_penalty: float = 1.1
max_new_tokens: int = 512
do_sample: bool = True
num_beams: int = 1
class HiberMultiPipeline:
def __init__(
self,
model_name: str = "Hiber-Multi-10B-Instruct",
device_map: str = "auto",
torch_dtype: Optional[torch.dtype] = torch.bfloat16,
load_in_8bit: bool = False,
load_in_4bit: bool = False,
):
self.config = AutoConfig.from_pretrained(model_name)
self.tokenizer = AutoTokenizer.from_pretrained(
model_name,
padding_side="left",
truncation_side="left",
)
quantization_config = None
if load_in_8bit or load_in_4bit:
from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(
load_in_8bit=load_in_8bit,
load_in_4bit=load_in_4bit,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_quant_type="nf4",
)
self.model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map=device_map,
torch_dtype=torch_dtype,
quantization_config=quantization_config,
trust_remote_code=True,
)
def generate(
self,
messages: List[Dict[str, str]],
generation_config: Optional[GenerationConfig] = None,
) -> str:
if generation_config is None:
generation_config = GenerationConfig()
prompt = self.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
inputs = self.tokenizer(
prompt,
return_tensors="pt",
padding=True,
truncation=True,
max_length=self.config.max_position_embeddings,
).to(self.model.device)
with torch.inference_mode():
outputs = self.model.generate(
**inputs,
pad_token_id=self.tokenizer.pad_token_id,
bos_token_id=self.tokenizer.bos_token_id,
eos_token_id=self.tokenizer.eos_token_id,
**asdict(generation_config),
)
response = self.tokenizer.decode(
outputs[0][inputs["input_ids"].shape[1]:],
skip_special_tokens=True,
)
return response.strip()
@torch.inference_mode()
def batch_generate(
self,
batch_messages: List[List[Dict[str, str]]],
generation_config: Optional[GenerationConfig] = None,
batch_size: int = 8,
) -> List[str]:
responses = []
for i in range(0, len(batch_messages), batch_size):
batch = batch_messages[i:i + batch_size]
responses.extend([
self.generate(msgs, generation_config)
for msgs in batch
])
return responses
高級用法
文檔未提供高級用法示例,此部分跳過。
📚 詳細文檔
架構概述
基於先進變壓器架構構建的最先進多語言語言模型:
MODEL_SPECS = {
"architecture": "Decoder-only Transformer",
"params": "10B",
"context_length": 4096,
"hidden_size": 4096,
"attention_heads": 32,
"kv_heads": 8,
"intermediate_size": 14336,
"num_layers": 48,
"vocab_size": 32000,
"position_encoding": "Rotary",
"activation": "SwiGLU",
"norm_type": "RMSNorm"
}
關鍵組件
-
先進的注意力機制
- 32頭多查詢注意力
- 分組查詢注意力(8個KV頭)
- Flash Attention 2.0優化
- 長序列滑動窗口注意力
-
架構創新
- SwiGLU激活函數
- RMSNorm層歸一化
- 旋轉位置嵌入(RoPE)
- 自適應KV緩存
- 專家混合路由
性能特徵
內存使用
- FP16:20GB顯存
- INT8:12GB顯存
- INT4:8GB顯存
吞吐量(A100 GPU)
- 批量大小1:32個令牌/秒
- 批量大小8:180個令牌/秒
- 批量大小32:420個令牌/秒
延遲(毫秒)
LATENCY_PROFILE = {
"first_token": 42,
"token_throughput": {
"batch_1": 31.25,
"batch_8": 5.56,
"batch_32": 2.38
},
"context_scaling": {
"1024_tokens": 1.0,
"2048_tokens": 1.2,
"4096_tokens": 1.8
}
}
系統要求
最低配置
- CUDA 11.8+
- PyTorch 2.0+
- 16GB顯存(INT8)
- 64GB內存
- AVX2支持
推薦配置
- CUDA 12.0+
- PyTorch 2.1+
- 24GB以上顯存
- 128GB內存
- NVIDIA Ampere GPU
- NVMe SSD
🔧 技術細節
文檔未提供具體技術細節,此部分跳過。
📄 許可證
本模型使用的許可證為llama3.1。
引用
@software{hiber_multi_2024,
title = {Hiber-Multi-10B-Instruct: Advanced Multilingual Language Model},
author = {{Hibernates + UCLA Research Team}},
year = {2024},
publisher = {HuggingFace},
version = {1.0.0},
architecture = {Transformer},
parameters = {10B},
license = {LLaMA 3.1}
}
信息表格
屬性 | 詳情 |
---|---|
模型類型 | 文本生成模型 |
基礎模型 | meta-llama/Llama-3.1-8B-Instruct |
支持語言 | 英語、中文、西班牙語、法語、德語、日語、韓語、俄語 |
庫名稱 | transformers |
標籤 | text-generation-inference、hiber-multi、safetensors、Llama3.1、multilingual-llm、instruction-tuning、flash-attention2、quantization |
許可證 | llama3.1 |
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98