Phi 3 Portuguese Tom Cat 4k Instruct
基于30万条葡萄牙语指令数据集训练的葡萄牙语模型,由microsoft/Phi-3-mini-4k微调而来
下载量 83
发布时间 : 4/29/2024
模型简介
该模型旨在填补葡萄牙语模型的空白,支持问答和指令任务,适用于多种葡萄牙语文本生成场景
模型特点
葡萄牙语优化
专门针对葡萄牙语进行优化训练,填补了葡萄牙语模型的空白
指令微调
基于30万条葡萄牙语指令数据集进行微调,擅长理解和执行各种指令
多量化支持
提供多种量化版本(4位、8位、16位等),适应不同硬件需求
模型能力
葡萄牙语文本生成
问答系统
指令执行
文本分类
语义相似度计算
使用案例
教育
ENEM考试辅助
帮助学生解答ENEM考试相关问题
在ENEM挑战赛数据集上达到61.58%准确率
法律
OAB考试辅助
解答巴西律师资格考试相关问题
在OAB考试数据集上达到43.69%准确率
社交媒体分析
仇恨言论检测
识别葡萄牙语中的仇恨言论
在HateBR数据集上达到83.01%宏F1值
🚀 Phi-3-portuguese-tom-cat-4k-instruct
本模型基于300,000条葡萄牙语指令的超集进行训练,旨在填补葡萄牙语模型的空白。它是从microsoft/Phi-3-mini-4k微调而来。
🚀 快速开始
模型使用环境建议
- 完整模型:建议使用A100。
- 半精度模型:可使用L4。
- 8位或4位量化:T4或V100即可。
安装依赖
!pip install -q -U transformers
!pip install -q -U accelerate
!pip install -q -U bitsandbytes
加载模型和分词器
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
model = AutoModelForCausalLM.from_pretrained("rhaymison/phi-3-portuguese-tom-cat-4k-instruct", device_map= {"": 0})
tokenizer = AutoTokenizer.from_pretrained("rhaymison/phi-3-portuguese-tom-cat-4k-instruct")
model.eval()
使用Pipeline进行文本生成
from transformers import pipeline
pipe = pipeline("text-generation",
model=model,
tokenizer=tokenizer,
do_sample=True,
max_new_tokens=512,
num_beams=2,
temperature=0.3,
top_k=50,
top_p=0.95,
early_stopping=True,
pad_token_id=tokenizer.eos_token_id,
)
def format_template(question:str):
system_prompt = "Abaixo está uma instrução que descreve uma tarefa, juntamente com uma entrada que fornece mais contexto. Escreva uma resposta que complete adequadamente o pedido."
return f"""<s><|system|>
{ system_prompt }
<|user|>
{ question }
<|assistant|>
"""
question = format_template("E possivel ir de Carro dos Estados unidos ate o japão")
pipe(question)
4位量化示例
如果你遇到“CUDA Out of memory”等内存问题,可使用4位或8位量化。
from transformers import BitsAndBytesConfig
import torch
nb_4bit_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True
)
model = AutoModelForCausalLM.from_pretrained(
base_model,
quantization_config=bnb_config,
device_map={"": 0}
)
✨ 主要特性
- 基于300,000条葡萄牙语指令的超集进行训练,有助于填补葡萄牙语模型的空白。
- 可进行正常形式的使用,也支持到4位量化。
- 有对应的GGUF家族模型,可使用LlamaCpp运行,增强了兼容性。
📦 安装指南
使用该模型前,需要安装以下依赖:
!pip install -q -U transformers
!pip install -q -U accelerate
!pip install -q -U bitsandbytes
💻 使用示例
基础用法
# 安装依赖
!pip install -q -U transformers
!pip install -q -U accelerate
!pip install -q -U bitsandbytes
# 加载模型和分词器
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
model = AutoModelForCausalLM.from_pretrained("rhaymison/phi-3-portuguese-tom-cat-4k-instruct", device_map= {"": 0})
tokenizer = AutoTokenizer.from_pretrained("rhaymison/phi-3-portuguese-tom-cat-4k-instruct")
model.eval()
# 使用Pipeline进行文本生成
from transformers import pipeline
pipe = pipeline("text-generation",
model=model,
tokenizer=tokenizer,
do_sample=True,
max_new_tokens=512,
num_beams=2,
temperature=0.3,
top_k=50,
top_p=0.95,
early_stopping=True,
pad_token_id=tokenizer.eos_token_id,
)
def format_template(question:str):
system_prompt = "Abaixo está uma instrução que descreve uma tarefa, juntamente com uma entrada que fornece mais contexto. Escreva uma resposta que complete adequadamente o pedido."
return f"""<s><|system|>
{ system_prompt }
<|user|>
{ question }
<|assistant|>
"""
question = format_template("E possivel ir de Carro dos Estados unidos ate o japão")
pipe(question)
高级用法
如果你遇到“CUDA Out of memory”等内存问题,可使用4位或8位量化:
from transformers import BitsAndBytesConfig
import torch
nb_4bit_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True
)
model = AutoModelForCausalLM.from_pretrained(
base_model,
quantization_config=bnb_config,
device_map={"": 0}
)
📚 详细文档
模型相关信息
属性 | 详情 |
---|---|
模型类型 | phi-3-portuguese-tom-cat-4k-instruct |
基础模型 | microsoft/Phi-3-mini-4k-instruct |
训练数据 | rhaymison/superset |
许可证 | apache-2.0 |
其他GGUF模型
如果你需要增强兼容性,Luana模型也有可以使用LlamaCpp运行的GGUF家族模型:
- rhaymison/phi-3-portuguese-tom-cat-4k-instruct-q8-gguf
- rhaymison/phi-3-portuguese-tom-cat-4k-instruct-f16-gguf
评估结果
详细的评估结果可以在这里和🚀 Open Portuguese LLM Leaderboard找到。
指标 | 值 |
---|---|
平均值 | 64.57 |
ENEM Challenge (No Images) | 61.58 |
BLUEX (No Images) | 50.63 |
OAB Exams | 43.69 |
Assin2 RTE | 91.54 |
Assin2 STS | 75.27 |
FaQuAD NLI | 47.46 |
HateBR Binary | 83.01 |
PT Hate Speech Binary | 70.19 |
tweetSentBR | 57.78 |
📄 许可证
本模型使用的许可证为apache-2.0。
联系方式
如果你有任何想法、需要帮助或进行反馈,欢迎通过以下方式联系:
⚠️ 重要提示
如果你遇到“CUDA Out of memory”等内存问题,应使用4位或8位量化。对于完整模型,在colab中需要A100;如果你想使用4位或8位量化,T4或L4即可解决问题。
💡 使用建议
在你的提示中,动词很重要。告诉模型如何行动或表现,这样可以引导它们给出更好的响应。像这样的重要点有助于模型(即使是像4b这样的小模型)表现得更好。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98