PersianMind-v1.0开源大语言模型 - 支持波斯语英语互译，多任务表现优异！

首页

Persianmind V1.0

由 universitytehran 开发

波斯心智是一个跨语言的波斯语-英语大语言模型，由德黑兰大学团队开发，在多项波斯语任务中表现优异。

大型语言模型

Transformers

支持多种语言#波斯语-英语跨语言 #阅读理解SOTA #低资源量化

下载量 212.04k

发布时间 : 1/3/2024

模型简介

该模型是一个支持波斯语和英语的双语大语言模型，专注于文本生成任务，如问答、翻译和对话生成。

模型特点

跨语言能力

支持波斯语和英语双语处理，在两种语言间表现优异

量化支持

支持8位(INT8)和4位(NF4)量化，可在资源受限设备上运行

高性能

在波斯语阅读理解任务中性能与GPT-3.5-turbo相当

模型能力

文本生成

问答系统

机器翻译

对话系统

使用案例

教育

波斯语学习辅助

帮助非波斯语使用者学习波斯语

翻译服务

波斯语-英语互译

提供高质量的波斯语和英语互译服务

COMET指标表现优异

🚀 波斯智慧（PersianMind）

波斯智慧（PersianMind）是一款跨语言的波斯语 - 英语大语言模型。该模型在Belebele基准测试的波斯语子集以及ParsiNLU多项选择问答任务中取得了最先进的成果。在波斯语阅读理解任务中，它的表现也与GPT - 3.5 - turbo相媲美。

🚀 快速开始

模型使用入门

使用以下代码开始使用该模型。请注意，要运行此代码，你需要安装sentencepiece和accelerate库，以及PyTorch和🤗Transformers。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(
    "universitytehran/PersianMind-v1.0",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    device_map={"": device},
)
tokenizer = AutoTokenizer.from_pretrained(
    "universitytehran/PersianMind-v1.0",
)

TEMPLATE = "{context}\nYou: {prompt}\nPersianMind: "
CONTEXT = "This is a conversation with PersianMind. It is an artificial intelligence model designed by a team of " \
    "NLP experts at the University of Tehran to help you with various tasks such as answering questions, " \
    "providing recommendations, and helping with decision making. You can ask it anything you want and " \
    "it will do its best to give you accurate and relevant information."
PROMPT = "در مورد هوش مصنوعی توضیح بده."

model_input = TEMPLATE.format(context=CONTEXT, prompt=PROMPT)
input_tokens = tokenizer(model_input, return_tensors="pt")
input_tokens = input_tokens.to(device)
generate_ids = model.generate(**input_tokens, max_new_tokens=512, do_sample=False, repetition_penalty=1.1)
model_output = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

print(model_output[len(model_input):])

模型量化方法

量化模型可以在资源受限的设备上运行。要对模型进行量化，你需要安装bitsandbytes库。以下是在8位（INT8）下量化模型的代码：

model = AutoModelForCausalLM.from_pretrained(
    "universitytehran/PersianMind-v1.0",
    device_map="auto",
    low_cpu_mem_usage=True,
    load_in_8bit=True
)

或者，你可以使用以下代码在4位（NormalFloat4）下量化模型：

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
)
model = AutoModelForCausalLM.from_pretrained(
    "universitytehran/PersianMind-v1.0", 
    quantization_config=quantization_config, 
    device_map="auto"
)

量化模型评估

属性	详情
模型类型	语言模型
支持语言	英语和波斯语
许可证	CC BY - NC - SA 4.0 （仅用于非商业用途）

我们对量化模型在各种任务中与原始模型进行了评估。具体来说，我们使用Belebele（波斯语子集）的阅读理解多项选择问答基准对所有模型进行了评估，并报告了每个模型的准确率。此外，我们还对模型进行了波斯语到英语和英语到波斯语的翻译任务评估。为此，我们使用了Flores - 200数据集的波斯语 - 英语子集，并使用Comet指标报告了结果。此外，我们还计算了每个模型在运行翻译任务时每秒生成的平均标记数。为了了解资源效率，我们使用get_memory_footprint()函数测量了每个模型的内存使用情况。

模型	Belebele（波斯语）	波斯语到英语翻译（Comet）	英语到波斯语翻译（Comet）	模型大小	每秒标记数
波斯智慧（PersianMind） (`BF16`)	73.9	83.61	79.44	13.7G	25.35
波斯智慧（PersianMind） (`INT8`)	73.7	82.32	78.61	7.2G	11.36
波斯智慧（PersianMind） (`NF4`)	70.2	82.07	80.36	3.9G	24.36

📄 许可证

波斯智慧（PersianMind）遵循Meta的LLaMa2社区许可证。它还根据CC BY - NC - SA 4.0许可，允许非商业使用该模型。商业使用此模型需要获得版权持有者的书面协议，版权持有者在本页面中列为开发者。如果你怀疑有任何违规行为，请与我们联系。

引用

如果你发现此模型有帮助，请引用以下论文：

BibTeX:

@misc{persianmind,
  title={{PersianMind: A Cross-Lingual Persian-English Large Language Model}},
  author={Rostami, Pedram and Salemi, Ali and Dousti, Mohammad Javad},
  year={2024}
  eprint={2401.06466},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}