Hebrew-Mistral-7B开源大语言模型 - 支持希伯来语和英语交流应用

首页

Hebrew Mistral 7B

由 yam-peleg 开发

基于Mistral-7B-v1.0框架的70亿参数开源大语言模型，支持希伯来语和英语预训练

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #希伯来语优化 #双语预训练 #64K分词器

下载量 5,532

发布时间 : 4/26/2024

模型简介

扩展了包含64,000个标记的希伯来语分词器，并在Mistral-7B基础上持续进行了英语和希伯来语文本的预训练，形成功能强大的通用语言模型

模型特点

双语支持

同时支持希伯来语和英语的预训练与处理

扩展分词器

包含64,000个标记的希伯来语分词器

高效推理

支持4比特精度模式运行，降低硬件需求

模型能力

文本生成

自然语言理解

多语言处理

使用案例

语言处理

希伯来语内容生成

生成高质量的希伯来语文本内容

双语翻译辅助

在英语和希伯来语之间进行翻译辅助

🚀 希伯来语 - 米斯特拉尔 7B

希伯来语 - 米斯特拉尔 7B 是一个开源的大语言模型（LLM），基于米斯特拉尔的 Mistral - 7B - v1.0 版本，使用 70 亿参数在希伯来语和英语语料上进行预训练。

它拥有一个扩展的希伯来语分词器，包含 64000 个标记，并在英语和希伯来语标记上从 Mistral - 7B 继续进行预训练。

最终得到的模型是一个强大的通用语言模型，适用于广泛的自然语言处理任务，尤其专注于希伯来语的理解和生成。

🚀 快速开始

在运行模型之前，请先确保你已经安装了必要的库。可以使用以下命令进行安装：

pip install -U transformers

安装完成后，你可以根据自己的使用场景，从下面的代码片段中选择合适的示例来快速运行模型。

💻 使用示例

基础用法

在 CPU 上运行

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B")

input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

在 GPU 上运行

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", device_map="auto")

input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

高级用法

使用 4 位精度运行

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", quantization_config = BitsAndBytesConfig(load_in_4bit=True))

input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0])