🚀 希伯来语 - 米斯特拉尔 7B
希伯来语 - 米斯特拉尔 7B 是一个开源的大语言模型(LLM),基于米斯特拉尔的 Mistral - 7B - v1.0 版本,使用 70 亿参数在希伯来语和英语语料上进行预训练。
它拥有一个扩展的希伯来语分词器,包含 64000 个标记,并在英语和希伯来语标记上从 Mistral - 7B 继续进行预训练。
最终得到的模型是一个强大的通用语言模型,适用于广泛的自然语言处理任务,尤其专注于希伯来语的理解和生成。
🚀 快速开始
在运行模型之前,请先确保你已经安装了必要的库。可以使用以下命令进行安装:
pip install -U transformers
安装完成后,你可以根据自己的使用场景,从下面的代码片段中选择合适的示例来快速运行模型。
💻 使用示例
基础用法
在 CPU 上运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
在 GPU 上运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", device_map="auto")
input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
高级用法
使用 4 位精度运行
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", quantization_config = BitsAndBytesConfig(load_in_4bit=True))
input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0])
⚠️ 重要提示
希伯来语 - 米斯特拉尔 7B 是一个预训练的基础模型,因此没有任何审核机制。
👥 作者
- 由 Yam Peleg 训练。
- 与 Jonathan Rouach 和 Arjeo 公司合作。
📄 许可证
本项目采用 Apache - 2.0 许可证。