🚀 希伯來語 - 米斯特拉爾 7B
希伯來語 - 米斯特拉爾 7B 是一個開源的大語言模型(LLM),基於米斯特拉爾的 Mistral - 7B - v1.0 版本,使用 70 億參數在希伯來語和英語語料上進行預訓練。
它擁有一個擴展的希伯來語分詞器,包含 64000 個標記,並在英語和希伯來語標記上從 Mistral - 7B 繼續進行預訓練。
最終得到的模型是一個強大的通用語言模型,適用於廣泛的自然語言處理任務,尤其專注於希伯來語的理解和生成。
🚀 快速開始
在運行模型之前,請先確保你已經安裝了必要的庫。可以使用以下命令進行安裝:
pip install -U transformers
安裝完成後,你可以根據自己的使用場景,從下面的代碼片段中選擇合適的示例來快速運行模型。
💻 使用示例
基礎用法
在 CPU 上運行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
在 GPU 上運行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", device_map="auto")
input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
高級用法
使用 4 位精度運行
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", quantization_config = BitsAndBytesConfig(load_in_4bit=True))
input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0])
⚠️ 重要提示
希伯來語 - 米斯特拉爾 7B 是一個預訓練的基礎模型,因此沒有任何審核機制。
👥 作者
- 由 Yam Peleg 訓練。
- 與 Jonathan Rouach 和 Arjeo 公司合作。
📄 許可證
本項目採用 Apache - 2.0 許可證。