Hebrew-Mistral-7B開源大語言模型 - 支持希伯來語和英語交流應用

首頁

Hebrew Mistral 7B

由yam-peleg開發

基於Mistral-7B-v1.0框架的70億參數開源大語言模型，支持希伯來語和英語預訓練

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #希伯來語優化 #雙語預訓練 #64K分詞器

下載量 5,532

發布時間 : 4/26/2024

模型概述

擴展了包含64,000個標記的希伯來語分詞器，並在Mistral-7B基礎上持續進行了英語和希伯來語文本的預訓練，形成功能強大的通用語言模型

模型特點

雙語支持

同時支持希伯來語和英語的預訓練與處理

擴展分詞器

包含64,000個標記的希伯來語分詞器

高效推理

支持4比特精度模式運行，降低硬件需求

模型能力

文本生成

自然語言理解

多語言處理

使用案例

語言處理

希伯來語內容生成

生成高質量的希伯來語文本內容

雙語翻譯輔助

在英語和希伯來語之間進行翻譯輔助

🚀 希伯來語 - 米斯特拉爾 7B

希伯來語 - 米斯特拉爾 7B 是一個開源的大語言模型（LLM），基於米斯特拉爾的 Mistral - 7B - v1.0 版本，使用 70 億參數在希伯來語和英語語料上進行預訓練。

它擁有一個擴展的希伯來語分詞器，包含 64000 個標記，並在英語和希伯來語標記上從 Mistral - 7B 繼續進行預訓練。

最終得到的模型是一個強大的通用語言模型，適用於廣泛的自然語言處理任務，尤其專注於希伯來語的理解和生成。

🚀 快速開始

在運行模型之前，請先確保你已經安裝了必要的庫。可以使用以下命令進行安裝：

pip install -U transformers

安裝完成後，你可以根據自己的使用場景，從下面的代碼片段中選擇合適的示例來快速運行模型。

💻 使用示例

基礎用法

在 CPU 上運行

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B")

input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

在 GPU 上運行

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", device_map="auto")

input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

高級用法

使用 4 位精度運行

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", quantization_config = BitsAndBytesConfig(load_in_4bit=True))

input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0])