🚀 希伯来语-Gemma-11B-V2
希伯来语-Gemma-11B-V2 是 希伯来语-Gemma-11B 的更新版本,经过了更长时间的训练,并修复了一些漏洞。该模型是基于谷歌的 Gemma-7B 架构的开源大语言模型(LLM),是一个拥有 110 亿参数的希伯来语/英语预训练生成式文本模型。它在 gemma-7b 的基础上继续预训练,扩展到了更大的规模,并在 30 亿额外的英语和希伯来语文本数据上进行了训练。最终得到的 Gemma-11B 是一个强大的通用语言模型,适用于广泛的自然语言处理任务,尤其专注于希伯来语的理解和生成。
🚀 快速开始
首先,确保你已经安装了 transformers
库,你可以使用以下命令进行更新安装:
pip install -U transformers
然后,根据你的使用场景,从下面的代码片段中选择适合你的部分进行复制使用。
💻 使用示例
基础用法
在 CPU 上运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2")
input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
在 GPU 上运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2", device_map="auto")
input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
使用 4 位精度运行
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2", quantization_config = BitsAndBytesConfig(load_in_4bit=True))
input_text = "שלום! מה שלומך היום?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
📚 详细文档
基础模型
指令模型
使用条款
作为 Gemma-7B 的扩展,此模型受谷歌原始许可证和使用条款的约束。
Gemma-7B 原始使用条款:条款
基准测试结果
注意事项
希伯来语-Gemma-11B-V2 是一个预训练的基础模型,因此没有任何审核机制。
作者
- 由 Yam Peleg 训练。
- 与 Jonathan Rouach 和 Arjeo 公司合作。
📄 许可证
本模型使用的许可证为 gemma 条款。