🚀 适配大语言模型到希伯来语:揭秘 DictaLM 2.0,增强词汇和指令能力
DictaLM-2.0 大语言模型(LLM)是一个预训练的生成式文本模型,拥有 70 亿参数,专门针对希伯来语文本进行训练。
如需了解该模型的完整详情,请阅读我们的发布博客文章或技术报告。
这是全精度的基础模型。您可以在此查看和访问 DictaLM-2.0
的基础/指令、未量化/量化版本的完整集合。

🚀 快速开始
DictaLM-2.0 大语言模型(LLM)是一个预训练的生成式文本模型,专门针对希伯来语文本进行训练。
✨ 主要特性
- 专业训练:针对希伯来语文本进行专门训练,拥有 70 亿参数。
- 多种版本:提供基础/指令、未量化/量化等多种版本。
- 架构优化:基于 Mistral-7B-v0.1 模型,扩展分词器并继续预训练。
📦 安装指南
文档未提供安装步骤,暂不展示。
💻 使用示例
基础用法
from transformers import pipeline
import torch
model = pipeline('text-generation', 'dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda')
prompt = """
עבר: הלכתי
עתיד: אלך
עבר: שמרתי
עתיד: אשמור
עבר: שמעתי
עתיד: אשמע
עבר: הבנתי
עתיד:
"""
print(model(prompt.strip(), do_sample=False, max_new_tokens=8, stop_sequence='\n'))
高级用法
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained('dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda', load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictalm2.0')
prompt = """
עבר: הלכתי
עתיד: אלך
עבר: שמרתי
עתיד: אשמור
עבר: שמעתי
עתיד: אשמע
עבר: הבנתי
עתיד:
"""
encoded = tokenizer(prompt.strip(), return_tensors='pt').to(model.device)
print(tokenizer.batch_decode(model.generate(**encoded, do_sample=False, max_new_tokens=4)))
📚 详细文档
如需了解该模型的完整详情,请阅读我们的发布博客文章或技术报告。
🔧 技术细节
DictaLM-2.0 基于 Mistral-7B-v0.1 模型,进行了以下改进:
- 扩展分词器:注入 1000 个专门针对希伯来语的标记,将压缩率从 5.78 标记/单词提高到 2.76 标记/单词。
- 继续预训练:在超过 1900 亿个自然文本标记上继续预训练,其中 50% 为希伯来语,50% 为英语。
📄 许可证
本模型采用 Apache-2.0 许可证。
⚠️ 重要提示
DictaLM 2.0 是一个预训练的基础模型,因此没有任何审核机制。
📖 引用
如果您使用此模型,请引用:
@misc{shmidman2024adaptingllmshebrewunveiling,
title={Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities},
author={Shaltiel Shmidman and Avi Shmidman and Amir DN Cohen and Moshe Koppel},
year={2024},
eprint={2407.07080},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.07080},
}