🚀 適配大語言模型到希伯來語:揭秘 DictaLM 2.0,增強詞彙和指令能力
DictaLM-2.0 大語言模型(LLM)是一個預訓練的生成式文本模型,擁有 70 億參數,專門針對希伯來語文本進行訓練。
如需瞭解該模型的完整詳情,請閱讀我們的發佈博客文章或技術報告。
這是全精度的基礎模型。您可以在此查看和訪問 DictaLM-2.0
的基礎/指令、未量化/量化版本的完整集合。

🚀 快速開始
DictaLM-2.0 大語言模型(LLM)是一個預訓練的生成式文本模型,專門針對希伯來語文本進行訓練。
✨ 主要特性
- 專業訓練:針對希伯來語文本進行專門訓練,擁有 70 億參數。
- 多種版本:提供基礎/指令、未量化/量化等多種版本。
- 架構優化:基於 Mistral-7B-v0.1 模型,擴展分詞器並繼續預訓練。
📦 安裝指南
文檔未提供安裝步驟,暫不展示。
💻 使用示例
基礎用法
from transformers import pipeline
import torch
model = pipeline('text-generation', 'dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda')
prompt = """
עבר: הלכתי
עתיד: אלך
עבר: שמרתי
עתיד: אשמור
עבר: שמעתי
עתיד: אשמע
עבר: הבנתי
עתיד:
"""
print(model(prompt.strip(), do_sample=False, max_new_tokens=8, stop_sequence='\n'))
高級用法
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained('dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda', load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictalm2.0')
prompt = """
עבר: הלכתי
עתיד: אלך
עבר: שמרתי
עתיד: אשמור
עבר: שמעתי
עתיד: אשמע
עבר: הבנתי
עתיד:
"""
encoded = tokenizer(prompt.strip(), return_tensors='pt').to(model.device)
print(tokenizer.batch_decode(model.generate(**encoded, do_sample=False, max_new_tokens=4)))
📚 詳細文檔
如需瞭解該模型的完整詳情,請閱讀我們的發佈博客文章或技術報告。
🔧 技術細節
DictaLM-2.0 基於 Mistral-7B-v0.1 模型,進行了以下改進:
- 擴展分詞器:注入 1000 個專門針對希伯來語的標記,將壓縮率從 5.78 標記/單詞提高到 2.76 標記/單詞。
- 繼續預訓練:在超過 1900 億個自然文本標記上繼續預訓練,其中 50% 為希伯來語,50% 為英語。
📄 許可證
本模型採用 Apache-2.0 許可證。
⚠️ 重要提示
DictaLM 2.0 是一個預訓練的基礎模型,因此沒有任何審核機制。
📖 引用
如果您使用此模型,請引用:
@misc{shmidman2024adaptingllmshebrewunveiling,
title={Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities},
author={Shaltiel Shmidman and Avi Shmidman and Amir DN Cohen and Moshe Koppel},
year={2024},
eprint={2407.07080},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.07080},
}