DictaLM-2.0開源文本生成模型 - 免費支持希伯來語內容創作優化

首頁

Dictalm2.0

由dicta-il開發

DictaLM-2.0是一個70億參數的預訓練生成文本模型，專為希伯來語優化，基於Mistral-7B架構改進

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #希伯來語優化 #多語言生成 #低標記壓縮率

下載量 24.86k

發布時間 : 4/10/2024

模型概述

專為希伯來語優化的生成式大語言模型，通過擴展分詞器和雙語訓練增強希伯來語處理能力

模型特點

希伯來語專用分詞器

新增1000個希伯來語標記，壓縮率從5.78標記/詞提升至2.76標記/詞

雙語預訓練

在1900億標記數據上訓練（50%希伯來語+50%英語）

量化支持

提供4比特量化的GPTQ和AWQ版本，降低硬件需求

模型能力

希伯來語文本生成

英語文本生成

時態轉換

語言理解

使用案例

語言學習

動詞時態轉換

自動完成希伯來語動詞的時態轉換

示例中展示了過去時與將來時的準確轉換

內容生成

希伯來語內容創作

生成符合希伯來語文法的各類文本內容

🚀 適配大語言模型到希伯來語：揭秘 DictaLM 2.0，增強詞彙和指令能力

DictaLM-2.0 大語言模型（LLM）是一個預訓練的生成式文本模型，擁有 70 億參數，專門針對希伯來語文本進行訓練。

如需瞭解該模型的完整詳情，請閱讀我們的發佈博客文章或技術報告。

這是全精度的基礎模型。您可以在此查看和訪問 DictaLM-2.0 的基礎/指令、未量化/量化版本的完整集合。

🚀 快速開始

DictaLM-2.0 大語言模型（LLM）是一個預訓練的生成式文本模型，專門針對希伯來語文本進行訓練。

✨ 主要特性

專業訓練：針對希伯來語文本進行專門訓練，擁有 70 億參數。
多種版本：提供基礎/指令、未量化/量化等多種版本。
架構優化：基於 Mistral-7B-v0.1 模型，擴展分詞器並繼續預訓練。

📦 安裝指南

文檔未提供安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import pipeline
import torch

# This loads the model onto the GPU in bfloat16 precision
model = pipeline('text-generation', 'dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda')

# Sample few shot examples
prompt = """
עבר: הלכתי
עתיד: אלך

עבר: שמרתי
עתיד: אשמור

עבר: שמעתי
עתיד: אשמע

עבר: הבנתי
עתיד:
"""

print(model(prompt.strip(), do_sample=False, max_new_tokens=8, stop_sequence='\n'))
# [{'generated_text': 'עבר: הלכתי\nעתיד: אלך\n\nעבר: שמרתי\nעתיד: אשמור\n\nעבר: שמעתי\nעתיד: אשמע\n\nעבר: הבנתי\nעתיד: אבין\n\n'}]

高級用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained('dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda', load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictalm2.0')

prompt = """
עבר: הלכתי
עתיד: אלך

עבר: שמרתי
עתיד: אשמור

עבר: שמעתי
עתיד: אשמע

עבר: הבנתי
עתיד:
"""

encoded = tokenizer(prompt.strip(), return_tensors='pt').to(model.device)
print(tokenizer.batch_decode(model.generate(**encoded, do_sample=False, max_new_tokens=4)))
# ['<s> עבר: הלכתי\nעתיד: אלך\n\nעבר: שמרתי\nעתיד: אשמור\n\nעבר: שמעתי\nעתיד: אשמע\n\nעבר: הבנתי\nעתיד: אבין\n\n']

📚 詳細文檔

如需瞭解該模型的完整詳情，請閱讀我們的發佈博客文章或技術報告。

🔧 技術細節

DictaLM-2.0 基於 Mistral-7B-v0.1 模型，進行了以下改進：

擴展分詞器：注入 1000 個專門針對希伯來語的標記，將壓縮率從 5.78 標記/單詞提高到 2.76 標記/單詞。
繼續預訓練：在超過 1900 億個自然文本標記上繼續預訓練，其中 50% 為希伯來語，50% 為英語。

📄 許可證

本模型採用 Apache-2.0 許可證。

⚠️ 重要提示

DictaLM 2.0 是一個預訓練的基礎模型，因此沒有任何審核機制。

📖 引用

如果您使用此模型，請引用：

@misc{shmidman2024adaptingllmshebrewunveiling,
      title={Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities}, 
      author={Shaltiel Shmidman and Avi Shmidman and Amir DN Cohen and Moshe Koppel},
      year={2024},
      eprint={2407.07080},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.07080}, 
}