Dictalm2.0-instruct開源大語言模型 - 免費支持希伯來語和英語聊天對話

首頁

Dictalm2.0 Instruct

由dicta-il開發

基於DictaLM-2.0的指令微調大語言模型，專為希伯來語和英語聊天場景優化

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #希伯來語優化 #指令微調 #多語言對話

下載量 9,977

發布時間 : 4/14/2024

模型概述

這是專為聊天場景設計的全精度指令微調模型，通過多種對話數據集進行指令微調的版本，特別優化了希伯來語能力

模型特點

雙語支持

專門優化了希伯來語和英語的雙語處理能力

指令微調

通過多種對話數據集進行指令微調，優化聊天交互體驗

增強詞彙

針對希伯來語擴展了詞彙和指令數據集

模型能力

文本生成

多輪對話

雙語處理

指令理解

使用案例

聊天應用

智能對話助手

可用於構建希伯來語和英語雙語聊天機器人

能進行自然流暢的多輪對話

食譜生成

根據用戶請求生成烹飪食譜

能提供詳細的食材清單和製作步驟

語言學習

希伯來語學習助手

幫助學習者練習希伯來語對話

提供自然的希伯來語交互體驗

🚀 適配大語言模型至希伯來語：揭秘 DictaLM 2.0 增強詞彙與指令能力

DictaLM-2.0-Instruct 大語言模型（LLM）是 DictaLM-2.0 生成模型的指令微調版本，它使用了多種對話數據集進行微調。

若需瞭解該模型的完整詳情，請閱讀我們的發佈博客文章或技術報告。

這是一個為聊天設計的指令微調全精度模型。你可以在此處的即時演示中試用該模型。

你可以在此處查看並訪問 DictaLM-2.0 的基礎/指令未量化/量化版本的完整集合。

🚀 快速開始

指令格式

為了利用指令微調的優勢，你的提示應該用 [INST] 和 [/INST] 標記包圍。第一條指令應從句子起始標識符開始，後續指令則不需要。助手生成的內容將以句子結束標識符結束。

例如：

text = """<s>[INST] איזה רוטב אהוב עליך? [/INST]
טוב, אני די מחבב כמה טיפות מיץ לימון סחוט טרי. זה מוסיף בדיוק את הכמות הנכונה של טעם חמצמץ לכל מה שאני מבשל במטבח!</s>[INST] האם יש לך מתכונים למיונז? [/INST]"

這種格式可以通過 apply_chat_template() 方法作為聊天模板使用。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained("dicta-il/dictalm2.0-instruct", torch_dtype=torch.bfloat16, device_map=device)
tokenizer = AutoTokenizer.from_pretrained("dicta-il/dictalm2.0-instruct")

messages = [
    {"role": "user", "content": "איזה רוטב אהוב עליך?"},
    {"role": "assistant", "content": "טוב, אני די מחבב כמה טיפות מיץ לימון סחוט טרי. זה מוסיף בדיוק את הכמות הנכונה של טעם חמצמץ לכל מה שאני מבשל במטבח!"},
    {"role": "user", "content": "האם יש לך מתכונים למיונז?"}
]

encoded = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)

generated_ids = model.generate(encoded, max_new_tokens=50, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
# <s> [INST] איזה רוטב אהוב עליך? [/INST]
# טוב, אני די מחבב כמה טיפות מיץ לימון סחוט טרי. זה מוסיף בדיוק את הכמות הנכונה של טעם חמצמץ לכל מה שאני מבשל במטבח!</s>  [INST] האם יש לך מתכונים למיונז? [/INST]
# בטח, הנה מתכון בסיסי וקל להכנת מיונז ביתי!
# 
# מרכיבים:
# - 2 חלמונים גדולים
# - 1 כף חומץ יין לבן
# (it stopped early because we set max_new_tokens=50)

🔧 技術細節

模型架構

DictaLM-2.0-Instruct 遵循 Zephyr-7B-beta 的指令模型微調方案，併為希伯來語擴展了指令數據集。

侷限性

DictaLM 2.0 Instruct 模型展示了基礎模型可以通過微調實現出色的性能，但它沒有任何審核機制。我們期待與社區合作，探索使模型更好地遵循規則的方法，以便在需要審核輸出的環境中部署。

📄 許可證

本模型使用 Apache-2.0 許可證。

📚 引用

如果您使用此模型，請引用：

@misc{shmidman2024adaptingllmshebrewunveiling,
      title={Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities}, 
      author={Shaltiel Shmidman and Avi Shmidman and Amir DN Cohen and Moshe Koppel},
      year={2024},
      eprint={2407.07080},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.07080}, 
}