DictaLM - 2.0オープンソーステキスト生成モデル - ヘブライ語のコンテンツ作成の最適化を無料でサポート

ホーム

Dictalm2.0

dicta-ilによって開発

DictaLM-2.0は70億パラメータの事前学習済み生成テキストモデルで、ヘブライ語に最適化され、Mistral-7Bアーキテクチャを基に改良

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ヘブライ語最適化 #多言語生成 #低トークン圧縮率

ダウンロード数 24.86k

リリース時間 : 4/10/2024

モデル概要

ヘブライ語に特化して最適化された生成型大規模言語モデル。トークナイザーの拡張とバイリンガルトレーニングによりヘブライ語処理能力を強化

モデル特徴

ヘブライ語専用トークナイザー

1000個のヘブライ語トークンを追加、圧縮率を5.78トークン/語から2.76トークン/語に改善

バイリンガル事前学習

1900億トークンのデータで訓練（50%ヘブライ語+50%英語）

量子化サポート

4ビット量子化のGPTQとAWQバージョンを提供、ハードウェア要件を低減

モデル能力

ヘブライ語テキスト生成

英語テキスト生成

時制変換

言語理解

使用事例

言語学習

動詞の時制変換

ヘブライ語動詞の時制変換を自動的に完了

例では過去形と未来形の正確な変換を展示

コンテンツ生成

ヘブライ語コンテンツ作成

ヘブライ語文法に準拠した様々なテキストコンテンツを生成

🚀 DictaLM 2.0：拡張された語彙と命令機能を備えたヘブライ語向け大規模言語モデル

DictaLM-2.0大規模言語モデル（LLM）は、70億のパラメータを持つ事前学習済みの生成型テキストモデルで、ヘブライ語テキストに特化して訓練されています。

このモデルの詳細については、リリースブログ記事または技術レポートをご覧ください。

これはフル精度のベースモデルです。 DictaLM-2.0のベース/命令型、非量子化/量子化バージョンの全コレクションをこちらで閲覧およびアクセスできます。

🚀 クイックスタート

必要条件

このモデルは、transformersライブラリとtorchライブラリを必要とします。
推論時のパラメータとして、temperatureは0.7に設定されています。

インストール

pip install transformers torch

💻 使用例

基本的な使用法

from transformers import pipeline
import torch

# This loads the model onto the GPU in bfloat16 precision
model = pipeline('text-generation', 'dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda')

# Sample few shot examples
prompt = """
עבר: הלכתי
עתיד: אלך

עבר: שמרתי
עתיד: אשמור

עבר: שמעתי
עתיד: אשמע

עבר: הבנתי
עתיד:
"""

print(model(prompt.strip(), do_sample=False, max_new_tokens=8, stop_sequence='\n'))
# [{'generated_text': 'עבר: הלכתי\nעתיד: אלך\n\nעבר: שמרתי\nעתיד: אשמור\n\nעבר: שמעתי\nעתיד: אשמע\n\nעבר: הבנתי\nעתיד: אבין\n\n'}]

高度な使用法 - 4ビット量子化モデル

すでにGPTQとAWQの方法を使用した事前量子化された4ビットモデルが利用可能です：DictaLM-2.0-AWQとDictaLM-2.0-GPTQ。

オンザフライで動的量子化を行うために、以下はbitsandbytesパッケージを使用してモデルをGPUにロードするサンプルコードです。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained('dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda', load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictalm2.0')

prompt = """
עבר: הלכתי
עתיד: אלך

עבר: שמרתי
עתיד: אשמור

עבר: שמעתי
עתיד: אשמע

עבר: הבנתי
עתיד:
"""

encoded = tokenizer(prompt.strip(), return_tensors='pt').to(model.device)
print(tokenizer.batch_decode(model.generate(**encoded, do_sample=False, max_new_tokens=4)))
# ['<s> עבר: הלכתי\nעתיד: אלך\n\nעבר: שמרתי\nעתיד: אשמור\n\nעבר: שמעתי\nעתיד: אשמע\n\nעבר: הבנתי\nעתיד: אבין\n\n']

🔧 技術詳細

モデルアーキテクチャ

DictaLM-2.0は、Mistral-7B-v0.1モデルをベースに以下の変更が加えられています。

ヘブライ語専用に1,000個のトークンを注入した拡張トークナイザーを使用し、圧縮率を5.78トークン/単語から2.76トークン/単語に向上させています。
自然発生的なテキストの1900億以上のトークン（ヘブライ語50%、英語50%）での追加事前学習を行っています。

注意事項

DictaLM 2.0は事前学習済みのベースモデルであり、モデレーションメカニズムはありません。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📚 引用

このモデルを使用する場合は、以下のように引用してください。

@misc{shmidman2024adaptingllmshebrewunveiling,
      title={Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities}, 
      author={Shaltiel Shmidman and Avi Shmidman and Amir DN Cohen and Moshe Koppel},
      year={2024},
      eprint={2407.07080},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.07080}, 
}