mallam-1.1B-4096オープンソース事前学習モデル - マレー語のテキスト処理に適し、長いコンテキストをサポート

ホーム

Mallam 1.1B 4096

mesoliticaによって開発

マレー語テキストベースの1.1Bパラメータ事前学習モデル、Mistralアーキテクチャを使用、4096コンテキスト長をサポート

大規模言語モデル

Transformers

その他#マレー語大規模モデル #長文処理 #低リソース最適化

ダウンロード数 201

リリース時間 : 11/27/2023

モデル概要

これはマレー語に特化して最適化された1.1Bパラメータの大規模言語モデルで、900億マレー語テキストトークンでゼロから事前学習されており、マレー語テキスト生成や理解タスクに適しています

モデル特徴

マレー語最適化

マレー語テキストに特化して訓練と最適化を実施

長文コンテキストサポート

4096トークンの長文コンテキスト処理能力をサポート

効率的な訓練

Rayクラスタを使用し5ノード（各ノード4×A100 80GB）で効率的に訓練を完了

モデル能力

マレー語テキスト生成

長文理解

言語モデル推論

使用事例

テキスト生成

マレー語コンテンツ作成

マレー語の記事、ストーリーやその他のクリエイティブコンテンツを生成

対話システム

マレー語チャットボットや仮想アシスタントを構築

教育

言語学習支援

マレー語を学ぶユーザーの練習や理解を支援

🚀 MaLLaM 🌙 1.1B (マレーシア大規模言語モデル)、マレーシア語テキストで1.1Bパラメータ、コンテキスト長4096で事前学習

Mistralアーキテクチャを使用して、900億のマレーシア語テキストトークンで11億のパラメータをゼロから事前学習します。

READMEはこちらを参照してください。

900億トークンで学習。データはこちらから収集。
Rayクラスタを使用して、5ノードの4x A100 80GBで学習。詳細はこちら。

WandB: https://wandb.ai/mesolitica/pretrain-mistral-1.1b?workspace=user-husein-mesolitica

WandBレポート: https://wandb.ai/mesolitica/pretrain-mistral-3b/reports/Pretrain-Larger-Malaysian-Mistral--Vmlldzo2MDkyOTgz

技術レポート: https://github.com/mesolitica/malaya/wiki/MaLLaM-%F0%9F%8C%99-Malaysia-Large-Language-Model

🚀 クイックスタート

このセクションでは、MaLLaM 1.1Bモデルを使用するための基本的な手順を説明します。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch

TORCH_DTYPE = 'bfloat16'
nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=getattr(torch, TORCH_DTYPE)
)

tokenizer = AutoTokenizer.from_pretrained('mesolitica/mallam-1.1B-4096')
model = AutoModelForCausalLM.from_pretrained(
    'mesolitica/mallam-1.1B-4096',
    use_flash_attention_2 = True,
    quantization_config = nf4_config
)
prompt = '<s>nama saya'
inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')

generate_kwargs = dict(
    inputs,
    max_new_tokens=512,
    top_p=0.95,
    top_k=50,
    temperature=0.9,
    do_sample=True,
    num_beams=1,
    repetition_penalty=1.05,
)
r = model.generate(**generate_kwargs)

高度な使用法

# 高度な使用法に関する説明は、必要に応じてここに記載できます。
# 現在のコード例は基本的な使用法をカバーしています。
# 高度なシナリオがあれば、それに応じたコードと説明を追加してください。

📚 ドキュメント

プロパティ	詳細
モデルタイプ	MaLLaM 1.1B (マレーシア大規模言語モデル)
学習データ	900億のマレーシア語テキストトークン。こちらから収集。