TituLM-1B-BN-V1オープンソース言語モデル - 無料でデプロイ可能、ベンガル語のテキスト生成と理解をサポート

ホーム

Titulm Mpt 1b V1.0

hishabによって開発

TituLM-1B-BN-V1は、ベンガル語のテキスト生成と理解のために特別にトレーニングされた大規模言語モデルで、45.1億のベンガル語トークンを含むデータセットで広範にトレーニングされています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #ベンガル語生成 #長文処理 #多様なデータソースでのトレーニング

ダウンロード数 61

リリース時間 : 12/4/2023

モデル概要

このモデルはデコーダースタイルのTransformerアーキテクチャを採用しており、Hishab社が繰り返しトレーニングしリリースしたベンガル語大規模言語モデルシリーズの一部で、主にベンガル語のテキスト生成と理解に使用されます。

モデル特徴

大規模なベンガル語トレーニング

45.1億のベンガル語トークンを含むデータセットでトレーニングされており、強力なベンガル語の理解と生成能力を備えています。

最適化されたTransformerアーキテクチャ

デコーダースタイルのTransformerアーキテクチャを採用し、16のアテンションヘッドと24のネットワーク層を持ち、2048の最大シーケンス長をサポートします。

効率的なトレーニング

MosaicMLのllm-foundryフレームワークを使用してトレーニングが完了し、59回の反復最適化を経て、最終的な損失値は3.11でした。

モデル能力

ベンガル語テキスト生成

ベンガル語テキスト理解

使用事例

コンテンツ作成

ベンガル語歌詞生成

ユーザーが入力した短いプロンプトに基づいてベンガル語の歌詞を生成します。

ベンガル語の文法とスタイルに合った歌詞コンテンツを生成します。

教育

ベンガル語学習支援

学習者がベンガル語のテキストを理解し生成するのを支援します。

正確なベンガル語の例と説明を提供します。

🚀 TituLM-1B-BN-V1

TituLM-1B-BN-V1は、バングラ語のテキスト生成と理解のために特別に訓練された大規模言語モデルです。デコーダー型のトランスフォーマーアーキテクチャを利用し、このモデルは45.1億のバングラ語トークンからなるデータセットで大規模に訓練されています。このモデルは、Hishabによるバングラ語LLMの反復的な訓練とリリースの一環です。

🚀 クイックスタート

このモデルを使ってテキストを生成する基本的な使い方は簡単です。以下のコードに従って、このモデルを使ってテキストを生成しましょう。

コードを実行する前に、以下のライブラリをインストールしてください。

pip install transformers
pip install einops
pip install accelerate

import transformers
from transformers import pipeline

model_name = 'hishab/titulm-1b-bn-v1'

config = transformers.AutoConfig.from_pretrained(model_name, trust_remote_code=True)
config.max_seq_len = 2048

model = transformers.AutoModelForCausalLM.from_pretrained(
  model_name,
  config=config,
  trust_remote_code=True
)

tokenizer = transformers.AutoTokenizer.from_pretrained('hishab/titulm-1b-bn-v1')

pipe = pipeline('text-generation', model=model, tokenizer=tokenizer, device='cuda:0')
output = pipe('আমি বাংলায় গান',
            max_new_tokens=100,
            do_sample=True,
            use_cache=True)

print(output)

✨ 主な機能

TituLM-1B-BN-V1は、バングラ語のテキスト生成と理解に特化した大規模言語モデルです。デコーダー型のトランスフォーマーアーキテクチャを利用し、大規模なバングラ語データセットで訓練されています。

📦 インストール

コードを実行する前に、以下のライブラリをインストールしてください。

pip install transformers
pip install einops
pip install accelerate

📚 ドキュメント

学習

学習プロセスは、MosaicMLのllm-foundryリポジトリが提供する堅牢なフレームワークを使用して管理されました。学習フェーズを通じて、titulm-1b-bn-v1は合計59回の反復を経て、反復的な改良と最適化が行われました。

注目すべき学習設定:

n_nead: 16
n_layers: 24
max_sequence_length: 2048
vocab_size: 72000
attn_impl: flash
GCP上の8台のH100 GPUで学習

学習評価ステータス

評価交差エントロピー損失最終損失: 3.11
言語パープレキシティ最終パープレキシティ: 22.562

データセット

私たちは、いくつかのソースからバングラ語のテキストデータセットを追加しています。

Culturax
書籍
バングラ語版ウィキペディア
Banglapedia
ニュース記事

私たちの総データサイズは、sentencepieceモデルでトークン化された45.1億のトークンを含む58GBの重複排除されたデータです。

引用

@misc{hishab_2024_titulm_1b_bn_v1,
  author = {Hishab Technologies Ltd.},
  title = {TituLM-1B-BN-V1},
  year = {2024},
  publisher = {HuggingFace Models},
  howpublished = {https://huggingface.co/hishab/titulm-1b-bn-v1},
}

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で提供されています。

```markdown
| 属性 | 详情 |
|------|------|
| パイプラインタグ | テキスト生成 |
| データセット | uonlp/CulturaX、wikipedia |
| 言語 | バングラ語 |
| ライセンス | Apache-2.0 |

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご