MyanmarGPTオープンソース言語モデル - ミャンマー語の理解とコンテンツ生成を無料でサポート

ホーム

Myanmargpt

jojo-ai-mstによって開発

GPT2アーキテクチャに基づくミャンマー語言語モデルで、ミャンマー語の理解と生成をサポート

大規模言語モデル

Transformers

その他オープンソースライセンス:Openrail #ミャンマー語専用GPT #低リソース言語最適化 #マルチバリアント

ダウンロード数 118

リリース時間 : 12/13/2023

モデル概要

ミャンマー語に特化して最適化されたGPT2モデルで、テキスト生成、対話システムなどの自然言語処理タスクに使用可能

モデル特徴

ミャンマー語専用最適化

プライベートなミャンマー語データセットでトレーニングされており、ミャンマー語処理において汎用モデルよりも優れた効果を発揮

マルチバージョンサポート

基本版、大規模モデル版、チャット専用版など、多様なニーズに対応するバリアントを提供

使いやすさ

Hugging Face transformersライブラリを通じて既存プロジェクトに迅速に統合可能

モデル能力

ミャンマー語テキスト生成

ミャンマー語対話システム

ミャンマー語コンテンツ作成

使用事例

教育

ミャンマー語学習支援

ミャンマー語学習教材と練習問題を生成

コンテンツ作成

ミャンマー語コンテンツ自動生成

ニュースや物語などのミャンマー語コンテンツを自動生成

🚀 Myanmar - GPT

ミャンマー語（ビルマ語）に対応したGPT - Myanmar GPT

Myanmar GPTは、MinSiThuによって作成された非公開のミャンマー語データセットを使用して訓練されたモデルです。このプロジェクトの目的は、GPT2モデルでミャンマー語を使用できるようにすることです。

MyanmarGPTモデルをファインチューニングすることで、他の言語モデルを使用するよりもカスタムミャンマー語モデルを簡単に構築することができます。

MyanmarGPTモデルの訓練に関するレポートは、MyanmarGPT Reportで視覚化されています。

ビルマ語対応モデルのバリアントは、https://github.com/MinSiThu/MyanmarGPTで見つけることができます。

また、多言語対応の14.2億パラメータのMyanmarGPT - Bigモデルもあります。こちらで見つけることができます。

現在、Myanmar GPTには4つの主要なバリアントバージョンがあります。

🚀 クイックスタート

📦 インストール

!pip install transformers

💻 使用例

基本的な使用法

from transformers import pipeline

generator = pipeline(model="jojo-ai-mst/MyanmarGPT")
outputs = generator("အီတလီ",do_sample=False)

print(outputs)
# [{'generated_text': 'အီတလီနိုင်ငံသည် ဥရောပတိုက်၏ တောင်ဘက်တွင် မြေထဲပင်လယ်ထဲသို့ ထိုးထွက်နေသော ကျွန်းဆွယ်ကြီးတစ်ခုဖြစ်၍ ပုံသဏ္ဌာန်အားဖြင့် မြင်းစီးဖိနပ်နှင့် တူလေသည်။ မြောက်ဘက်မှ တောင်ဘက်အငူစွန်းအထိ မိုင်ပေါင်း ၇၅ဝ ခန့် ရှည်လျား၍၊ ပျမ်းမျှမိုင် ၁ဝဝ မှ ၁၂ဝ ခန့်ကျယ်သည်။ အီတလီနိုင်ငံ၏ အကျယ်အဝန်းမှာ ဆာဒင်းနီးယားကျွန်း၊ စစ္စလီကျွန်းနှင့် အနီးပတ်ဝန်းကျင်ရှိ ကျွန်းကလေးများ အပါအဝင် ၁၁၆,၃၅၀ စတုရန်းမိုင်ရှိသည်။ '}]

高度な使用法

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel

model = GPT2LMHeadModel.from_pretrained("jojo-ai-mst/MyanmarGPT")
tokenizer = GPT2Tokenizer.from_pretrained("jojo-ai-mst/MyanmarGPT")

def generate_text(prompt, max_length=300, temperature=0.8, top_k=50):
    input_ids = tokenizer.encode(prompt, return_tensors="pt").cuda() # remove .cude() if only cpu
    output = model.generate(
        input_ids,
        max_length=max_length,
        temperature=temperature,
        top_k=top_k,
        pad_token_id=tokenizer.eos_token_id,
        do_sample=True
    )
    for result in output:
      generated_text = tokenizer.decode(result, skip_special_tokens=True)
      print(generated_text)

generate_text("အီတလီ ")

📚 ドキュメント

ミャンマー語と人工知能のロードマップ

私はMyanmarGPTを始めました。これはミャンマーに大きな影響を与えています。そのため、私はこのプロジェクトをMyanmarGPT Movementと呼ばれる運動として続けています。MyanmarGPT Movementは、誰もがミャンマーでAIプロジェクトを始めるためのものです。

ライセンスに関するガイドライン

MyanmarGPTは誰でも無料で使用できます。
必須事項
- MyanmarGPTから派生/ファインチューニングされたプロジェクト、内部でMyanmarGPTを使用したプロジェクト、またはMyanmarGPTを修正したプロジェクトで、MyanmarGPTに関連するものは、対応するプロジェクトのページに以下の引用を記載しなければなりません。
引用

@software{MyanmarGPT,
  author = {{MinSiThu}},
  title = {MyanmarGPT},
  version={1.1-SweptWood}
  url = {https://huggingface.co/jojo-ai-mst/MyanmarGPT},
  urldate = {2023-12-14}
  date = {2023-12-14},
}

連絡先は、https://www.linkedin.com/in/min-si-thu/ からお問い合わせください。