MyanmarGPT開源語言模型 - 免費支持緬文理解與內容生成

首頁

Myanmargpt

由jojo-ai-mst開發

基於GPT2架構的緬甸語語言模型，支持緬文理解和生成

大型語言模型

Transformers

其他開源協議:Openrail #緬甸語專用GPT #低資源語言優化 #多版本變體

下載量 118

發布時間 : 12/13/2023

模型概述

專門針對緬甸語優化的GPT2模型，可用於文本生成、對話系統等自然語言處理任務

模型特點

緬甸語專用優化

使用私有緬甸語數據集訓練，對緬文處理效果顯著優於通用模型

多版本支持

提供基礎版、大模型版、聊天專用版等不同變體滿足多樣化需求

易用性

通過Hugging Face transformers庫可快速集成到現有項目中

模型能力

緬甸語文本生成

緬甸語對話系統

緬甸語內容創作

使用案例

教育

緬甸語學習輔助

生成緬甸語學習材料和練習題

內容創作

緬文內容自動生成

自動生成新聞、故事等緬甸語內容

🚀 緬甸GPT

緬甸GPT是一個能夠理解緬甸語的模型。它基於GPT架構，旨在讓緬甸語在GPT2模型中得以應用。該模型使用了由MinSiThu創建的私有緬甸語數據集進行訓練。

🚀 快速開始

Myanmar GPT是一個基於私有緬甸語數據集訓練的模型，由MinSiThu製作。該項目旨在使緬甸語能夠在GPT2模型中使用。對MyanmarGPT模型進行微調，比使用其他語言模型更容易構建自定義的緬甸語模型。 MyanmarGPT模型的訓練報告可視化展示在 MyanmarGPT報告。支持緬甸語的模型變體可以在 https://github.com/MinSiThu/MyanmarGPT 找到。還有一個支持多語言、擁有14.2億參數的MyanmarGPT - Big模型。你可以在這裡找到它。目前，緬甸GPT有四個主要的變體版本：

📦 安裝指南

!pip install transformers

💻 使用示例

基礎用法

from transformers import pipeline

generator = pipeline(model="jojo-ai-mst/MyanmarGPT")
outputs = generator("အီတလီ",do_sample=False)

print(outputs)
# [{'generated_text': 'အီတလီနိုင်ငံသည် ဥရောပတိုက်၏ တောင်ဘက်တွင် မြေထဲပင်လယ်ထဲသို့ ထိုးထွက်နေသော ကျွန်းဆွယ်ကြီးတစ်ခုဖြစ်၍ ပုံသဏ္ဌာန်အားဖြင့် မြင်းစီးဖိနပ်နှင့် တူလေသည်။ မြောက်ဘက်မှ တောင်ဘက်အငူစွန်းအထိ မိုင်ပေါင်း ၇၅ဝ ခန့် ရှည်လျား၍၊ ပျမ်းမျှမိုင် ၁ဝဝ မှ ၁၂ဝ ခန့်ကျယ်သည်။ အီတလီနိုင်ငံ၏ အကျယ်အဝန်းမှာ ဆာဒင်းနီးယားကျွန်း၊ စစ္စလီကျွန်းနှင့် အနီးပတ်ဝန်းကျင်ရှိ ကျွန်းကလေးများ အပါအဝင် ၁၁၆,၃၅၀ စတုရန်းမိုင်ရှိသည်။ '}]

高級用法

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel

model = GPT2LMHeadModel.from_pretrained("jojo-ai-mst/MyanmarGPT")
tokenizer = GPT2Tokenizer.from_pretrained("jojo-ai-mst/MyanmarGPT")

def generate_text(prompt, max_length=300, temperature=0.8, top_k=50):
    input_ids = tokenizer.encode(prompt, return_tensors="pt").cuda() # remove .cude() if only cpu
    output = model.generate(
        input_ids,
        max_length=max_length,
        temperature=temperature,
        top_k=top_k,
        pad_token_id=tokenizer.eos_token_id,
        do_sample=True
    )
    for result in output:
      generated_text = tokenizer.decode(result, skip_special_tokens=True)
      print(generated_text)

generate_text("အီတလီ ")

📚 詳細文檔

緬甸語與人工智能路線圖

我發起了MyanmarGPT項目，它對緬甸產生了巨大影響。因此，我將這個項目以 [MyanmarGPT運動](https://github.com/MyanmarGPT - Movement) 的形式繼續推進。MyanmarGPT運動旨在讓每個人都能在緬甸發起人工智能項目。

📄 許可證

以下是使用MyanmarGPT許可證的指南：

任何人都可以免費使用MyanmarGPT。
必須做到：
- 任何從MyanmarGPT派生/微調、在內部使用MyanmarGPT或對MyanmarGPT進行修改且與MyanmarGPT相關的項目，必須在相應項目頁面提及以下引用內容。
引用內容

@software{MyanmarGPT,
  author = {{MinSiThu}},
  title = {MyanmarGPT},
  version={1.1-SweptWood}
  url = {https://huggingface.co/jojo-ai-mst/MyanmarGPT},
  urldate = {2023-12-14}
  date = {2023-12-14},
}

如需聯繫我，請通過 [https://www.linkedin.com/in/min - si - thu/](https://www.linkedin.com/in/min - si - thu/) 與我取得聯繫。