MyanmarGPT开源语言模型 - 免费支持缅文理解与内容生成

首页

Myanmargpt

由 jojo-ai-mst 开发

基于GPT2架构的缅甸语语言模型，支持缅文理解和生成

大型语言模型

Transformers

其他开源协议:Openrail #缅甸语专用GPT #低资源语言优化 #多版本变体

下载量 118

发布时间 : 12/13/2023

模型简介

专门针对缅甸语优化的GPT2模型，可用于文本生成、对话系统等自然语言处理任务

模型特点

缅甸语专用优化

使用私有缅甸语数据集训练，对缅文处理效果显著优于通用模型

多版本支持

提供基础版、大模型版、聊天专用版等不同变体满足多样化需求

易用性

通过Hugging Face transformers库可快速集成到现有项目中

模型能力

缅甸语文本生成

缅甸语对话系统

缅甸语内容创作

使用案例

教育

缅甸语学习辅助

生成缅甸语学习材料和练习题

内容创作

缅文内容自动生成

自动生成新闻、故事等缅甸语内容

🚀 缅甸GPT

缅甸GPT是一个能够理解缅甸语的模型。它基于GPT架构，旨在让缅甸语在GPT2模型中得以应用。该模型使用了由MinSiThu创建的私有缅甸语数据集进行训练。

🚀 快速开始

Myanmar GPT是一个基于私有缅甸语数据集训练的模型，由MinSiThu制作。该项目旨在使缅甸语能够在GPT2模型中使用。对MyanmarGPT模型进行微调，比使用其他语言模型更容易构建自定义的缅甸语模型。 MyanmarGPT模型的训练报告可视化展示在 MyanmarGPT报告。支持缅甸语的模型变体可以在 https://github.com/MinSiThu/MyanmarGPT 找到。还有一个支持多语言、拥有14.2亿参数的MyanmarGPT - Big模型。你可以在这里找到它。目前，缅甸GPT有四个主要的变体版本：

📦 安装指南

!pip install transformers

💻 使用示例

基础用法

from transformers import pipeline

generator = pipeline(model="jojo-ai-mst/MyanmarGPT")
outputs = generator("အီတလီ",do_sample=False)

print(outputs)
# [{'generated_text': 'အီတလီနိုင်ငံသည် ဥရောပတိုက်၏ တောင်ဘက်တွင် မြေထဲပင်လယ်ထဲသို့ ထိုးထွက်နေသော ကျွန်းဆွယ်ကြီးတစ်ခုဖြစ်၍ ပုံသဏ္ဌာန်အားဖြင့် မြင်းစီးဖိနပ်နှင့် တူလေသည်။ မြောက်ဘက်မှ တောင်ဘက်အငူစွန်းအထိ မိုင်ပေါင်း ၇၅ဝ ခန့် ရှည်လျား၍၊ ပျမ်းမျှမိုင် ၁ဝဝ မှ ၁၂ဝ ခန့်ကျယ်သည်။ အီတလီနိုင်ငံ၏ အကျယ်အဝန်းမှာ ဆာဒင်းနီးယားကျွန်း၊ စစ္စလီကျွန်းနှင့် အနီးပတ်ဝန်းကျင်ရှိ ကျွန်းကလေးများ အပါအဝင် ၁၁၆,၃၅၀ စတုရန်းမိုင်ရှိသည်။ '}]

高级用法

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel

model = GPT2LMHeadModel.from_pretrained("jojo-ai-mst/MyanmarGPT")
tokenizer = GPT2Tokenizer.from_pretrained("jojo-ai-mst/MyanmarGPT")

def generate_text(prompt, max_length=300, temperature=0.8, top_k=50):
    input_ids = tokenizer.encode(prompt, return_tensors="pt").cuda() # remove .cude() if only cpu
    output = model.generate(
        input_ids,
        max_length=max_length,
        temperature=temperature,
        top_k=top_k,
        pad_token_id=tokenizer.eos_token_id,
        do_sample=True
    )
    for result in output:
      generated_text = tokenizer.decode(result, skip_special_tokens=True)
      print(generated_text)

generate_text("အီတလီ ")

📚 详细文档

缅甸语与人工智能路线图

我发起了MyanmarGPT项目，它对缅甸产生了巨大影响。因此，我将这个项目以 [MyanmarGPT运动](https://github.com/MyanmarGPT - Movement) 的形式继续推进。MyanmarGPT运动旨在让每个人都能在缅甸发起人工智能项目。

📄 许可证

以下是使用MyanmarGPT许可证的指南：

任何人都可以免费使用MyanmarGPT。
必须做到：
- 任何从MyanmarGPT派生/微调、在内部使用MyanmarGPT或对MyanmarGPT进行修改且与MyanmarGPT相关的项目，必须在相应项目页面提及以下引用内容。
引用内容

@software{MyanmarGPT,
  author = {{MinSiThu}},
  title = {MyanmarGPT},
  version={1.1-SweptWood}
  url = {https://huggingface.co/jojo-ai-mst/MyanmarGPT},
  urldate = {2023-12-14}
  date = {2023-12-14},
}

如需联系我，请通过 [https://www.linkedin.com/in/min - si - thu/](https://www.linkedin.com/in/min - si - thu/) 与我取得联系。