bert-base-mongolian-cased開源模型 - 免費支持蒙古語文本處理任務

首頁

Bert Base Mongolian Cased

由tugstugi開發

這是一個預訓練的蒙古語BERT模型，基於蒙古語維基百科和新聞數據集訓練，支持蒙古語文本處理任務。

大型語言模型其他#蒙古語理解 #區分大小寫 #維基百科訓練

下載量 258

發布時間 : 3/2/2022

模型概述

該模型是基於BERT架構的蒙古語預訓練語言模型，主要用於蒙古語文本的掩碼語言建模和其他自然語言處理任務。

模型特點

蒙古語專用

專門針對蒙古語文本優化的BERT模型

區分大小寫

模型能夠識別和處理大小寫差異的蒙古語文本

大規模預訓練

基於蒙古語維基百科和7億詞規模的新聞數據集進行預訓練

模型能力

蒙古語文本理解

掩碼語言預測

文本填充

使用案例

文本處理

地名預測

預測句子中缺失的地名信息

能準確預測蒙古城市名稱如'Улаанбаатар'

文本補全

自動補全不完整的蒙古語句子

提供多個可能的補全選項及其置信度

🚀 蒙文大小寫敏感BERT基礎模型

本項目提供了預訓練的蒙文BERT模型，可用於蒙文自然語言處理任務，為相關研究和應用提供了有力支持。

🚀 快速開始

本倉庫包含由 tugstugi、enod 和 sharavsambuu 訓練的預訓練蒙文 BERT 模型。特別感謝 nabar 提供的5倍TPU算力支持。

本倉庫基於以下開源項目構建：google-research/bert、huggingface/pytorch-pretrained-BERT 和 yoheikikuta/bert-japanese。

蒙文BERT官方倉庫鏈接

💻 使用示例

基礎用法

from transformers import pipeline, AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained('tugstugi/bert-base-mongolian-cased', use_fast=False)
model = AutoModelForMaskedLM.from_pretrained('tugstugi/bert-base-mongolian-cased')

## declare task ##
pipe = pipeline(task="fill-mask", model=model, tokenizer=tokenizer)

## example ##
input_  = '[MASK] хот Монгол улсын нийслэл.'

output_ = pipe(input_)
for i in range(len(output_)):
    print(output_[i])

## output ##
# {'sequence': 'Улаанбаатар хот Монгол улсын нийслэл.', 'score': 0.826970100402832, 'token': 281, 'token_str': 'Улаанбаатар'}
# {'sequence': 'Нийслэл хот Монгол улсын нийслэл.', 'score': 0.06551621109247208, 'token': 4059, 'token_str': 'Нийслэл'}
# {'sequence': 'Эрдэнэт хот Монгол улсын нийслэл.', 'score': 0.0264141745865345, 'token': 2229, 'token_str': 'Эрдэнэт'}
# {'sequence': 'Дархан хот Монгол улсын нийслэл.', 'score': 0.017083868384361267, 'token': 1646, 'token_str': 'Дархан'}
# {'sequence': 'УБ хот Монгол улсын нийслэл.', 'score': 0.010854342952370644, 'token': 7389, 'token_str': 'УБ'}

📚 詳細文檔

訓練數據

蒙文維基百科和包含7億個單詞的蒙文新聞數據集 [預訓練流程]

BibTeX引用和引用信息

@misc{mongolian-bert,
  author = {Tuguldur, Erdene-Ochir and Gunchinish, Sharavsambuu and Bataa, Enkhbold},
  title = {BERT Pretrained Models on Mongolian Datasets},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/tugstugi/mongolian-bert/}}
}