🚀 mT5_base_yoruba_adr
mT5_base_yoruba_adr 是一個針對約魯巴語的自動變音符號恢復模型,基於微調後的 mT5-base 模型。它在為約魯巴語文本添加正確的變音符號或聲調標記方面達到了最先進的性能。
🚀 快速開始
你可以使用 Transformers 的 pipeline 來使用這個用於自動變音符號恢復(ADR)的模型。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("")
model = AutoModelForTokenClassification.from_pretrained("")
nlp = pipeline("", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 基於微調的 mT5-base 模型,為約魯巴語實現自動變音符號恢復。
- 在為約魯巴語文本添加正確的變音符號或聲調標記方面達到了最先進的性能。
📦 安裝指南
原文檔未提及安裝步驟,此部分跳過。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("")
model = AutoModelForTokenClassification.from_pretrained("")
nlp = pipeline("", model=model, tokenizer=tokenizer)
example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
ner_results = nlp(example)
print(ner_results)
高級用法
原文檔未提及高級用法示例,此部分跳過。
📚 詳細文檔
預期用途和限制
如何使用
你可以使用 Transformers 的 pipeline 來使用這個用於自動變音符號恢復(ADR)的模型。
限制和偏差
此模型受限於其特定時間段內帶有實體註釋的新聞文章訓練數據集。對於不同領域的所有用例,它可能無法很好地泛化。
訓練數據
該模型在 JW300 約魯巴語語料庫和 Menyo - 20k 數據集上進行了微調。
訓練過程
該模型在單個 NVIDIA V100 GPU 上進行訓練。
測試集評估結果(BLEU 分數)
信息表格
屬性 |
詳情 |
模型類型 |
基於微調 mT5-base 的約魯巴語自動變音符號恢復模型 |
訓練數據 |
JW300 約魯巴語語料庫和 Menyo - 20k 數據集 |
🔧 技術細節
原文檔未提供足夠技術實現細節,此部分跳過。
📄 許可證
原文檔未提及許可證信息,此部分跳過。
BibTeX 條目和引用信息
由 Jesujoba Alabi 和 David Adelani 完成