🚀 Fine-Tashkeel:微调字节级模型以实现精确的阿拉伯文标音
Fine-Tashkeel项目旨在通过微调预训练的无标记多语言模型(ByT5),来学习预测并插入阿拉伯语文本中缺失的标音符号。该项目减少了40%的词错误率(WER),为阿拉伯文标音任务带来了先进的解决方案。
🚀 快速开始
以下是使用该模型的代码示例:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import pandas as pd
if __name__ == "__main__":
text = "كيف الحال"
model_name = "basharalrfooh/Fine-Tashkeel"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(text, return_tensors="pt").input_ids
outputs = model.generate(input_ids, max_new_tokens=128)
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
print("Generated output:", decoded_output)
✨ 主要特性
- 利用预训练模型:借助预训练的无标记多语言模型(ByT5)进行微调,避免从头开始训练模型。
- 高性能表现:在标音任务中达到了先进水平,减少了40%的词错误率(WER)。
- 通用性强:ByT5模型经过预训练,能够处理多种自然语言处理任务。
📦 安装指南
文档中未提及具体安装步骤,暂无法提供。
💻 使用示例
基础用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import pandas as pd
if __name__ == "__main__":
text = "كيف الحال"
model_name = "basharalrfooh/Fine-Tashkeel"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(text, return_tensors="pt").input_ids
outputs = model.generate(input_ids, max_new_tokens=128)
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
print("Generated output:", decoded_output)
📚 详细文档
模型描述
ByT5模型以其创新的无标记架构而著称,它直接处理原始文本,能够熟练应对各种语言和语言细微差别。ByT5在全面的文本语料库mc4上进行了预训练,在理解和生成文本方面表现出色,适用于各种自然语言处理任务。我们在Tashkeela数据集上对其进行了13,000步的微调,进一步增强了其在恢复阿拉伯文标音符号方面的性能。
基准测试
注意:此模型是专门为古典阿拉伯语训练的。
我们的模型实现了0.95的标音错误率(DER)和2.49的词错误率(WER)。
🔧 技术细节
本项目主要是对预训练的ByT5模型进行微调,在Tashkeela数据集上训练了13,000步,以提高模型在阿拉伯文标音任务上的性能。通过这种方式,减少了40%的词错误率(WER),达到了该任务的先进水平。
📄 许可证
本项目采用MIT许可证。
📜 引用
如果您使用了本项目的模型或代码,请引用以下论文:
@misc{alrfooh2023finetashkeel,
title={Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text Diacritization},
author={Bashar Al-Rfooh and Gheith Abandah and Rami Al-Rfou},
year={2023},
eprint={2303.14588},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
☎️ 联系我们
如果您有任何问题或建议,请联系bashar@alrfou.com。