🚀 Fine-Tashkeel:微調字節級模型以實現精確的阿拉伯文標音
Fine-Tashkeel項目旨在通過微調預訓練的無標記多語言模型(ByT5),來學習預測並插入阿拉伯語文本中缺失的標音符號。該項目減少了40%的詞錯誤率(WER),為阿拉伯文標音任務帶來了先進的解決方案。
🚀 快速開始
以下是使用該模型的代碼示例:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import pandas as pd
if __name__ == "__main__":
text = "كيف الحال"
model_name = "basharalrfooh/Fine-Tashkeel"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(text, return_tensors="pt").input_ids
outputs = model.generate(input_ids, max_new_tokens=128)
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
print("Generated output:", decoded_output)
✨ 主要特性
- 利用預訓練模型:藉助預訓練的無標記多語言模型(ByT5)進行微調,避免從頭開始訓練模型。
- 高性能表現:在標音任務中達到了先進水平,減少了40%的詞錯誤率(WER)。
- 通用性強:ByT5模型經過預訓練,能夠處理多種自然語言處理任務。
📦 安裝指南
文檔中未提及具體安裝步驟,暫無法提供。
💻 使用示例
基礎用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import pandas as pd
if __name__ == "__main__":
text = "كيف الحال"
model_name = "basharalrfooh/Fine-Tashkeel"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(text, return_tensors="pt").input_ids
outputs = model.generate(input_ids, max_new_tokens=128)
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
print("Generated output:", decoded_output)
📚 詳細文檔
模型描述
ByT5模型以其創新的無標記架構而著稱,它直接處理原始文本,能夠熟練應對各種語言和語言細微差別。ByT5在全面的文本語料庫mc4上進行了預訓練,在理解和生成文本方面表現出色,適用於各種自然語言處理任務。我們在Tashkeela數據集上對其進行了13,000步的微調,進一步增強了其在恢復阿拉伯文標音符號方面的性能。
基準測試
注意:此模型是專門為古典阿拉伯語訓練的。
我們的模型實現了0.95的標音錯誤率(DER)和2.49的詞錯誤率(WER)。
🔧 技術細節
本項目主要是對預訓練的ByT5模型進行微調,在Tashkeela數據集上訓練了13,000步,以提高模型在阿拉伯文標音任務上的性能。通過這種方式,減少了40%的詞錯誤率(WER),達到了該任務的先進水平。
📄 許可證
本項目採用MIT許可證。
📜 引用
如果您使用了本項目的模型或代碼,請引用以下論文:
@misc{alrfooh2023finetashkeel,
title={Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text Diacritization},
author={Bashar Al-Rfooh and Gheith Abandah and Rami Al-Rfou},
year={2023},
eprint={2303.14588},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
☎️ 聯繫我們
如果您有任何問題或建議,請聯繫bashar@alrfou.com。