Fine-Tashkeel開源阿拉伯語標音系統 - 自動補全發音符號精準度高

首頁

Fine Tashkeel

由basharalrfooh開發

基於字節級微調模型的阿拉伯語精確標音系統，通過微調預訓練模型實現阿拉伯文本發音符號的自動補全。

大型語言模型

Transformers

阿拉伯語開源協議:MIT #阿拉伯語標音 #字節級微調 #多語言支持

下載量 335

發布時間 : 4/8/2024

模型概述

該模型專注於恢復阿拉伯文本中缺失的發音符號，無需特徵工程即可顯著降低詞錯誤率，適用於古典阿拉伯語文本處理。

模型特點

無標記預訓練架構

採用ByT5模型直接處理原始文本，能靈活應對多語言及複雜語言現象

高效微調

僅需少量訓練即可將詞錯誤率降低40%，達到當前最優標音性能

古典阿拉伯語優化

專為古典阿拉伯語訓練，在Tashkeela數據集上進行了13,000步微調

模型能力

阿拉伯語文本標音

發音符號預測

文本補全

使用案例

語言處理

阿拉伯語文本標音

為無發音符號的阿拉伯文本自動添加正確的發音標記

標音錯誤率（DER）0.95，詞錯誤率（WER）2.49

阿拉伯語學習輔助

幫助學習者理解阿拉伯語單詞的正確發音

🚀 Fine-Tashkeel：微調字節級模型以實現精確的阿拉伯文標音

Fine-Tashkeel項目旨在通過微調預訓練的無標記多語言模型（ByT5），來學習預測並插入阿拉伯語文本中缺失的標音符號。該項目減少了40%的詞錯誤率（WER），為阿拉伯文標音任務帶來了先進的解決方案。

🚀 快速開始

以下是使用該模型的代碼示例：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import pandas as pd

if __name__ == "__main__":

  text = "كيف الحال"
  
  model_name = "basharalrfooh/Fine-Tashkeel" 
  
  tokenizer = AutoTokenizer.from_pretrained(model_name)
  model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
  
  input_ids = tokenizer(text, return_tensors="pt").input_ids
  outputs = model.generate(input_ids, max_new_tokens=128)
  decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
  print("Generated output:", decoded_output)

✨ 主要特性

利用預訓練模型：藉助預訓練的無標記多語言模型（ByT5）進行微調，避免從頭開始訓練模型。
高性能表現：在標音任務中達到了先進水平，減少了40%的詞錯誤率（WER）。
通用性強：ByT5模型經過預訓練，能夠處理多種自然語言處理任務。

📦 安裝指南

文檔中未提及具體安裝步驟，暫無法提供。

💻 使用示例

基礎用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import pandas as pd

if __name__ == "__main__":

  text = "كيف الحال"
  
  model_name = "basharalrfooh/Fine-Tashkeel" 
  
  tokenizer = AutoTokenizer.from_pretrained(model_name)
  model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
  
  input_ids = tokenizer(text, return_tensors="pt").input_ids
  outputs = model.generate(input_ids, max_new_tokens=128)
  decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
  print("Generated output:", decoded_output)

📚 詳細文檔

模型描述

ByT5模型以其創新的無標記架構而著稱，它直接處理原始文本，能夠熟練應對各種語言和語言細微差別。ByT5在全面的文本語料庫mc4上進行了預訓練，在理解和生成文本方面表現出色，適用於各種自然語言處理任務。我們在Tashkeela數據集上對其進行了13,000步的微調，進一步增強了其在恢復阿拉伯文標音符號方面的性能。

基準測試

注意：此模型是專門為古典阿拉伯語訓練的。 我們的模型實現了0.95的標音錯誤率（DER）和2.49的詞錯誤率（WER）。

🔧 技術細節

本項目主要是對預訓練的ByT5模型進行微調，在Tashkeela數據集上訓練了13,000步，以提高模型在阿拉伯文標音任務上的性能。通過這種方式，減少了40%的詞錯誤率（WER），達到了該任務的先進水平。

📄 許可證

本項目採用MIT許可證。

📜 引用

如果您使用了本項目的模型或代碼，請引用以下論文：

@misc{alrfooh2023finetashkeel,
      title={Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text Diacritization}, 
      author={Bashar Al-Rfooh and Gheith Abandah and Rami Al-Rfou},
      year={2023},
      eprint={2303.14588},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}