🚀 AdabTranslate-Darija
AdabTranslate-Darija 是 moussaKam/arabart 的微調版本,可實現從 Darija(摩洛哥阿拉伯語)到現代標準阿拉伯語(MSA)的翻譯。它在評估集上取得了優異的成績,能有效促進語言交流和文化傳播。
🚀 快速開始
在安裝必要的庫之後,只需複製並粘貼以下代碼即可使用該模型:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model_path = 'itsmeussa/AdabTranslate-Darija'
model = AutoModelForSeq2SeqLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained('moussaKam/arabart')
seq = "مرحبا بيكم"
tok = tokenizer.encode(seq, return_tensors='pt')
res = model.generate(tok)
tokenizer.decode(res[0])
✨ 主要特性
- 高精度與流暢性:該模型基於 26,000 個文本對進行訓練,這些文本對由人工註釋並使用 GPT - 4 技術進行增強。它在 Darija 和現代標準阿拉伯語(MSA)之間的翻譯中實現了出色的準確性和流暢性。
- 廣泛適用性:適用於語言愛好者、研究人員和從事多語言項目的開發人員等各類用戶,在多種場景下都能保證一定的準確性和有效性。
- 先進技術驅動:由 Hugging Face Transformers 庫提供支持,代表了自然語言處理技術的重大進步。
📦 安裝指南
文檔未提及具體安裝步驟,可參考 Hugging Face 相關庫的安裝說明來安裝必要的庫,如 transformers
、torch
、datasets
、tokenizers
等。
💻 使用示例
基礎用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model_path = 'itsmeussa/AdabTranslate-Darija'
model = AutoModelForSeq2SeqLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained('moussaKam/arabart')
seq = "مرحبا بيكم"
tok = tokenizer.encode(seq, return_tensors='pt')
res = model.generate(tok)
tokenizer.decode(res[0])
📚 詳細文檔
模型描述
Darija 到 MSA 翻譯器是一款先進的翻譯模型,它在由人工註釋並使用 GPT - 4 技術增強的 26,000 個文本對的多樣化數據集上進行了精心訓練。該模型利用 Hugging Face 上可用的數據集,並採用先進的訓練技術,在 Darija(摩洛哥阿拉伯語)和現代標準阿拉伯語(MSA)之間的翻譯中實現了卓越的準確性和流暢性。它由 Hugging Face Transformers 庫提供支持,是自然語言處理技術的重大進步,是消除語言障礙和促進語言多樣性的寶貴工具。
預期用途和侷限性
Darija 到 MSA 翻譯器旨在滿足廣泛用戶的需求,包括語言愛好者、研究人員和從事多語言項目的開發人員。它在多樣化數據集上的強大訓練確保了在各種上下文中的準確性和有效性。然而,用戶應注意其侷限性,特別是在高度專業化或特定領域的翻譯中,可能需要進行額外的微調。
訓練和評估數據
訓練數據由通過人工註釋生成並使用 GPT - 4 技術增強的 26,000 個文本對組成。這些數據集來自 Hugging Face,確保了用於訓練的示例全面且多樣化。評估數據經過精心挑選,以驗證模型在現實場景中的性能和準確性,確保其在實際應用中的可靠性和有效性。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率(learning_rate):5e - 05
- 訓練批次大小(train_batch_size):16
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):42
- 優化器(optimizer):Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 訓練輪數(num_epochs):5.0
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
Bleu 得分 |
生成長度 |
2.7196 |
0.14 |
200 |
1.9204 |
28.0708 |
9.7786 |
2.212 |
0.27 |
400 |
1.7376 |
31.2914 |
9.7633 |
1.9878 |
0.41 |
600 |
1.6152 |
33.3474 |
9.4964 |
1.8387 |
0.54 |
800 |
1.5276 |
35.4738 |
9.6621 |
1.7844 |
0.68 |
1000 |
1.4492 |
37.1222 |
9.5365 |
1.7389 |
0.81 |
1200 |
1.4085 |
37.6104 |
9.5614 |
1.6553 |
0.95 |
1400 |
1.3584 |
38.8845 |
9.7191 |
1.4817 |
1.08 |
1600 |
1.3305 |
39.4105 |
9.5849 |
1.3841 |
1.22 |
1800 |
1.2946 |
40.0041 |
9.5134 |
1.329 |
1.36 |
2000 |
1.2702 |
40.4855 |
9.5927 |
1.2938 |
1.49 |
2200 |
1.2410 |
41.433 |
9.6166 |
1.2812 |
1.63 |
2400 |
1.2333 |
42.0317 |
9.7487 |
1.234 |
1.76 |
2600 |
1.2066 |
42.0791 |
9.5668 |
1.2652 |
1.9 |
2800 |
1.1808 |
42.9113 |
9.6416 |
1.1726 |
2.03 |
3000 |
1.1849 |
42.8411 |
9.6397 |
1.0367 |
2.17 |
3200 |
1.1817 |
43.2576 |
9.6385 |
1.052 |
2.31 |
3400 |
1.1714 |
43.4972 |
9.6456 |
1.0222 |
2.44 |
3600 |
1.1486 |
43.7071 |
9.637 |
0.9921 |
2.58 |
3800 |
1.1437 |
44.278 |
9.6048 |
1.053 |
2.71 |
4000 |
1.1305 |
44.8293 |
9.6804 |
1.0093 |
2.85 |
4200 |
1.1247 |
44.8092 |
9.6187 |
1.0177 |
2.98 |
4400 |
1.1108 |
45.2717 |
9.6331 |
0.8833 |
3.12 |
4600 |
1.1225 |
45.2862 |
9.6317 |
0.8604 |
3.25 |
4800 |
1.1161 |
45.2156 |
9.625 |
0.8712 |
3.39 |
5000 |
1.1139 |
45.2736 |
9.5955 |
0.865 |
3.53 |
5200 |
1.1137 |
45.7609 |
9.6828 |
0.8821 |
3.66 |
5400 |
1.0981 |
45.742 |
9.6779 |
0.8532 |
3.8 |
5600 |
1.0934 |
45.6965 |
9.5956 |
0.8515 |
3.93 |
5800 |
1.0954 |
46.0175 |
9.6165 |
0.7878 |
4.07 |
6000 |
1.0941 |
45.96 |
9.6382 |
0.7652 |
4.2 |
6200 |
1.0988 |
45.8692 |
9.6138 |
0.7841 |
4.34 |
6400 |
1.0991 |
46.1438 |
9.6514 |
0.7432 |
4.47 |
6600 |
1.0961 |
46.1105 |
9.6212 |
0.7918 |
4.61 |
6800 |
1.0910 |
46.305 |
9.6477 |
0.7638 |
4.75 |
7000 |
1.0901 |
46.4753 |
9.6439 |
0.7448 |
4.88 |
7200 |
1.0892 |
46.4939 |
9.6377 |
框架版本
- Transformers 4.40.0.dev0
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.2
🔧 技術細節
該模型是 moussaKam/arabart 的微調版本,使用了 Hugging Face Transformers 庫。在訓練過程中,採用了特定的超參數,如學習率、批次大小等,以優化模型性能。通過在多樣化的數據集上進行訓練和評估,確保了模型在實際應用中的可靠性和有效性。
📄 許可證
本模型使用 Apache - 2.0 許可證。
作者
- Oussama Mounajjim
- Imad Zaoug
- Mehdi Soufiane