🚀 阿拉伯語ORPO LLAMA 3
本項目基於微調模型,旨在解決阿拉伯語文本生成中語言連貫性和準確性的問題,為阿拉伯語自然語言處理提供更優質的解決方案。
🚀 快速開始
你可以從這裡試用該模型,並與我分享你的見解。
✨ 主要特性
此模型是 meta-llama/Meta-Llama-3-8B-Instruct 的微調版本,使用 ORPO 在 2A2I/argilla-dpo-mix-7k-arabic 數據集上進行微調。雖然評估結果顯示基礎的 llama3 表現更優,但在實際應用中,微調後的模型在輸出連貫(大多正確)的阿拉伯語文本方面表現更佳。
📚 詳細文檔
📖 故事緣起
本模型是 meta-llama/Meta-Llama-3-8B-Instruct 的微調版本,使用 ORPO 在 2A2I/argilla-dpo-mix-7k-arabic 數據集上進行微調。
我想嘗試使用 ORPO,看看它能否讓像 llama3 這樣有偏向性的英語模型更好地適配阿拉伯語,或者是否會失敗。
雖然評估結果更傾向於基礎的 llama3,但在實踐中,我發現我微調後的模型在輸出連貫(大多正確)的阿拉伯語文本方面要好得多,我覺得這很有趣。
我鼓勵大家從這裡試用該模型,並與我分享你的見解 ^^
📊 評估與結果
此結果使用 lighteval 進行 community|arabic_mmlu 任務評估得出。
領域 |
Llama-3-8B-Instruct |
阿拉伯語-ORPO-Llama-3-8B-Instruct |
全部 |
0.348 |
0.317 |
抽象代數 |
0.310 |
0.230 |
解剖學 |
0.385 |
0.348 |
天文學 |
0.388 |
0.316 |
商業倫理 |
0.480 |
0.370 |
臨床知識 |
0.396 |
0.385 |
大學生物學 |
0.347 |
0.299 |
大學化學 |
0.180 |
0.250 |
大學計算機科學 |
0.250 |
0.190 |
大學數學 |
0.260 |
0.280 |
大學醫學 |
0.231 |
0.249 |
大學物理學 |
0.225 |
0.216 |
計算機安全 |
0.470 |
0.440 |
概念物理學 |
0.315 |
0.404 |
計量經濟學 |
0.263 |
0.272 |
電氣工程 |
0.414 |
0.359 |
初等數學 |
0.320 |
0.272 |
形式邏輯 |
0.270 |
0.214 |
全球事實 |
0.320 |
0.320 |
高中生物學 |
0.332 |
0.335 |
高中化學 |
0.256 |
0.296 |
高中計算機科學 |
0.350 |
0.300 |
高中歐洲歷史 |
0.224 |
0.242 |
高中地理 |
0.323 |
0.364 |
高中政府與政治 |
0.352 |
0.285 |
高中宏觀經濟學 |
0.290 |
0.285 |
高中數學 |
0.237 |
0.278 |
高中微觀經濟學 |
0.231 |
0.273 |
高中物理學 |
0.252 |
0.225 |
高中心理學 |
0.316 |
0.330 |
高中統計學 |
0.199 |
0.176 |
高中美國曆史 |
0.284 |
0.250 |
高中世界歷史 |
0.312 |
0.274 |
人類衰老 |
0.369 |
0.430 |
人類性行為 |
0.481 |
0.321 |
國際法 |
0.603 |
0.405 |
法理學 |
0.491 |
0.370 |
邏輯謬誤 |
0.368 |
0.276 |
機器學習 |
0.214 |
0.312 |
管理學 |
0.350 |
0.379 |
市場營銷 |
0.521 |
0.547 |
醫學遺傳學 |
0.320 |
0.330 |
雜項 |
0.446 |
0.443 |
道德爭議 |
0.422 |
0.306 |
道德場景 |
0.248 |
0.241 |
營養學 |
0.412 |
0.346 |
哲學 |
0.408 |
0.328 |
史前史 |
0.429 |
0.349 |
專業會計學 |
0.344 |
0.273 |
專業法律 |
0.306 |
0.244 |
專業醫學 |
0.228 |
0.206 |
專業心理學 |
0.337 |
0.315 |
公共關係 |
0.391 |
0.373 |
安全研究 |
0.469 |
0.335 |
社會學 |
0.498 |
0.408 |
美國外交政策 |
0.590 |
0.490 |
病毒學 |
0.422 |
0.416 |
世界宗教 |
0.404 |
0.304 |
(所有領域)平均 |
0.348 |
0.317 |
📄 許可證
本項目採用 llama3 許可證。
模型信息表格
屬性 |
詳情 |
模型類型 |
阿拉伯語ORPO LLAMA 3 |
訓練數據 |
2A2I/argilla-dpo-mix-7k-arabic |
許可證 |
llama3 |
語言 |
阿拉伯語 |
任務類型 |
文本生成 |