🚀 ElanMT
ElanMT是由ELAN MITSUA項目 / Abstract Engine開發的翻譯模型。其中,ElanMT - BT - ja - en 專注於日英翻譯。儘管訓練資源相對有限,但藉助反向翻譯和新構建的CC0語料庫,該模型取得了與現有開源翻譯模型相當的性能。
🚀 快速開始
安裝Python包
pip install transformers accelerate sentencepiece
⚠️ 重要提示
此模型在 transformers==4.40.2
版本上進行了驗證。
運行示例
from transformers import pipeline
translator = pipeline('translation', model='Mitsua/elan-mt-bt-ja-en')
translator('こんにちは。私はAIです。')
處理長句建議
對於較長的多個句子,建議使用 pySBD 進行處理。
pip install transformers accelerate sentencepiece pysbd
import pysbd
seg = pysbd.Segmenter(language="ja", clean=False)
txt = 'こんにちは。私はAIです。お元気ですか?'
print(translator(seg.segment(txt)))
此思路來源於 FuguMT 倉庫。
✨ 主要特性
- 基於相對較少的資源進行訓練,通過反向翻譯和新構建的CC0語料庫,達到了與現有開源翻譯模型相當的性能。
- 訓練過程中未使用網絡爬取或其他機器翻譯的語料庫,保證了數據的合規性。
📦 安裝指南
安裝所需的Python包:
pip install transformers accelerate sentencepiece
💻 使用示例
基礎用法
from transformers import pipeline
translator = pipeline('translation', model='Mitsua/elan-mt-bt-ja-en')
translator('こんにちは。私はAIです。')
高級用法
對於較長的多個句子,使用 pySBD 進行處理:
import pysbd
seg = pysbd.Segmenter(language="ja", clean=False)
txt = 'こんにちは。私はAIです。お元気ですか?'
print(translator(seg.segment(txt)))
📚 詳細文檔
模型詳情
這是一個基於 Marian MT 6層編碼器 - 解碼器變壓器架構和sentencepiece分詞器的翻譯模型。
訓練數據
在數據集收集方面,我們大量參考了 FuguMT作者的博客文章。
⚠️ 重要提示
即使數據集本身是CC許可的,如果數據集中包含的語料庫是基於網絡爬取、未經授權使用受版權保護的作品或其他翻譯模型的機器翻譯輸出,我們也不會使用。
訓練過程
在訓練過程和超參數調整方面,我們大量參考了 "Beating Edinburgh's WMT2017 system for en - de with Marian's Transformer model"。
- 在400萬行的開源許可語料庫上訓練一個包含32k詞彙的sentencepiece分詞器。
- 在400萬行的開源許可語料庫上訓練
en - ja
反向翻譯模型,共訓練6個週期,得到 ElanMT - base - en - ja。
- 在400萬行的開源許可語料庫上訓練
ja - en
基礎翻譯模型,共訓練6個週期,得到 ElanMT - base - ja - en。
- 使用反向翻譯模型將2000萬行的英語維基百科文章翻譯成日語。
- 在2400萬行的訓練數據(包含反向翻譯數據)上訓練4個
ja - en
模型,這些模型是基於 ElanMT - base - ja - en 檢查點進行微調的,共訓練6個週期。
- 合併4個在FLORES + 開發集上驗證得分最高的訓練模型。
- 在100萬行的高質量語料庫子集上對合並後的模型進行微調,共訓練5個週期。
評估
數據集
- 使用 FLORES+ (CC BY - SA 4.0) 的開發測試集進行評估。
- NTREX (CC BY - SA 4.0)
結果
⚠️ 重要提示
- 在
transformers==4.29.2
和 num_beams = 4
條件下進行測試。
- BLEU分數由
sacreBLEU
計算得出。
🔧 技術細節
該模型基於 Marian MT 的6層編碼器 - 解碼器變壓器架構,使用sentencepiece分詞器。通過精心設計的訓練流程,包括分詞器訓練、反向翻譯模型訓練、基礎翻譯模型訓練、數據擴充和模型合併微調等步驟,在相對較少的資源下取得了較好的性能。
📄 許可證
本模型使用 CC BY - SA 4.0 許可證。
⚠️ 重要提示
翻譯結果可能存在嚴重錯誤、有害信息或偏差。該模型是為了研究僅使用相對較小的許可語料庫可達到的性能而開發的,不適合需要高翻譯準確性的用例。根據CC BY - SA 4.0許可證第5條,ELAN MITSUA項目 / Abstract Engine不對因使用該模型而造成的任何直接或間接損失負責。