🚀 TransQuest: クロス言語トランスフォーマーを用いた翻訳品質推定
翻訳品質推定(Quality Estimation, QE)の目標は、参照訳を利用できない状況でも翻訳の品質を評価することです。多くの言語ペアに対して簡単に展開できる高精度のQEは、多くの商業的な翻訳ワークフローにおいて不足している要素であり、多くの潜在的な用途があります。複数の翻訳エンジンが利用可能な場合に最適な翻訳を選択するために使用したり、自動翻訳されたコンテンツの信頼性をエンドユーザーに通知することができます。また、QEシステムは、特定のコンテキストで翻訳をそのまま公開できるか、公開前に人手による修正が必要か、あるいは人による最初からの翻訳が必要かを判断するために使用できます。品質推定は、ドキュメントレベル、文レベル、単語レベルといった異なるレベルで行うことができます。
TransQuestでは、翻訳品質推定に関する研究をオープンソース化しています。この研究は、WMT 2020の文レベルの直接評価品質推定共有タスクで優勝しました。TransQuestは、OpenKiwiやDeepQuestなどの現在のオープンソースの品質推定フレームワークを上回っています。
✨ 主な機能
- 文レベルの翻訳品質推定:編集後の作業量の予測と直接評価の両面で行えます。
- 単語レベルの翻訳品質推定:原文の単語、訳文の単語、訳文の空白部分の品質を予測できます。
- 実験したすべての言語において、DeepQuestやOpenKiwiなどの最新の品質推定手法を上回っています。
- 15の言語ペアに対する事前学習済みの品質推定モデルがHuggingFaceで利用可能です。
📦 インストール
pipからのインストール
pip install transquest
ソースからのインストール
git clone https://github.com/TharinduDR/TransQuest.git
cd TransQuest
pip install -r requirements.txt
💻 使用例
基本的な使用法
import torch
from transquest.algo.sentence_level.siamesetransquest.run_model import SiameseTransQuestModel
model = SiameseTransQuestModel("TransQuest/siamesetransquest-da-multilingual")
predictions = model.predict([["Reducerea acestor conflicte este importantă pentru conservare.", "Reducing these conflicts is not important for preservation."]])
print(predictions)
📚 ドキュメント
詳細については、以下のドキュメントを参照してください。
- インストール - pipを使用してローカルにTransQuestをインストールします。
- アーキテクチャ - TransQuestで実装されているアーキテクチャを確認します。
- 文レベルのアーキテクチャ - 文レベルの品質推定を行うために、MonoTransQuestとSiameseTransQuestの2つのアーキテクチャを公開しています。
- 単語レベルのアーキテクチャ - 単語レベルの品質推定を行うために、MicroTransQuestを公開しています。
- 使用例 - 最近のWMT品質推定共有タスクにおけるTransQuestの使用方法のいくつかの例を提供しています。
- 文レベルの使用例
- 単語レベルの使用例
- 事前学習済みモデル - 文レベルと単語レベルの両方をカバーする15の言語ペアに対する事前学習済みの品質推定モデルを提供しています。
- 文レベルのモデル
- 単語レベルのモデル
- お問い合わせ - TransQuestに関する問題があれば、お問い合わせください。
📄 ライセンス
このプロジェクトは、Apache License 2.0の下で公開されています。
🔖 引用
単語レベルのアーキテクチャを使用する場合は、ACL 2021で発表されたこの論文を引用してください。
@InProceedings{ranasinghe2021,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {An Exploratory Analysis of Multilingual Word Level Quality Estimation with Cross-Lingual Transformers},
booktitle = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
year = {2021}
}
文レベルのアーキテクチャを使用する場合は、COLING 2020とWMT 2020(EMNLP 2020)で発表されたこれらの論文を引用してください。
@InProceedings{transquest:2020a,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest: Translation Quality Estimation with Cross-lingual Transformers},
booktitle = {Proceedings of the 28th International Conference on Computational Linguistics},
year = {2020}
}
@InProceedings{transquest:2020b,
author = {Ranasinghe, Tharindu and Orasan, Constantin and Mitkov, Ruslan},
title = {TransQuest at WMT2020: Sentence-Level Direct Assessment},
booktitle = {Proceedings of the Fifth Conference on Machine Translation},
year = {2020}
}