🚀 COMET翻訳品質推定モデル
このモデルはCOMETに基づく翻訳品質推定モデルです。ソース文とその翻訳文を入力として受け取り、翻訳の品質を反映したスコアを返します。
🚀 クイックスタート
このモデルは、ソース文とその翻訳文を入力として受け取り、翻訳の品質を反映したスコアを返します。
✨ 主な機能
- ソース文と翻訳文を入力として、翻訳品質のスコアを出力します。
- 複数の言語に対応しています。
📦 インストール
このモデルを使用するには、unbabel-comet
をインストールする必要があります。
pip install --upgrade pip
pip install "unbabel-comet>=2.0.0"
使用する前に、ライセンスに同意し、Hugging Face Hubにログインしてください。
huggingface-cli login
huggingface-cli login --token $HUGGINGFACE_TOKEN
💻 使用例
基本的な使用法
CLIを使用してスコアを取得するには、以下のコマンドを実行します。
comet-score -s {source-input}.txt -t {translation-output}.txt --model Unbabel/wmt22-cometkiwi-da
高度な使用法
Pythonを使用してスコアを取得するには、以下のコードを実行します。
from comet import download_model, load_from_checkpoint
model_path = download_model("Unbabel/wmt22-cometkiwi-da")
model = load_from_checkpoint(model_path)
data = [
{
"src": "The output signal provides constant sync so the display never glitches.",
"mt": "Das Ausgangssignal bietet eine konstante Synchronisation, so dass die Anzeige nie stört."
},
{
"src": "Kroužek ilustrace je určen všem milovníkům umění ve věku od 10 do 15 let.",
"mt": "Кільце ілюстрації призначене для всіх любителів мистецтва у віці від 10 до 15 років."
},
{
"src": "Mandela then became South Africa's first black president after his African National Congress party won the 1994 election.",
"mt": "その後、1994年の選挙でアフリカ国民会議派が勝利し、南アフリカ初の黒人大統領となった。"
}
]
model_output = model.predict(data, batch_size=8, gpus=1)
print (model_output)
📚 ドキュメント
論文
CometKiwi: IST - Unbabel 2022 Submission for the Quality Estimation Shared Task (Rei et al., WMT 2022)
想定される用途
このモデルは、参照なしの機械翻訳評価に使用することを想定しています。ソーステキストとその翻訳文を与えると、0から1までの単一のスコアを出力し、1は完全な翻訳を表します。
対応言語
このモデルはInfoXLMをベースに構築されており、以下の言語に対応しています。
アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アッサム語、アゼルバイジャン語、バスク語、ベラルーシ語、ベンガル語、ベンガル語(ローマ字表記)、ボスニア語、ブルトン語、ブルガリア語、ビルマ語、ビルマ語、カタルーニャ語、中国語(簡体字)、中国語(繁体字)、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ハウサ語、ヘブライ語、ヒンディー語、ヒンディー語(ローマ字表記)、ハンガリー語、アイスランド語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語(クルマンジー方言)、キルギス語、ラオス語、ラテン語、ラトビア語、リトアニア語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、オリヤー語、オロモ語、パシュトー語、ペルシャ語、ポーランド語、ポルトガル語、パンジャーブ語、ルーマニア語、ロシア語、サンスクリット語、スコットランド・ゲール語、セルビア語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タミル語、タミル語(ローマ字表記)、テルグ語、テルグ語(ローマ字表記)、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ウルドゥー語(ローマ字表記)、ウイグル語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、コサ語、イディッシュ語
したがって、対応していない言語を含む言語ペアの結果は信頼できません!
📄 ライセンス
cc - by - nc - sa - 4.0