オープンソースのwmt22-cometkiwi-daモデル - 機械翻訳の品質を無料で評価し、正確なスコアを出力する

ホーム

Wmt22 Cometkiwi Da

Unbabelによって開発

COMETKiwiは機械翻訳の品質評価を行うモデルで、ソーステキストと翻訳テキストに基づいて品質スコアを出力できます。

質問応答システム複数言語対応#多言語品質評価 #参照なしスコアリング #機械翻訳品質検査

ダウンロード数 3,104

リリース時間 : 2/10/2023

モデル概要

このモデルはソース文とその翻訳を受け取り、翻訳品質を反映するスコアを返します。主に参照なしの機械翻訳評価に使用されます。

モデル特徴

多言語サポート

90以上の言語の品質評価をサポートし、幅広い言語ニーズに対応します。

参照なし評価

参照翻訳が不要で、ソーステキストと翻訳テキストだけで評価可能です。

高品質スコアリング

0から1の間のスコアを出力し、1は完璧な翻訳を表し、スコアは翻訳品質を正確に反映します。

モデル能力

機械翻訳品質評価

多言語テキスト分析

使用事例

機械翻訳

翻訳品質モニタリング

機械翻訳システムの出力品質を監視し、翻訳問題を迅速に発見します。

客観的な品質スコアを提供し、翻訳システムの改善を支援します。

翻訳後編集

人手編集が必要な低品質翻訳を識別し、翻訳効率を向上させます。

人手編集の作業量を削減し、翻訳品質を向上させます。

🚀 COMET翻訳品質推定モデル

このモデルはCOMETに基づく翻訳品質推定モデルです。ソース文とその翻訳文を入力として受け取り、翻訳の品質を反映したスコアを返します。

🚀 クイックスタート

このモデルは、ソース文とその翻訳文を入力として受け取り、翻訳の品質を反映したスコアを返します。

✨ 主な機能

ソース文と翻訳文を入力として、翻訳品質のスコアを出力します。
複数の言語に対応しています。

📦 インストール

このモデルを使用するには、unbabel-cometをインストールする必要があります。

pip install --upgrade pip  # ensures that pip is current 
pip install "unbabel-comet>=2.0.0"

使用する前に、ライセンスに同意し、Hugging Face Hubにログインしてください。

huggingface-cli login
# or using an environment variable
huggingface-cli login --token $HUGGINGFACE_TOKEN

💻 使用例

基本的な使用法

CLIを使用してスコアを取得するには、以下のコマンドを実行します。

comet-score -s {source-input}.txt -t {translation-output}.txt --model Unbabel/wmt22-cometkiwi-da

高度な使用法

Pythonを使用してスコアを取得するには、以下のコードを実行します。

from comet import download_model, load_from_checkpoint

model_path = download_model("Unbabel/wmt22-cometkiwi-da")
model = load_from_checkpoint(model_path)
data = [
    {
        "src": "The output signal provides constant sync so the display never glitches.",
        "mt": "Das Ausgangssignal bietet eine konstante Synchronisation, so dass die Anzeige nie stört."
    },
    {
        "src": "Kroužek ilustrace je určen všem milovníkům umění ve věku od 10 do 15 let.",
        "mt": "Кільце ілюстрації призначене для всіх любителів мистецтва у віці від 10 до 15 років."
    },
    {
        "src": "Mandela then became South Africa's first black president after his African National Congress party won the 1994 election.",
        "mt": "その後、1994年の選挙でアフリカ国民会議派が勝利し、南アフリカ初の黒人大統領となった。"
    }
]
model_output = model.predict(data, batch_size=8, gpus=1)
print (model_output)

📚 ドキュメント

論文

CometKiwi: IST - Unbabel 2022 Submission for the Quality Estimation Shared Task (Rei et al., WMT 2022)

想定される用途

このモデルは、参照なしの機械翻訳評価に使用することを想定しています。ソーステキストとその翻訳文を与えると、0から1までの単一のスコアを出力し、1は完全な翻訳を表します。

対応言語

このモデルはInfoXLMをベースに構築されており、以下の言語に対応しています。

アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アッサム語、アゼルバイジャン語、バスク語、ベラルーシ語、ベンガル語、ベンガル語（ローマ字表記）、ボスニア語、ブルトン語、ブルガリア語、ビルマ語、ビルマ語、カタルーニャ語、中国語（簡体字）、中国語（繁体字）、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ハウサ語、ヘブライ語、ヒンディー語、ヒンディー語（ローマ字表記）、ハンガリー語、アイスランド語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語（クルマンジー方言）、キルギス語、ラオス語、ラテン語、ラトビア語、リトアニア語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、オリヤー語、オロモ語、パシュトー語、ペルシャ語、ポーランド語、ポルトガル語、パンジャーブ語、ルーマニア語、ロシア語、サンスクリット語、スコットランド・ゲール語、セルビア語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タミル語、タミル語（ローマ字表記）、テルグ語、テルグ語（ローマ字表記）、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ウルドゥー語（ローマ字表記）、ウイグル語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、コサ語、イディッシュ語

したがって、対応していない言語を含む言語ペアの結果は信頼できません！