wmt22 - comet - daオープンソース機械翻訳評価モデル - 複数の言語ペアの翻訳品質評価を無料でサポート

ホーム

Wmt22 Comet Da

Unbabelによって開発

COMET-22はUnbabelが開発した機械翻訳評価モデルで、XLM-Rアーキテクチャに基づき、複数言語ペアの翻訳品質評価をサポートします。

機械翻訳複数言語対応オープンソースライセンス:Apache-2.0 #多言語翻訳評価 #参照依存スコアリング #機械翻訳品質検出

ダウンロード数 6,939

リリース時間 : 2/10/2023

モデル概要

このモデルは、ソース文、翻訳テキスト、および参照翻訳を含むトリプルを受け取り、0から1の間のスコアを出力して翻訳品質を評価します。主に機械翻訳システムの性能評価と品質管理に使用されます。

モデル特徴

多言語サポート

100以上の言語の翻訳品質評価をサポート

直接評価

人手のアノテーションを必要とせず、直接翻訳品質を評価

高い相関性

評価結果は人間の判断と高い相関性を持つ

モデル能力

機械翻訳品質スコアリング

多言語翻訳評価

翻訳システム性能比較

使用事例

機械翻訳開発

翻訳システム最適化

異なる機械翻訳システムの出力品質を評価するために使用

開発者が最適な翻訳モデルを選択するのに役立つ

翻訳品質管理

翻訳サービス監視

翻訳サービスの出力品質を継続的に監視

翻訳サービスが高品質レベルを維持することを保証

🚀 COMET評価モデル

このモデルはCOMETの評価モデルです。(原文、翻訳文、参照訳文)のトリプレットを入力として受け取り、原文と参照訳文の両方と比較した翻訳の品質を反映するスコアを返します。

📦 インストール

このモデルを使用するには、unbabel-cometをインストールする必要があります。

pip install --upgrade pip  # ensures that pip is current 
pip install unbabel-comet

💻 使用例

基本的な使用法

コマンドラインインターフェース（CLI）を通じて使用することができます。

comet-score -s {source-inputs}.txt -t {translation-outputs}.txt -r {references}.txt --model Unbabel/wmt22-comet-da

高度な使用法

Pythonを使って使用する例です。

from comet import download_model, load_from_checkpoint

model_path = download_model("Unbabel/wmt22-comet-da")
model = load_from_checkpoint(model_path)
data = [
    {
        "src": "Dem Feuer konnte Einhalt geboten werden",
        "mt": "The fire could be stopped",
        "ref": "They were able to control the fire."
    },
    {
        "src": "Schulen und Kindergärten wurden eröffnet.",
        "mt": "Schools and kindergartens were open",
        "ref": "Schools and kindergartens opened"
    }
]
model_output = model.predict(data, batch_size=8, gpus=1)
print (model_output)

📚 詳細ドキュメント

想定される用途

このモデルは機械翻訳の評価に使用することを想定しています。(原文、翻訳文、参照訳文)のトリプレットを入力として、0から1までの単一のスコアを出力し、1は完全な翻訳を表します。

対応言語

このモデルはXLM - Rをベースに構築されており、以下の言語をカバーしています。

アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アッサム語、アゼルバイジャン語、バスク語、ベラルーシ語、ベンガル語、ベンガル語（ローマ字表記）、ボスニア語、ブルトン語、ブルガリア語、ビルマ語、ビルマ語、カタルーニャ語、中国語（簡体字）、中国語（繁体字）、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ハウサ語、ヘブライ語、ヒンディー語、ヒンディー語（ローマ字表記）、ハンガリー語、アイスランド語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語（クルマンジー方言）、キルギス語、ラオス語、ラテン語、ラトビア語、リトアニア語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、オリヤー語、オロモ語、パシュトー語、ペルシャ語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、サンスクリット語、スコットランド・ゲール語、セルビア語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タミル語、タミル語（ローマ字表記）、テルグ語、テルグ語（ローマ字表記）、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ウルドゥー語（ローマ字表記）、ウイグル語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、コサ語、イディッシュ語。

したがって、対応していない言語を含む言語ペアの結果は信頼できない可能性があります！

📄 論文

COMET - 22: Unbabel - IST 2022 Submission for the Metrics Shared Task (Rei et al., WMT 2022)

📄 ライセンス

Apache - 2.0

📋 モデル情報

属性	详情
パイプラインタグ	翻訳
ライブラリ名	comet
対応言語	多言語、アフリカーンス語、アムハラ語、アラビア語、アッサム語、アゼルバイジャン語、ベラルーシ語、ブルガリア語、ベンガル語、ブルトン語、ボスニア語、カタルーニャ語、チェコ語、ウェールズ語、デンマーク語、ドイツ語、ギリシャ語、英語、エスペラント語、スペイン語、エストニア語、バスク語、ペルシャ語、フィンランド語、フランス語、西フリジア語、アイルランド語、スコットランド・ゲール語、ガリシア語、グジャラート語、ハウサ語、ヘブライ語、ヒンディー語、クロアチア語、ハンガリー語、アルメニア語、インドネシア語、アイスランド語、イタリア語、日本語、ジャワ語、グルジア語、カザフ語、クメール語、カンナダ語、韓国語、クルド語、キルギス語、ラテン語、ラオス語、リトアニア語、ラトビア語、マダガスカル語、マケドニア語、マラヤーラム語、モンゴル語、マラーティー語、マレー語、ビルマ語、ネパール語、オランダ語、ノルウェー語、オロモ語、オリヤー語、パンジャブ語、ポーランド語、パシュトー語、ポルトガル語、ルーマニア語、ロシア語、サンスクリット語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、アルバニア語、セルビア語、スンダ語、スウェーデン語、スワヒリ語、タミル語、テルグ語、タイ語、フィリピン語、トルコ語、ウイグル語、ウクライナ語、ウルドゥー語、ウズベク語、ベトナム語、コサ語、イディッシュ語、中国語
ベースモデル	FacebookAI/xlm - roberta - large
ライセンス	apache - 2.0