🚀 韓国語のGrammarly実現に向けて
これは、韓国語の文法誤りを修正するためにfacebook/nllb - 200 - 3.3Bをファインチューニングしたバージョンです。使用したデータセットと前処理方法については、近日更新予定です。
🚀 クイックスタート
このモデルは韓国語の文法誤りを修正するために特化しています。具体的な使用方法については、使用したデータセットと前処理方法の更新に合わせて公開されます。
📚 ドキュメント
元の説明
NLLB - 200
これはNLLB - 200の3.3Bバリアントのモデルカードです。この特定のチェックポイントのメトリクスはこちらです。
- トレーニングアルゴリズム、パラメータ、公平性制約、その他の適用アプローチ、および機能に関する情報。NLLB - 200のトレーニングに使用された正確なトレーニングアルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理する戦略は、論文で説明されています。
- 詳細情報のための論文またはその他のリソース:NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
- ライセンス:CC - BY - NC
- モデルに関する質問やコメントを送る場所:https://github.com/facebookresearch/fairseq/issues
想定される使用方法
- 主な想定使用用途:NLLB - 200は機械翻訳モデルで、主に機械翻訳の研究、特に低リソース言語の研究を目的としています。これにより、200言語間の単文翻訳が可能です。モデルの使用方法に関する情報は、Fairseqのコードリポジトリにトレーニングコードや評価およびトレーニングデータの参照とともに記載されています。
- 主な想定ユーザー:主なユーザーは研究者と機械翻訳研究コミュニティです。
- 想定外の使用ケース:NLLB - 200は研究用モデルであり、本番環境でのデプロイ用にはリリースされていません。NLLB - 200は一般ドメインのテキストデータでトレーニングされており、医療ドメインや法務ドメインなどの特定ドメインのテキストでの使用を想定していません。また、文書翻訳には使用されることを想定していません。モデルは入力長が512トークンを超えないようにトレーニングされているため、より長いシーケンスの翻訳では品質が低下する可能性があります。NLLB - 200の翻訳は公認翻訳として使用することはできません。
メトリクス
• モデルの性能測定:NLLB - 200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、およびchrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルによる人間評価を行い、生成された翻訳の毒性を測定しました。
評価データ
- データセット:Flores - 200データセットはセクション4で説明されています。
- 動機:Flores - 200はNLLB - 200の言語の完全な評価カバレッジを提供するため、使用しました。
- 前処理:文分割された生テキストデータは、SentencePieceを使用して前処理されました。SentencePieceモデルはNLLB - 200とともにリリースされています。
トレーニングデータ
• モデルのトレーニングには、様々なソースからの並列多言語データを使用しました。データ選択と構築プロセスに関する詳細なレポートは、論文のセクション5に記載されています。また、Common Crawlから構築された単言語データも使用しました。詳細はセクション5.2に記載されています。
倫理的配慮
• この研究では、技術開発において反射的なアプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えるようにしました。記事全体で倫理的配慮について考察していますが、ここで強調する追加のポイントをいくつか挙げます。まず、この研究で選択された多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳はこれらのコミュニティの教育や情報アクセスを改善する可能性がありますが、そのようなアクセスはまた、デジタル素養が低いグループを誤情報やオンライン詐欺の被害にさらしやすくする可能性もあります。後者のシナリオは、悪意のある行為者が私たちの研究成果を悪用した場合に起こり得ます。データ収集に関しては、モデル開発に使用されたトレーニングデータはウェブ上の様々な公開ソースから収集されました。データクリーニングに多くの労力を費やしましたが、個人を特定できる情報が完全に排除されていない可能性があります。最後に、翻訳品質を最適化するために最善を尽くしましたが、モデルが生成する誤訳は残る可能性があります。確率は低いですが、これはこれらの翻訳に依存して重要な決定を下す人々(特に健康や安全に関連する場合)に悪影響を及ぼす可能性があります。
注意事項と推奨事項
• 私たちのモデルはWikimediaドメインでテストされており、NLLB - MDでサポートされている他のドメインについては限られた調査しか行っていません。また、サポートされている言語には、モデルが捉えられていないバリエーションがある可能性があります。ユーザーは適切な評価を行う必要があります。
炭素排出量の詳細
• 二酸化炭素(CO2e)の推定値はセクション8.8に報告されています。
📄 ライセンス
このモデルはCC - BY - NC - 4.0ライセンスの下で提供されています。
言語情報
項目 |
詳細 |
サポート言語 |
ace、acm、acq、aeb、af、ajp、ak、als、am、apc、ar、ars、ary、arz、as、ast、awa、ayr、azb、azj、ba、bm、ban、be、bem、bn、bho、bjn、bo、bs、bug、bg、ca、ceb、cs、cjk、ckb、crh、cy、da、de、dik、dyu、dz、el、en、eo、et、eu、ee、fo、fj、fi、fon、fr、fur、fuv、gaz、gd、ga、gl、gn、gu、ht、ha、he、hi、hne、hr、hu、hy、ig、ilo、id、is、it、jv、ja、kab、kac、kam、kn、ks、ka、kk、kbp、kea、khk、km、ki、rw、ky、kmb、kmr、knc、kg、ko、lo、lij、li、ln、lt、lmo、ltg、lb、lua、lg、luo、lus、lvs、mag、mai、ml、mar、min、mk、mt、mni、mos、mi、my、nl、nn、nb、npi、nso、nus、ny、oc、ory、pag、pa、pap、pbt、pes、plt、pl、pt、prs、quy、ro、rn、ru、sg、sa、sat、scn、shn、si、sk、sl、sm、sn、sd、so、st、es、sc、sr、ss、su、sv、swh、szl、ta、taq、tt、te、tg、tl、th、ti、tpi、tn、ts、tk、tum、tr、tw、tzm、ug、uk、umb、ur、uzn、vec、vi、war、wo、xh、ydd、yo、yue、zh、zsm、zu |
言語詳細 |
ace_Arab、ace_Latn、acm_Arab、acq_Arab、aeb_Arab、afr_Latn、ajp_Arab、aka_Latn、amh_Ethi、apc_Arab、arb_Arab、ars_Arab、ary_Arab、arz_Arab、asm_Beng、ast_Latn、awa_Deva、ayr_Latn、azb_Arab、azj_Latn、bak_Cyrl、bam_Latn、ban_Latn、bel_Cyrl、bem_Latn、ben_Beng、bho_Deva、bjn_Arab、bjn_Latn、bod_Tibt、bos_Latn、bug_Latn、bul_Cyrl、cat_Latn、ceb_Latn、ces_Latn、cjk_Latn、ckb_Arab、crh_Latn、cym_Latn、dan_Latn、deu_Latn、dik_Latn、dyu_Latn、dzo_Tibt、ell_Grek、eng_Latn、epo_Latn、est_Latn、eus_Latn、ewe_Latn、fao_Latn、pes_Arab、fij_Latn、fin_Latn、fon_Latn、fra_Latn、fur_Latn、fuv_Latn、gla_Latn、gle_Latn、glg_Latn、grn_Latn、guj_Gujr、hat_Latn、hau_Latn、heb_Hebr、hin_Deva、hne_Deva、hrv_Latn、hun_Latn、hye_Armn、ibo_Latn、ilo_Latn、ind_Latn、isl_Latn、ita_Latn、jav_Latn、jpn_Jpan、kab_Latn、kac_Latn、kam_Latn、kan_Knda、kas_Arab、kas_Deva、kat_Geor、knc_Arab、knc_Latn、kaz_Cyrl、kbp_Latn、kea_Latn、khm_Khmr、kik_Latn、kin_Latn、kir_Cyrl、kmb_Latn、kon_Latn、kor_Hang、kmr_Latn、lao_Laoo、lvs_Latn、lij_Latn、lim_Latn、lin_Latn、lit_Latn、lmo_Latn、ltg_Latn、ltz_Latn、lua_Latn、lug_Latn、luo_Latn、lus_Latn、mag_Deva、mai_Deva、mal_Mlym、mar_Deva、min_Latn、mkd_Cyrl、plt_Latn、mlt_Latn、mni_Beng、khk_Cyrl、mos_Latn、mri_Latn、zsm_Latn、mya_Mymr、nld_Latn、nno_Latn、nob_Latn、npi_Deva、nso_Latn、nus_Latn、nya_Latn、oci_Latn、gaz_Latn、ory_Orya、pag_Latn、pan_Guru、pap_Latn、pol_Latn、por_Latn、prs_Arab、pbt_Arab、quy_Latn、ron_Latn、run_Latn、rus_Cyrl、sag_Latn、san_Deva、sat_Beng、scn_Latn、shn_Mymr、sin_Sinh、slk_Latn、slv_Latn、smo_Latn、sna_Latn、snd_Arab、som_Latn、sot_Latn、spa_Latn、als_Latn、srd_Latn、srp_Cyrl、ssw_Latn、sun_Latn、swe_Latn、swh_Latn、szl_Latn、tam_Taml、tat_Cyrl、tel_Telu、tgk_Cyrl、tgl_Latn、tha_Thai、tir_Ethi、taq_Latn、taq_Tfng、tpi_Latn、tsn_Latn、tso_Latn、tuk_Latn、tum_Latn、tur_Latn、twi_Latn、tzm_Tfng、uig_Arab、ukr_Cyrl、umb_Latn、urd_Arab、uzn_Latn、vec_Latn、vie_Latn、war_Latn、wol_Latn、xho_Latn、ydd_Hebr、yor_Latn、yue_Hant、zho_Hans、zho_Hant、zul_Latn |
タグ |
nllb、translation |
データセット |
flores - 200 |
メトリクス |
bleu、spbleu、chrf++ |
推論 |
false |