ランデン - デルタルム - 362M - 英中オープンソース翻訳モデル - 無料で高精度な英語から中国語への翻訳を実現

ホーム

Randeng Deltalm 362M En Zh

IDEA-CCNLによって開発

封神フレームワークに基づきDetalm基礎モデルを微調整し、中英データセット及びiwslt中英並列コーパスを統合して訓練された英語から中国語への翻訳モデル。

機械翻訳

Transformers

複数言語対応#英中翻訳 #多言語対応 #高精度翻訳

ダウンロード数 259

リリース時間 : 12/21/2022

モデル概要

このモデルは英語から中国語への翻訳タスクに特化しており、大規模な中英データセットで訓練され、高品質なテキスト翻訳を実現できます。

モデル特徴

大規模訓練データ

3千万件の中英データセット及び20万件のiwslt中英並列コーパスを統合して訓練

高品質翻訳

florse101英訳中テストセットで40.22のBLEUスコアを達成

DeltaLMアーキテクチャ採用

強化された事前学習多言語エンコーダのエンコーダ-デコーダ構造を採用

モデル能力

英語から中国語へのテキスト翻訳

自然言語変換

使用事例

テキスト翻訳

旅行コンテンツ翻訳

英語の旅行ガイド、観光スポット紹介などを中国語に翻訳

原文情報を正確に伝達し、言語の流暢性を保持

技術文書翻訳

英語の技術文書、API説明などを中国語に翻訳

専門用語の翻訳が正確で、技術内容が明確に表現

🚀 燃灯-Deltalm-362M-英-中

封神フレームワークを使用して、英語から中国語への翻訳モデルを構築しました。

🚀 クイックスタート

メインページ: Fengshenbang
Github: Fengshenbang-LM

✨ 主な機能

封神フレームワークを用いてDetalm baseをファインチューニングし、収集した中英データセット（計3000万件）とiwsltの中英平行データ（20万件）を利用して、英語から中国語への翻訳モデルを得ました。

Using the Fengshen-LM framework and finetuning based on detalm, get a translation model in the English -> Chinese direction

📚 ドキュメント

モデル分類

要件	タスク	シリーズ	モデル	パラメータ	追加情報
汎用	自然言語変換	燃灯	Deltalm	362M	英語 - 中国語翻訳タスク

モデル情報

参考論文：DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders

下流性能

データセット	bleu
florse101-en-zh	40.22

💻 使用例

基本的な使用法

# Need to download modeling_deltalm.py from Fengshenbang-LM github repo in advance,
# or you can download modeling_deltalm.py use wget https://huggingface.co/IDEA-CCNL/Randeng-Deltalm-362M-En-Zn/resolve/main/modeling_deltalm.py
# Strongly recommend you git clone the Fengshenbang-LM repo:
# 1. git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 2. cd Fengshenbang-LM/fengshen/

from models.deltalm.modeling_deltalm import DeltalmForConditionalGeneration
from transformers import AutoTokenizer

model = DeltalmForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Deltalm-362M-En-Zn")
tokenizer = AutoTokenizer.from_pretrained("microsoft/infoxlm-base")

text = "In summer, especially, you'll need to watch out for mosquitoes if you decide to hike through the rainforest."
inputs = tokenizer(text, max_length=512, return_tensors="pt")

generate_ids = model.generate(inputs["input_ids"], max_length=512)
tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

# model Output:
# 如果你决定徒步穿越热带雨林,你需要小心蚊子,尤其是在夏天。

📄 ライセンス

引用

もしあなたの研究や開発でこのモデルを使用した場合、以下の論文を引用してください：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

また、以下のウェブサイトも引用することができます：

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}