wenyanwen-ancient-translate-to-modernオープンソースの文言文翻訳モデル - 句読済みと未句読の翻訳を無料でサポート

ホーム

Wenyanwen Ancient Translate To Modern

raynardjによって開発

このモデルは文言文（古文）を現代中国語に翻訳するために使用され、句読点のあるまたはないテキスト入力をサポートします。

機械翻訳

Transformers

中国語#文言文翻訳 #古籍読書補助 #未句読処理

ダウンロード数 186

リリース時間 : 3/2/2022

モデル概要

古代の文言文を現代中国語に翻訳するために特別に設計されたモデルで、古文の読解と学習に適しています。

モデル特徴

未句読入力をサポート

モデルは句読点の有無にかかわらず文言文を処理でき、利便性を向上させます。

大規模な訓練データ

訓練コーパスには90万以上の文対が含まれ、広範な文言文表現をカバーしています。

統合アプリケーションサポート

【随无涯】という名前のアプリケーションとして開発され、HuggingFace Spacesで利用可能です。

モデル能力

文言文から現代中国語への翻訳

未句読テキストの処理

流暢な現代中国語表現の生成

使用事例

教育学習

古文読書補助

学習者が文言文の古典作品を理解するのを支援

正確な現代中国語翻訳を提供

古籍デジタル化

古代文献を現代中国語に変換

現代の読者による読解と研究を容易にする

🚀 古典中国語から現代中国語への翻訳モデル

このモデルは、古典中国語（古文）を現代中国語に翻訳することができます。このモデルに興味を持つ方は、少なくとも現代中国語を話せると思われます。以下、ドキュメントを日本語で続けます。

🚀 クイックスタート

このモデルは、古典中国語（古文）を現代中国語に翻訳する翻訳器です。既にアプリケーションとして実装されており、【随无涯】はhuggingface spaces + streamlitを用いた古文閲読アプリ（海量の書籍を含む）で、閲読中に翻訳することができます。

入力として文言文を与えると、句読点の有無に関わらず、現代中国語の表現を予測します。他にも関連するモデルがあり、現代中国語から文言文への翻訳モデルもあります。

この文言文から現代中国語への翻訳器については、私のGitHub文言詩詞プロジェクトページで議論したり、⭐️を付けたりすることができます。

訓練データは90万以上の句対で、データセットのリンク📚から入手できます。訓練時には、source系列（古文系列）に対して50%の確率で句読点をすべて削除します。

✨ 主な機能

古典中国語（古文）を現代中国語に翻訳する。
句読点の有無に関わらず、入力された文言文を翻訳する。
関連する他の翻訳モデルも提供する。

📦 インストール

このモデルを使用するには、以下のコードを実行して必要なライブラリをインストールします。

from transformers import (
  EncoderDecoderModel,
  AutoTokenizer
)
PRETRAINED = "raynardj/wenyanwen-ancient-translate-to-modern"
tokenizer = AutoTokenizer.from_pretrained(PRETRAINED)
model = EncoderDecoderModel.from_pretrained(PRETRAINED)

💻 使用例

基本的な使用法

from transformers import (
  EncoderDecoderModel,
  AutoTokenizer
)
PRETRAINED = "raynardj/wenyanwen-ancient-translate-to-modern"
tokenizer = AutoTokenizer.from_pretrained(PRETRAINED)
model = EncoderDecoderModel.from_pretrained(PRETRAINED)
def inference(text):
    tk_kwargs = dict(
      truncation=True,
      max_length=128,
      padding="max_length",
      return_tensors='pt')
   
    inputs = tokenizer([text,],**tk_kwargs)
    with torch.no_grad():
        return tokenizer.batch_decode(
            model.generate(
            inputs.input_ids,
            attention_mask=inputs.attention_mask,
            num_beams=3,
            max_length=256,
            bos_token_id=101,
            eos_token_id=tokenizer.sep_token_id,
            pad_token_id=tokenizer.pad_token_id,
        ), skip_special_tokens=True)

高度な使用法

# 以下は具体的な文言を用いた翻訳例です。
print(inference('非我族类其心必异'))
print(inference('肉食者鄙未能远谋'))
print(inference('江山如此多娇引无数英雄竞折腰惜秦皇汉武略输文采唐宗宋祖稍逊风骚'))
print(inference("清风徐来水波不兴"))
print(inference("无他唯手熟尔"))
print(inference("此诚危急存亡之秋也"))

📚 ドキュメント

推奨の推論パラメータ

generate関数のeos_token_idを102に設定することで、完全な文を翻訳することができます。そうしないと、翻訳後に残りの文が残る場合があります（エントロピー計算時にpadラベル=-100を使用しているため）。現在、huggingfaceページのcomputeボタンではこの問題があり、上記のコードを使用することを推奨します。
generateのnum_beamsパラメータを3以上に設定することで、より良い翻訳結果を得ることができます。
generateのmax_lengthパラメータを256に設定することで、結果が文を切り捨てることを防ぐことができます。