燃灯-T5-784M-问答-中文オープンソース问答モデル - 無料で中文生成式问答をサポート

ホーム

Randeng T5 784M QA Chinese

IDEA-CCNLによって開発

中国語生成型QAの最初の事前学習済みT5モデル、悟道180Gコーパスで事前学習され、中国語SQuADとCMRC2018データセットでファインチューニング済み

質問応答システム

Transformers

中国語#中国語生成型QA #T5アーキテクチャ最適化 #知識駆動型回答

ダウンロード数 166

リリース時間 : 10/21/2022

モデル概要

中国語生成型QAモデル、与えられた文章と問題から流暢で正確な回答を生成

モデル特徴

中国語生成型QA

中国語対応の最初の生成型QAT5モデル、単純な断片ではなく完全な文章を生成可能

大規模事前学習

180G悟道コーパスで事前学習、強力な言語理解能力を有する

ファインチューニング最適化

中国語SQuADとCMRC2018データセットでファインチューニング、優れたQA性能

モデル能力

テキスト生成

QAシステム

自然言語理解

使用事例

教育

読解補助

学生が文章内容を理解し問題の回答を生成するのを支援

76%の回答に正解を含み、RougeL82.7を達成

情報検索

ナレッジベースQA

与えられた知識テキストに基づきユーザーの質問に回答

BLEU-4スコア61.1、F1値77.9

🚀 燃灯-T5-784M-QA-中文

このモデルは中国語の質問応答に特化したT5モデルで、文章と質問を入力することで、流暢で正確な回答を生成することができます。

🚀 クイックスタート

このモデルは、huggingface上で初めて公開された中国語の生成式質問応答モデルです。T5-Large構造に基づき、悟道180Gコーパスを使用して封神フレームワークで事前学習され、翻訳された中国語のSQuADとCMRC2018の2つの読解データセットで微調整されています。

✨ 主な機能

高品質な回答生成: 76%の回答が正解を含んでおり、RougeLとBLEU-4の値が高いことから、生成結果と正解の重複度が高いことがわかります。
柔軟な回答形式: 完全な文章を生成することができるため、回答の形式が柔軟です。

📦 インストール

pip install transformers==4.21.1

💻 使用例

基本的な使用法

import numpy as np
from transformers import T5Tokenizer,MT5ForConditionalGeneration

pretrain_path = 'IDEA-CCNL/Randeng-T5-784M-QA-Chinese'
tokenizer=T5Tokenizer.from_pretrained(pretrain_path)
model=MT5ForConditionalGeneration.from_pretrained(pretrain_path)

sample={"context":"在柏林,胡格诺派教徒创建了两个新的社区:多罗西恩斯塔特和弗里德里希斯塔特。到1700年,这个城市五分之一的人口讲法语。柏林胡格诺派在他们的教堂服务中保留了将近一个世纪的法语。他们最终决定改用德语,以抗议1806-1807年拿破仑占领普鲁士。他们的许多后代都有显赫的地位。成立了几个教会,如弗雷德里夏(丹麦)、柏林、斯德哥尔摩、汉堡、法兰克福、赫尔辛基和埃姆登的教会。","question":"除了多罗西恩斯塔特,柏林还有哪个新的社区?","idx":1}
plain_text='question:'+sample['question']+'knowledge:'+sample['context'][:self.max_knowledge_length]

res_prefix=tokenizer.encode('answer',add_special_tokens=False)
res_prefix.append(tokenizer.convert_tokens_to_ids('<extra_id_0>'))
res_prefix.append(tokenizer.eos_token_id)
l_rp=len(res_prefix)

tokenized=tokenizer.encode(plain_text,add_special_tokens=False,truncation=True,max_length=1024-2-l_rp)
tokenized+=res_prefix
batch=[tokenized]*2
input_ids=torch.tensor(np.array(batch),dtype=torch.long)

# Generate answer
max_target_length=128
pred_ids = model.generate(input_ids=input_ids,max_new_tokens=max_target_length,do_sample=True,top_p=0.9)
pred_tokens=tokenizer.batch_decode(pred_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
res=pred_tokens.replace('<extra_id_0>','').replace('有答案:','')

📚 ドキュメント

モデルカテゴリ

属性	详情
モデルタイプ	通用 - 自然言語変換 - 燃灯 - T5
パラメータ	784M
追加情報	中国語生成式質問応答

モデル性能

CMRC 2018の開発セットでの性能（元のタスクは開始と終了の予測問題ですが、ここでは生成応答の問題として扱っています）

モデル	回答包含率	RougeL	BLEU-4	F1	EM
当モデル	76.0	82.7	61.1	77.9	57.1
MacBERT-Large(SOTA)	-	-	-	88.9	70.0

当モデルは生成品質と精度が非常に高く、生成された回答の76%が正解を含んでいます。RougeLとBLEU-4の値が高いことから、生成結果と正解の重複度が高いことがわかります。当モデルのEM値が低いのは、生成されるのが大部分が完全な文章であるのに対し、正解は通常文章の断片であるためです。

P.S. SOTAモデルは抽出型のMRCタスクとして開始と終了タグのみを予測します。

サンプル

以下はランダムに選ばれたサンプルです。

pred: 画像内の生成結果、target: 正解を示します。

画像が表示されない場合は、「ファイルとバージョン」で画像を見つけることができます。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で公開されています。

📖 引用

もしあなたの研究や開発でこのモデルを使用した場合は、以下の論文を引用してください。

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

また、以下のウェブサイトも引用することができます。

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}