chinese_pretrain_mrc_macbert_largeオープンソースモデル - テキストの読解と分類を大幅に向上させる

Chinese Pretrain Mrc Macbert Large

luhuaによって開発

大規模な中国語機械読解データで訓練されたMacBERT-Largeモデルで、読解/テキスト分類などのタスクで顕著な向上を実現

ダウンロード数 106

リリース時間 : 3/2/2022

モデル概要

MacBERT-Largeは中国語機械読解タスク向けに最適化された事前学習モデルで、哈爾濱工業大学オリジナルMacBERT-largeモデルをベースに再訓練され、多数のコンペティションで優れた成績を収めています。

コンペティション級性能

Dureader-2021などの大会で複数の参加者をトップ5入りに導いた

最適化版モデル

オリジナルの事前学習モデルと比較し、複数のデータセットで性能が顕著に向上

マルチタスク対応

機械読解やテキスト分類など様々な自然言語処理タスクに適用可能

中国語テキスト理解

QAシステム構築

テキスト分類

機械読解

コンペティション応用

Dureader-2021コンペ

中国語機械読解コンペティションに使用

複数の参加者をトップ5入りに導いた

達観杯-2021

テキスト処理コンペティションに使用

検証セットF1スコア70.45を達成

医療QA

テンセント医療QA

医療分野のQAシステムに使用

テストセット正解率83.4%を達成

モデル/データセット	Dureader-2021	tencentmedical
	F1スコア	正解率
	dev / A榜	test-1
macbert-large (哈工大事前学習言語モデル)	65.49 / 64.27	82.5
roberta-wwm-ext-large (哈工大事前学習言語モデル)	65.49 / 64.27	82.5
macbert-large (当社のもの)	70.45 / 68.13	83.4
roberta-wwm-ext-large (当社のもの)	68.91 / 66.91	83.1