bert_chinese_mc_baseオープンソースモデル - 中国語の医学テキスト理解能力の評価に貢献

ホーム

Bert Chinese Mc Base

junnyuによって開発

ChineseBLUEは中国語医療自然言語理解のベンチマークテストセットで、中国語医療テキストにおけるモデルのパフォーマンスを評価することを目的としています。

大規模言語モデル #中国医療NLP #マルチタスク学習 #臨床テキスト理解

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

ChineseBLUEは中国語医療分野に特化した自然言語理解ベンチマークテストセットで、固有表現認識、関係抽出などの複数のタスクを含み、医療テキストにおけるモデルの性能を評価します。

モデル特徴

中国語医療分野

中国語医療テキストの自然言語理解タスクに焦点を当て、中国語医療分野のベンチマークテストの空白を埋めます。

マルチタスク評価

固有表現認識、関係抽出などの複数の自然言語理解タスクを含み、モデルの性能を包括的に評価します。

高品質なアノテーション

データセットは専門の医療関係者によってアノテーションされ、データの正確性と信頼性が保証されています。

モデル能力

医療テキスト分類

医療固有表現認識

医療関係抽出

医療テキスト理解

使用事例

医学研究

医学文献分析

モデルを利用して医学文献の固有表現認識と関係抽出を行い、医学研究を支援します。

臨床支援

電子カルテ分析

電子カルテ内の疾患、症状、薬剤などの重要な情報を分析し、臨床判断を支援します。

以下是对该项目README文档进行日文美化后的内容：

🚀 中文BLUE

ChineseBLUEは、中国語の言語理解タスクのための包括的なベンチマークです。これは、中国語の自然言語処理モデルの評価と比較に役立ちます。

🚀 クイックスタート

ChineseBLUEは、中国語の自然言語処理におけるモデルの性能を評価するためのベンチマークです。このベンチマークは、様々なタスクを含み、中国語の言語理解能力を総合的に測定します。

データセットの取得

# データセットをダウンロードする
git clone https://github.com/alibaba-research/ChineseBLUE.git
cd ChineseBLUE

環境のセットアップ

# 必要なライブラリをインストールする
pip install -r requirements.txt

✨ 主な機能

多様なタスク：中国語の自然言語処理における様々なタスクをカバーしています。
標準化された評価：モデルの性能を公平に比較するための標準的な評価指標を提供します。
データセットの提供：各タスクに必要なデータセットを提供します。

📦 インストール

データセットのダウンロード

git clone https://github.com/alibaba-research/ChineseBLUE.git
cd ChineseBLUE

依存関係のインストール

pip install -r requirements.txt

💻 使用例

基本的な使用法

# データセットの読み込み
from datasets import load_dataset
dataset = load_dataset('chinese_blue', 'task_name')

# モデルの読み込み
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained('model_name')
tokenizer = AutoTokenizer.from_pretrained('model_name')

# データの前処理
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True)

tokenized_dataset = dataset.map(preprocess_function, batched=True)

# モデルの評価
from transformers import TrainingArguments, Trainer
training_args = TrainingArguments(output_dir='./results', evaluation_strategy='epoch')
trainer = Trainer(
    model=model,
    args=training_args,
    eval_dataset=tokenized_dataset["validation"]
)
results = trainer.evaluate()
print(results)

高度な使用法

# ハイパーパラメータの調整
from transformers import TrainingArguments, Trainer
training_args = TrainingArguments(
    output_dir='./results',
    evaluation_strategy='epoch',
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=64,
    num_train_epochs=3,
    weight_decay=0.01
)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"]
)
trainer.train()