Turkish Medical Question Answering
BERTアーキテクチャに基づいて微調整されたトルコ語の医療分野の質問応答モデルで、医療テキストから回答を抽出するために特別に設計されています。
ダウンロード数 20
リリース時間 : 1/12/2025
モデル概要
このモデルは、dbmdz/bert - base - turkish - casedをベースに微調整されたバージョンで、トルコ語の医療分野の質問応答に最適化されています。BERTアーキテクチャを採用し、過学習を防ぐためにDropout正則化を追加しています。
モデル特徴
医療分野最適化
トルコ語の医療テキストに特化して微調整されており、医学用語や文脈をよりよく理解できます。
正則化処理
隠れ層と注意力層にDropout正則化(確率0.2)を追加し、過学習を効果的に防ぎます。
高性能指標
医療質問応答タスクで76.14のF1スコアと52.79の完全一致率を達成しています。
モデル能力
トルコ語医療テキスト理解
抽出型質問応答
医療用語識別
使用事例
医療情報検索
臨床ガイドライン検索
医療文書から特定の診療プロトコルや検査提案を迅速に検索します。
「側位X線写真は後方骨折の安定性と移動程度を判断する際に必要である」などの専門情報を正確に抽出できます。
医学教育支援
医学部学生が教材や研究論文から特定の知識ポイントを見つけるのを支援します。
「大転子の遠位部を何センチメートルの範囲で表示する必要があるか」などの詳細な質問に正確に回答できます(回答「10cm」)。
🚀 トルコ語医療質問応答モデル
このモデルは、トルコ語の医療分野の質問応答に最適化された、dbmdz/bert-base-turkish-cased のファインチューニング版です。医療テキストコンテキストから回答を抽出するように特別に学習されています。
🚀 クイックスタート
このモデルは、トルコ語の医療質問応答タスクに使用できます。以下のコード例を参照して、モデルを使用してみてください。
✨ 主な機能
- トルコ語の医療質問応答
- トルコ語の医療テキストからの情報抽出
- 医療関係者や研究者が医療文書内の特定の情報を見つけるのを支援
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
# Use a pipeline as a high-level helper
from transformers import pipeline
pipe = pipeline("question-answering", model="kaixkhazaki/turkish-question-answering")
# Example
## Define the context
context = """
Kalça kırığından şüphe duyulan hastalarda öncelikle standart grafiler çekilmelidir. Bunlar ön arka pelvis grafisi ve etkilenen kalçanın ön arka ve yan grafileridir.
Özellikle deplase olmayan kırıklarda sağlam taraf ile patolojik tarafın mukayese edilmesi önemlidir. Kırık kalçanın filmi, alt ekstremite hafif traksiyonda iken nötral pozisyonda,
patella ışın düzlemine dikey halde çekilir. Trokanter majörün en az 10 cm distaline kadar görülmesi faydalı olacaktır. Ayrıca sağlam tarafın görülmesi ile osteoporoz ve hastanın
normal boyun-cisim açısının tayininde önemlidir. Lateral radyografi posteriorda kırığın stabilitesini ve deplasman miktarını belirlemek için gereklidir. Lateral grafi çekimi acil
olmamakla birlikte kırığın daha doğru değerlendirilmesi açısından önemlidir. Eğer hasta grafi masasında iken çekilemiyor ise, traksiyon masasına alındığında görülebilir.
Nadiren de olsa tanı için tomografi çekilmesi gerekli olabilir. Bunun yanında kalça kırığı şüphesi yüksek olan, ancak direk grafide kırık tanısı konulamayan hastalara MR çekilerek
tanı rahatlıkla konulabilir. Yine röntgende görünmeyen ancak kırık şüphesi yüksek olan hastalara 48-72 saat içerisinde yapılan sintigrafilerde duyarlılık % 100'dür.
"""
# Define the question
question = "Lateral radyografi hangi durumlar için gereklidir?"
pipe(question=question, context=context)
>>
{'score': 0.7423108220100403,
'start': 595,
'end': 662,
'answer': 'posteriorda kırığın stabilitesini ve deplasman miktarını belirlemek'}
#Example
## Define the context
context = """
Kalça kırığından şüphe duyulan hastalarda öncelikle standart grafiler çekilmelidir. Bunlar ön arka pelvis grafisi ve etkilenen kalçanın ön arka ve yan grafileridir.
Özellikle deplase olmayan kırıklarda sağlam taraf ile patolojik tarafın mukayese edilmesi önemlidir. Kırık kalçanın filmi, alt ekstremite hafif traksiyonda iken nötral pozisyonda,
patella ışın düzlemine dikey halde çekilir. Trokanter majörün en az 10 cm distaline kadar görülmesi faydalı olacaktır. Ayrıca sağlam tarafın görülmesi ile osteoporoz ve hastanın
normal boyun-cisim açısının tayininde önemlidir. Lateral radyografi posteriorda kırığın stabilitesini ve deplasman miktarını belirlemek için gereklidir. Lateral grafi çekimi acil
olmamakla birlikte kırığın daha doğru değerlendirilmesi açısından önemlidir. Eğer hasta grafi masasında iken çekilemiyor ise, traksiyon masasına alındığında görülebilir.
Nadiren de olsa tanı için tomografi çekilmesi gerekli olabilir. Bunun yanında kalça kırığı şüphesi yüksek olan, ancak direk grafide kırık tanısı konulamayan hastalara MR çekilerek
tanı rahatlıkla konulabilir. Yine röntgende görünmeyen ancak kırık şüphesi yüksek olan hastalara 48-72 saat içerisinde yapılan sintigrafilerde duyarlılık % 100'dür.
"""
# Define the question
question = "Trokanter majörün kaç cm distaline kadar görülmesi faydalıdır?"
pipe(question=question, context=context)
>>
{'score': 0.8581815361976624,
'start': 416,
'end': 418,
'answer': '10'}
📚 ドキュメント
想定される使用方法、バイアス、リスク、制限事項
想定される使用方法
- トルコ語の医療質問応答
- トルコ語の医療テキストからの情報抽出
- 医療関係者や研究者が医療文書内の特定の情報を見つけるのを支援
制限事項
- このモデルは、専門的な医療アドバイスの代替として使用すべきではありません。
- モデルは、医療学習データに存在するバイアスを反映する可能性があります。
- 性能は、異なる医療専門分野や用語によって異なる場合があります。
- モデルは、推論や情報の統合を必要とする複雑な医療質問には適していません。
- モデルは医療分野に特化して学習されており、一般分野の質問に対してはうまく機能しない可能性があります。
- 学習データに存在しない高度な技術的な医療用語に対する性能は異なる場合があります。
- モデルは抽出型QA(テキストに直接存在する回答を見つける)に限定されています。
学習詳細
学習ハイパーパラメータ
- ベースモデル: dbmdz/bert-base-turkish-cased
- バッチサイズ: 16
- 学習率: 1e-5
- エポック数: 10
- 重み減衰: 0.02
- ウォームアップステップ: 1000
- 学習率スケジューラ: Cosine
- 勾配クリッピング: 1.0
- 学習精度: BF16
- オプティマイザ: AdamW
モデルアーキテクチャの変更
- 隠れ層ドロップアウト確率: 0.2
- アテンション確率ドロップアウト: 0.2
学習と評価データ
モデルは、トルコ語医療質問応答データセットで学習されました。
@INPROCEEDINGS{10711128,
author={İncidelen, Mert and Aydoğan, Murat},
booktitle={2024 8th International Artificial Intelligence and Data Processing Symposium (IDAP)},
title={Developing Question-Answering Models in Low-Resource Languages: A Case Study on Turkish Medical Texts Using Transformer-Based Approaches},
year={2024},
volume={},
number={},
pages={1-4},
keywords={Training;Adaptation models;Natural languages;Focusing;Encyclopedias;Transformers;Data models;Internet;Online services;Text processing;Natural Language Processing;Medical Domain;BERTurk;Question-Answering},
doi={10.1109/IDAP64064.2024.10711128}}
学習手順
前処理
- 最大シーケンス長: 384
- ストライド: 128
- 質問とコンテキストのペアは、BertTokenizerFastを使用してトークン化されます。
評価戦略
- 評価は50ステップごとに実行されます。
- 最良のモデルは、F1スコアに基づいて保存されます。
- 指標として、Exact MatchとF1スコアが使用されます。
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは次のとおりです。
パラメータ | 値 |
---|---|
learning_rate | 1e-05 |
train_batch_size | 16 |
eval_batch_size | 64 |
seed | 42 |
optimizer | Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments |
lr_scheduler_type | cosine |
lr_scheduler_warmup_steps | 1000 |
num_epochs | 10 |
学習結果
学習損失 | エポック | ステップ | 検証損失 | 完全一致率 | F1スコア |
---|---|---|---|---|---|
5.9507 | 0.1166 | 50 | 5.9381 | 0.0 | 6.0684 |
5.8385 | 0.2331 | 100 | 5.7914 | 0.0 | 6.4166 |
5.6579 | 0.3497 | 150 | 5.5785 | 0.0 | 6.1711 |
5.3863 | 0.4662 | 200 | 5.3045 | 0.2012 | 6.2450 |
5.0968 | 0.5828 | 250 | 4.9885 | 0.5976 | 7.6302 |
4.7795 | 0.6993 | 300 | 4.6415 | 1.0941 | 8.9163 |
4.4223 | 0.8159 | 350 | 4.2947 | 1.6293 | 9.4547 |
4.1392 | 0.9324 | 400 | 3.9772 | 4.6748 | 14.3025 |
3.8572 | 1.0490 | 450 | 3.4575 | 12.5448 | 27.5850 |
3.3154 | 1.1655 | 500 | 2.5605 | 28.7234 | 51.4219 |
2.8303 | 1.2821 | 550 | 2.2085 | 35.0144 | 57.9319 |
2.5985 | 1.3986 | 600 | 2.0545 | 38.8122 | 61.8230 |
2.3931 | 1.5152 | 650 | 1.9646 | 38.8283 | 62.3091 |
2.3749 | 1.6317 | 700 | 1.8911 | 42.2311 | 64.3891 |
2.3268 | 1.7483 | 750 | 1.8363 | 42.9521 | 65.1745 |
2.1324 | 1.8648 | 800 | 1.7683 | 43.2540 | 66.5840 |
2.1652 | 1.9814 | 850 | 1.6980 | 45.5979 | 67.6440 |
1.9279 | 2.0979 | 900 | 1.6432 | 46.4935 | 68.1335 |
1.9351 | 2.2145 | 950 | 1.6031 | 46.7866 | 68.4213 |
1.8488 | 2.3310 | 1000 | 1.5765 | 48.7047 | 70.2017 |
1.8967 | 2.4476 | 1050 | 1.5462 | 47.9791 | 69.8952 |
1.7476 | 2.5641 | 1100 | 1.5040 | 49.2903 | 71.0521 |
1.7635 | 2.6807 | 1150 | 1.5197 | 49.2188 | 70.7629 |
1.7595 | 2.7972 | 1200 | 1.4790 | 49.8724 | 70.5285 |
1.7699 | 2.9138 | 1250 | 1.4283 | 52.5707 | 72.8425 |
1.7792 | 3.0303 | 1300 | 1.4246 | 50.5762 | 72.0336 |
1.5396 | 3.1469 | 1350 | 1.4117 | 52.6248 | 72.8936 |
1.5112 | 3.2634 | 1400 | 1.3938 | 53.1888 | 73.1075 |
1.5936 | 3.3800 | 1450 | 1.3805 | 53.8953 | 73.4629 |
1.4775 | 3.4965 | 1500 | 1.3522 | 53.5443 | 72.8847 |
1.3998 | 3.6131 | 1550 | 1.3730 | 52.9262 | 72.7934 |
1.4743 | 3.7296 | 1600 | 1.3593 | 53.2319 | 73.0427 |
1.572 | 3.8462 | 1650 | 1.3748 | 53.7484 | 73.1917 |
1.5321 | 3.9627 | 1700 | 1.3096 | 54.2929 | 72.9719 |
1.2849 | 4.0793 | 1750 | 1.3057 | 54.1823 | 73.5710 |
1.4073 | 4.1958 | 1800 | 1.2768 | 55.1072 | 73.9657 |
1.2894 | 4.3124 | 1850 | 1.3707 | 54.0984 | 73.5854 |
1.2771 | 4.4289 | 1900 | 1.3068 | 54.9686 | 74.2854 |
1.2683 | 4.5455 | 1950 | 1.2683 | 55.6818 | 74.6788 |
1.3432 | 4.6620 | 2000 | 1.2704 | 55.3866 | 74.1082 |
1.3052 | 4.7786 | 2050 | 1.2826 | 54.5570 | 73.9376 |
1.3458 | 4.8951 | 2100 | 1.2436 | 54.4304 | 74.1391 |
1.1832 | 5.0117 | 2150 | 1.2914 | 55.8081 | 74.5105 |
1.1964 | 5.1282 | 2200 | 1.2332 | 56.8182 | 75.6849 |
1.1179 | 5.2448 | 2250 | 1.2661 | 55.5273 | 74.5969 |
1.1602 | 5.3613 | 2300 | 1.2717 | 56.0203 | 75.5936 |
1.1314 | 5.4779 | 2350 | 1.2784 | 55.5133 | 75.2080 |
1.2153 | 5.5944 | 2400 | 1.2401 | 56.3682 | 75.6323 |
1.1613 | 5.7110 | 2450 | 1.2470 | 55.8081 | 75.5565 |
1.0839 | 5.8275 | 2500 | 1.2555 | 56.2108 | 75.3284 |
1.1208 | 5.9441 | 2550 | 1.2151 | 56.0606 | 75.3103 |
1.1018 | 6.0606 | 2600 | 1.2407 | 56.2814 | 75.4373 |
1.004 | 6.1772 | 2650 | 1.2561 | 56.1869 | 75.1453 |
1.0081 | 6.2937 | 2700 | 1.2708 | 56.3843 | 75.1235 |
1.0503 | 6.4103 | 2750 | 1.2398 | 56.4780 | 75.2607 |
1.1078 | 6.5268 | 2800 | 1.2424 | 56.1558 | 75.4293 |
1.0516 | 6.6434 | 2850 | 1.2425 | 57.0342 | 76.0343 |
1.0919 | 6.7599 | 2900 | 1.2361 | 56.5107 | 75.1984 |
1.0834 | 6.8765 | 2950 | 1.2307 | 56.6158 | 75.4564 |
1.0308 | 6.9930 | 3000 | 1.2331 | 55.9236 | 75.7649 |
0.9756 | 7.1096 | 3050 | 1.2354 | 56.9250 | 76.0355 |
0.9279 | 7.2261 | 3100 | 1.2538 | 56.4168 | 75.7899 |
0.9655 | 7.3427 | 3150 | 1.2458 | 56.4885 | 76.0547 |
0.9776 | 7.4592 | 3200 | 1.2351 | 57.0701 | 76.0798 |
0.925 | 7.5758 | 3250 | 1.2309 | 56.6158 | 75.7755 |
1.0088 | 7.6923 | 3300 | 1.2403 | 56.2897 | 75.7209 |
1.0534 | 7.8089 | 3350 | 1.2426 | 55.1592 | 75.2877 |
1.0021 | 7.9254 | 3400 | 1.2364 | 55.9645 | 75.4818 |
0.9248 | 8.0420 | 3450 | 1.2420 | 55.5838 | 75.7577 |
0.9077 | 8.1585 | 3500 | 1.2389 | 56.0051 | 75.6164 |
0.9882 | 8.2751 | 3550 | 1.2259 | 55.8228 | 75.5104 |
0.9151 | 8.3916 | 3600 | 1.2330 | 56.5272 | 76.1745 |
0.9682 | 8.5082 | 3650 | 1.2406 | 56.6372 | 75.9005 |
1.0271 | 8.6247 | 3700 | 1.2343 | 56.4557 | 75.7307 |
0.9019 | 8.7413 | 3750 | 1.2343 | 56.3291 | 75.8930 |
0.8673 | 8.8578 | 3800 | 1.2379 | 56.2183 | 75.9115 |
0.91 | 8.9744 | 3850 | 1.2421 | 56.0759 | 75.8580 |
0.8888 | 9.0909 | 3900 | 1.2399 | 56.2183 | 76.0760 |
0.874 | 9.2075 | 3950 | 1.2438 | 56.0203 | 75.8630 |
0.9676 | 9.3240 | 4000 | 1.2445 | 56.2738 | 76.0027 |
0.9712 | 9.4406 | 4050 | 1.2413 | 56.1470 | 76.0020 |
0.8792 | 9.5571 | 4100 | 1.2416 | 56.1470 | 75.9679 |
0.9358 | 9.6737 | 4150 | 1.2406 | 56.4005 | 75.9939 |
0.8496 | 9.7902 | 4200 | 1.2411 | 56.4005 | 76.0539 |
0.9618 | 9.9068 | 4250 | 1.2412 | 56.2738 | 76.0405 |
フレームワークバージョン
- Transformers 4.48.0.dev0
- Pytorch 2.4.1+cu121
- Datasets 3.1.0
- Tokenizers 0.21.0
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
@misc{turkish-medical-question-answering,
author = {Fatih Demirci},
title = {Turkish Medical Question Answering Model},
year = {2024},
publisher = {HuggingFace},
journal = {HuggingFace Model Hub}
howpublished = {\url{https://huggingface.co/kaixkhazaki/turkish-medical-question-answering}}
}
Distilbert Base Cased Distilled Squad
Apache-2.0
DistilBERTはBERTの軽量蒸留バージョンで、パラメータ数が40%減少し、速度が60%向上し、95%以上の性能を維持しています。このモデルはSQuAD v1.1データセットで微調整された質問応答専用バージョンです。
質問応答システム 英語
D
distilbert
220.76k
244
Distilbert Base Uncased Distilled Squad
Apache-2.0
DistilBERTはBERTの軽量蒸留バージョンで、パラメータ数が40%減少し、速度が60%向上し、GLUEベンチマークテストでBERTの95%以上の性能を維持します。このモデルは質問応答タスク用に微調整されています。
質問応答システム
Transformers 英語

D
distilbert
154.39k
115
Tapas Large Finetuned Wtq
Apache-2.0
TAPASはBERTアーキテクチャに基づく表質問応答モデルで、ウィキペディアの表データで自己監督方式により事前学習され、表内容に対する自然言語質問応答をサポート
質問応答システム
Transformers 英語

T
google
124.85k
141
T5 Base Question Generator
t5-baseに基づく質問生成モデルで、答えとコンテキストを入力すると、対応する質問を出力します。
質問応答システム
Transformers

T
iarfmoose
122.74k
57
Bert Base Cased Qa Evaluator
BERT-base-casedに基づく質問と回答のペアの評価モデルで、質問と回答が意味的に関連しているかどうかを判断するために使用されます。
質問応答システム
B
iarfmoose
122.54k
9
Tiny Doc Qa Vision Encoder Decoder
MIT
MITライセンスに基づく文書質問応答モデルで、主にテスト目的で使用されます。
質問応答システム
Transformers

T
fxmarty
41.08k
16
Dpr Question Encoder Single Nq Base
DPR(密集パッセージ検索)はオープンドメイン質問応答研究のためのツールとモデルです。このモデルはBERTベースの質問エンコーダーで、Natural Questions(NQ)データセットでトレーニングされています。
質問応答システム
Transformers 英語

D
facebook
32.90k
30
Mobilebert Uncased Squad V2
MIT
MobileBERTはBERT_LARGEの軽量化バージョンで、SQuAD2.0データセットで微調整された質問応答システムモデルです。
質問応答システム
Transformers 英語

M
csarron
29.11k
7
Tapas Base Finetuned Wtq
Apache-2.0
TAPASはTransformerベースの表質問応答モデルで、ウィキペディアの表データで自己教師あり学習により事前学習され、WTQなどのデータセットでファインチューニングされています。
質問応答システム
Transformers 英語

T
google
23.03k
217
Dpr Question Encoder Multiset Base
BERTベースの密集パラグラフ検索(DPR)の質問エンコーダーで、オープンドメイン質問応答研究に使用され、複数のQAデータセットで訓練されています。
質問応答システム
Transformers 英語

D
facebook
17.51k
4
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98