bert-base-uncased-squadv1-x1.84オープンソースQ&Aモデル - 最適化と枝刈りによる高精度の質問回答

ホーム

Bert Base Uncased Squadv1 X1.84 F88.7 D36 Hybrid Filled V1

madlagによって開発

これはnn_pruningライブラリを使って剪定最適化された问答モデルで、元の重みの50%を保持し、SQuAD v1で微調整され、F1値は88.72に達します。

質問応答システム

Transformers

英語オープンソースライセンス:MIT #问答システムの最適化 #剪定による高速化 #高F1値

ダウンロード数 30

リリース時間 : 3/2/2022

モデル概要

このモデルはBERTアーキテクチャに基づいており、问答タスクに最適化されています。構造化剪定により推論速度が1.84倍に向上し、同時に高い精度を維持します。

モデル特徴

効率的な剪定技術

nn_pruningライブラリを通じて構造化剪定を実現し、線形層の重みの36%を保持し、全体でモデルパラメータの50%を保持します。

推論の高速化

最適化された行列構造のおかげで、推論速度が密集モデルの1.84倍に達します。

アテンションヘッドの最適化

アテンションヘッドの33.3%（144個中48個）を削除し、計算効率を向上させます。

性能向上

F1値が元のモデルより0.22向上（88.72対88.5）、EM値が0.89向上（81.69対80.8）します。

モデル能力

テキスト理解

質問回答

コンテキスト抽出

使用事例

教育

読解支援

学生がテキストから質問の答えを迅速に取得するのを支援します。

SQuADテストセットでF1が88.72に達します。

知識管理

ドキュメント问答システム

技術文書から自動的に質問の答えを抽出します。

🚀 BERT-base uncased model fine-tuned on SQuAD v1

このモデルは、質問応答タスクに特化したモデルです。SQuAD v1データセットでファインチューニングされ、元のBERT-base uncasedモデルを最適化して高速化と精度向上を実現しています。

🚀 クイックスタート

このモデルを使用するには、まずnn_pruningをインストールします。その後、transformersライブラリを使って通常通りパイプラインを構築し、optimize_modelを呼び出すことで最適化されたモデルを使用できます。

✨ 主な機能

高速化: 線形層の最適化により、評価時には元のモデルの1.84倍の速度で実行されます。
精度向上: F1スコアが88.72と、元のモデルよりも0.22向上しています。
パラメータ削減: 全体で元の重みの50.0%を保持しており、モデルサイズが削減されています。

📦 インストール

nn_pruningをインストールするには、以下のコマンドを実行します。

pip install nn_pruning

💻 使用例

基本的な使用法

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-base-uncased-squadv1-x1.84-f88.7-d36-hybrid-filled-v1",
    tokenizer="madlag/bert-base-uncased-squadv1-x1.84-f88.7-d36-hybrid-filled-v1"
)

print("/home/lagunas/devel/hf/nn_pruning/nn_pruning/analysis/tmp_finetune parameters: 218.0M")
print(f"Parameters count (includes only head pruning, not feed forward pruning)={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"Parameters count after complete optimization={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("Predictions", predictions)

📚 ドキュメント

モデルの詳細

このモデルは、nn_pruning Pythonライブラリを使用して作成されました。線形層は元の重みの36.0%を保持しており、全体で元の重みの50.0%を保持しています。評価時には、密なモデルの1.84倍の速度で実行され、F1スコアは88.72です。

ファインチューニングの詳細

このモデルは、HuggingFaceのモデルチェックポイントをSQuAD1.1でファインチューニングし、csarron/bert-base-uncased-squad-v1モデルから知識蒸留を行っています。

SQuAD1.1データセットの詳細

データセット	分割	サンプル数
SQuAD1.1	学習	90.6K
SQuAD1.1	評価	11.1k

ファインチューニングの環境

Python: 3.8.5
マシンスペック:

CPU: Intel(R) Core(TM) i7-6700K CPU
Memory: 64 GiB
GPUs: 1 GeForce GTX 3090, with 24GiB memory
GPU driver: 455.23.05, CUDA: 11.1

結果

Pytorchモデルファイルサイズ: 379MB (元のBERT: 420MB)

メトリック	値	元の値 (Table 2)	変化
EM	81.69	80.8	+0.89
F1	88.72	88.5	+0.22

🔧 技術詳細

このモデルの最適化には、構造化行列を生成する剪定手法が用いられています。これにより、線形行列のサイズを調整するだけで高速化が実現できます。また、ブロック剪定により一部のアテンションヘッドが削除されています。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご