開源Cappy-large評分器 - 提升大語言模型性能，精準評估響應正確性

Cappy Large

由btan2開發

Cappy是一款預訓練的小型評分器，旨在提升多任務大語言模型（LLM）的性能與效率。該模型接收指令和候選響應作為輸入，輸出0到1之間的評分，表示響應相對於指令的預估正確程度。

大型語言模型開源協議:Apache-2.0 #多任務評分器 #LLM輔助優化 #小參數高效

下載量 72

發布時間 : 11/9/2023

模型概述

Cappy是一款預訓練的小型評分器，旨在提升多任務大語言模型（LLM）的性能與效率。該模型接收指令和候選響應作為輸入，輸出0到1之間的評分，表示響應相對於指令的預估正確程度。僅需3.6億參數，Cappy既可獨立處理分類任務，也可作為LLM的輔助組件提升其表現。

模型特點

高效評分

僅需3.6億參數，即可高效評估指令與響應的匹配程度，輸出0到1之間的評分。

多任務支持

可獨立處理分類任務，也可作為LLM的輔助組件提升其表現。

無需微調

能高效整合下游監督信號，無需對LLM進行微調或訪問其參數。

靈活適配

可靈活配合其他LLM適配技術（如微調、上下文學習及提示調優），實現額外性能增益。

模型能力

指令響應評分

多任務語言理解

分類任務處理

LLM性能提升

使用案例

新聞分類

新聞標籤選擇

為新聞內容選擇最合適的標籤

在PromptSource的11項語言理解任務中表現優異

複雜任務處理

BIG-Bench任務

處理BIG-Bench的45項複雜任務

持續大幅提升先進多任務模型FLAN-T5的表現

🚀 Cappy-Large

Cappy是一個預訓練的小型評分器，旨在提升多任務大語言模型（LLM）的性能和效率。它能根據指令對候選回覆進行評分，以此評估回覆的正確性。僅3.6億參數的Cappy，既可以獨立完成分類任務，也能作為輔助組件提升LLM的性能。此外，它還能在不微調LLM或訪問其參數的情況下，高效整合下游監督信號。同時，Cappy還能與其他LLM適配方法（如微調、上下文學習和提示調優等）靈活協作，進一步提升性能。

🚀 快速開始

代碼倉庫：https://github.com/tanyuqian/cappy
論文鏈接：arxiv.org/abs/2311.06720

Cappy是一個預訓練的小型評分器，旨在提升多任務大語言模型（LLM）的性能和效率。它接收指令和候選回覆作為輸入，輸出一個0到1之間的分數，用於表示回覆相對於指令的預估正確性。僅3.6億參數的Cappy，既可以獨立用於分類任務，也可以作為大語言模型（LLM）的輔助組件，提升其性能。此外，Cappy能夠在無需微調LLM或訪問其參數的情況下，高效整合下游監督信號。而且，Cappy可以靈活地與其他LLM適配方法（包括微調、上下文學習和提示調優等）協作，進一步提升性能。

💻 使用示例

基礎用法

Cappy可以加載為Jax/Flax模型或PyTorch模型。

Jax/Flax

from transformers import AutoTokenizer, FlaxAutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained('btan2/cappy-large')
cappy = FlaxAutoModelForSequenceClassification.from_pretrained('btan2/cappy-large')

instruction = """
What label best describes this news article?
Carlyle Looks Toward Commercial Aerospace (Reuters) Reuters - Private investment firm Carlyle Group,\which has a reputation for making well-timed and occasionally\controversial plays in the defense industry, has quietly placed\its bets on another part of the market.
"""
response = 'Business'

inputs = tokenizer([(instruction, response), ], return_tensors='pt')
score = cappy(**inputs).logits[0][0].item()

PyTorch

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained('btan2/cappy-large')
cappy = AutoModelForSequenceClassification.from_pretrained('btan2/cappy-large')

instruction = """
What label best describes this news article?
Carlyle Looks Toward Commercial Aerospace (Reuters) Reuters - Private investment firm Carlyle Group,\which has a reputation for making well-timed and occasionally\controversial plays in the defense industry, has quietly placed\its bets on another part of the market.
"""
response = 'Business'

inputs = tokenizer([(instruction, response), ], return_tensors='pt')
score = cappy(**inputs).logits[0][0].item()

📚 詳細文檔

評估

我們通過一系列與預訓練任務不同的保留任務對Cappy進行了驗證。整體性能如圖1和圖2所示。具體而言，在從PromptSource選取的11個語言理解任務中，僅有3.6億參數的Cappy顯著優於OPT - IML - 30B和OPT - 175B，並達到了此前多任務大語言模型中的最佳水平。此外，在來自BIG - Bench的45個不同複雜任務中，Cappy大幅提升了先進多任務大語言模型FLAN - T5的性能。而且，當與微調或上下文學習結合使用時，Cappy還能進一步提升性能。後續的消融實驗證明了我們提出的預訓練和數據增強策略的重要性。

評估結果

軟件依賴

Cappy的預訓練使用了Red Coast（一個用於自動化分佈式訓練的輕量級工具包）中此示例的代碼。

引用信息

@inproceedings{
tan2023cappy,
title={Cappy: Outperforming and Boosting Large Multi-Task {LM}s with a Small Scorer},
author={Bowen Tan and Yun Zhu and Lijuan Liu and Eric Xing and Zhiting Hu and Jindong Chen},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
url={https://openreview.net/forum?id=Srt1hhQgqa}
}

Cappy