bode-7b-alpaca-pt-br開源大語言模型 - 免費部署助力葡萄牙語自然語言處理

首頁

Bode 7b Alpaca Pt Br

由recogna-nlp開發

BODE是基於Llama 2模型通過葡萄牙語Alpaca數據集微調開發的大語言模型，專為葡萄牙語自然語言處理任務設計。

大型語言模型支持多種語言開源協議:MIT #葡萄牙語大模型 #指令微調 #Llama2架構

下載量 164

發布時間 : 10/11/2023

模型概述

BODE是一個葡萄牙語大語言模型，旨在解決葡萄牙語大語言模型稀缺的問題。它基於Llama 2架構，通過Alpaca數據集進行微調，支持文本生成、問答等多種任務。

模型特點

葡萄牙語優化

專門針對葡萄牙語進行優化，減少語法錯誤和英語回答的問題

多任務支持

支持多種自然語言處理任務，包括文本生成、問答、情感分析等

多種參數規模

提供7B和13B兩種參數規模的模型版本

PEFT支持

部分版本支持參數高效微調(PEFT)技術

模型能力

文本生成

問答系統

情感分析

自然語言推理

文本相似度計算

使用案例

教育

ENEM考試答題

用於巴西國家中等教育考試(ENEM)的問答任務

準確率34.36%

巴西律師資格考試

用於巴西律師資格考試(OAB)的問答任務

準確率30.84%

自然語言處理

文本蘊含識別

在Assin2 RTE數據集上的文本蘊含識別任務

宏觀F1值79.83

語義相似度計算

在Assin2 STS數據集上的語義相似度計算任務

皮爾遜係數43.47

社交媒體分析

仇恨言論檢測

在HateBR數據集上的仇恨言論檢測任務

宏觀F1值85.06

情感分析

在巴西推特數據集上的情感分析任務

宏觀F1值43.25

🚀 BODE

BODE是一款專為葡萄牙語設計的大語言模型（LLM），它基於Llama 2模型，通過在Alpaca數據集上進行微調訓練而成，該數據集由Cabrita的作者翻譯為葡萄牙語。此模型可用於葡萄牙語的自然語言處理任務，如文本生成、自動翻譯、文本摘要等。開發BODE的目的是解決葡萄牙語大語言模型稀缺的問題。經典模型（如LLaMa）雖能響應葡萄牙語提示，但存在大量語法錯誤，有時還會生成英語回覆。目前，免費使用的葡萄牙語模型較少，據我們所知，尚無專門使用葡萄牙語數據訓練的、具有130億或更多參數的模型。

點擊論文，瞭解更多關於BODE的信息。

本頁面提供的BODE模型版本是使用Recogna高級研究實驗室的內部資源訓練的。在獲得必要的授權後，我們將盡快發佈在Santos Dumont上訓練的原始模型版本。

Bode Logo

🚀 快速開始

我們強烈建議在配備GPU的Kaggle平臺上使用本模型。你可以藉助HuggingFace的Transformers庫輕鬆使用BODE。不過，你需要獲得訪問LLaMa 2的授權。我們還在Google Colab上提供了一個Jupyter Notebook，點擊此處即可訪問。

✨ 主要特性

專為葡萄牙語設計：解決了葡萄牙語大語言模型稀缺的問題，能有效處理葡萄牙語自然語言處理任務。
基於Llama 2微調：在Alpaca數據集上進行微調，提升了模型在葡萄牙語任務上的性能。

📦 安裝指南

# 必要的下載操作
!pip install transformers
!pip install einops accelerate bitsandbytes
!pip install sentence_transformers
!pip install git+https://github.com/huggingface/peft.git

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
from peft import PeftModel, PeftConfig

llm_model = 'recogna-nlp/bode-7b-alpaca-pt-br'
hf_auth = 'HF_ACCESS_KEY'
config = PeftConfig.from_pretrained(llm_model)
model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path, trust_remote_code=True, return_dict=True, load_in_8bit=True, device_map='auto', token=hf_auth)
tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path, token=hf_auth)
model = PeftModel.from_pretrained(model, llm_model) # 若出現以下錯誤："ValueError: We need an `offload_dir`... 你應添加參數：offload_folder="./offload_dir"。
model.eval()

# 測試文本生成
def generate_prompt(instruction, input=None):
    if input:
        return f"""以下是一個描述任務的指令，以及一個提供更多上下文的輸入。請編寫一個合適的回覆來完成請求。

### 指令:
{instruction}

### 輸入:
{input}

### 回覆:"""
    else:
        return f"""以下是一個描述任務的指令。請編寫一個合適的回覆來完成請求。

### 指令:
{instruction}

### 回覆:"""
     
generation_config = GenerationConfig(
    temperature=0.2,
    top_p=0.75,
    num_beams=2,
    do_sample=True
)

def evaluate(instruction, input=None):
    prompt = generate_prompt(instruction, input)
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs["input_ids"].cuda()
    generation_output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        max_length=300
    )
    for s in generation_output.sequences:
        output = tokenizer.decode(s)
        print("回覆:", output.split("### 回覆:")[1].strip())

evaluate("詳細回答：什麼是山羊？")
# 示例回覆（可能因溫度參數而有所不同）：山羊是偶蹄目牛科山羊屬的動物。它們是原產於亞洲、非洲和歐洲的草食性哺乳動物，以其角而聞名，角可用於防禦和作為工具。

🔧 技術細節

模型詳情

屬性	詳情
模型類型	Llama 2
訓練數據	Alpaca
語言	葡萄牙語

可用版本

參數數量	PEFT	模型
70億	✓	recogna-nlp/bode-7b-alpaca-pt-br
130億	✓	recogna-nlp/bode-13b-alpaca-pt-br
70億		recogna-nlp/bode-7b-alpaca-pt-br-no-peft
130億		recogna-nlp/bode-13b-alpaca-pt-br-no-peft
70億-gguf		recogna-nlp/bode-7b-alpaca-pt-br-gguf
130億-gguf		recogna-nlp/bode-13b-alpaca-pt-br-gguf

訓練與數據

BODE模型是基於Llama 2模型，通過在葡萄牙語Alpaca數據集（一個基於指令的數據集）上進行微調訓練得到的。最初的訓練是在LNCC的超級計算機Santos Dumont上進行的，項目編號為Fundunesp 2019/00697 - 8。本頁面提供的版本是在Recogna內部環境中使用相同數據和參數訓練的副本。

評估結果

指標	值
平均值	53.21
ENEM挑戰（無圖像）	34.36
BLUEX（無圖像）	28.93
OAB考試	30.84
Assin2 RTE	79.83
Assin2 STS	43.47
FaQuAD NLI	67.45
HateBR Binary	85.06
葡萄牙語仇恨言論二分類	65.73
tweetSentBR	43.25

詳細結果可查看此處。

📄 許可證

本項目採用MIT許可證。

📖 引用

如果您在研究中使用BODE模型，可以引用這篇論文，具體引用格式如下：

@misc{bode2024,
  title={Introducing Bode: A Fine-Tuned Large Language Model for Portuguese Prompt-Based Task}, 
  author={Gabriel Lino Garcia and Pedro Henrique Paiola and Luis Henrique Morelli and Giovani Candido and Arnaldo Cândido Júnior and Danilo Samuel Jodas and Luis C. S. Afonso and Ivan Rizzo Guilherme and Bruno Elias Penteado and João Paulo Papa},
  year={2024},
  eprint={2401.02909},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}