開源Gemma-7b-aps-it模型 - 免費實現文本段落分解為事實、陳述和觀點

首頁

Gemma 7b Aps It

由google開發

Gemma-APS是用於抽象命題分割（APS）的生成模型，能夠將文本段落分解為獨立的事實、陳述和觀點。

大型語言模型

Transformers

#抽象命題分割 #主張提取 #事實核查輔助

下載量 161

發布時間 : 9/6/2024

模型概述

該模型主要用於將文本內容分解為有意義的組件，適用於基礎驗證、信息檢索、事實核查等研究場景。

模型特點

抽象命題分割

能夠將文本段落分解為獨立的事實、陳述和觀點，並通過小幅修改原文重述為完整句子。

長上下文處理

支持8192個token的上下文長度，適合處理較長文本。

多領域適用

訓練數據涵蓋多個領域，具有較強的泛化能力。

模型能力

文本分割

主張提取

文本重述

多句子處理

使用案例

研究工具

基礎驗證

將複雜文本分解為獨立命題，便於驗證事實準確性。

提升驗證效率和準確性

信息檢索

通過分解文本內容，提高檢索相關信息的精準度。

改善檢索結果相關性

內容分析

事實核查

將新聞或聲明分解為可單獨核查的命題。

提高核查效率

生成任務評估

用於評估摘要生成等任務的質量。

提供更細粒度的評估指標

🚀 Gemma模型卡片

Gemma-APS是用於抽象命題分割（APS）的生成模型和研究工具，可將文本內容分解為有意義的組件，適用於研究和多種應用場景。

🚀 快速開始

要快速開始運行該模型，請按以下步驟操作：首先確保執行 pip install -U transformers nltk，然後根據你的用例複製相關代碼片段。

為了方便使用，我們定義了兩個輔助函數，用於對模型的輸入進行預處理和對輸出進行後處理：

import nltk
import re

nltk.download('punkt')

start_marker = '<s>'
end_marker = '</s>'
separator = '\n'

def create_propositions_input(text: str) -> str:
    input_sents = nltk.tokenize.sent_tokenize(text)
    propositions_input = ''
    for sent in input_sents:
        propositions_input += f'{start_marker} ' + sent + f' {end_marker}{separator}'
    propositions_input = propositions_input.strip(f'{separator}')
    return propositions_input

def process_propositions_output(text):
    pattern = re.compile(f'{re.escape(start_marker)}(.*?){re.escape(end_marker)}', re.DOTALL)
    output_grouped_strs = re.findall(pattern, text)
    predicted_grouped_propositions = []
    for grouped_str in output_grouped_strs:
        grouped_str = grouped_str.strip(separator)
        props = [x[2:] for x in grouped_str.split(separator)]
        predicted_grouped_propositions.append(props)
    return predicted_grouped_propositions

💻 使用示例

基礎用法

使用 pipeline API 的示例代碼：

from transformers import pipeline
import torch

generator = pipeline('text-generation', 'google/gemma-7b-aps-it', device_map='auto', torch_dtype=torch.bfloat16)

passage = 'Sarah Stage, 30, welcomed James Hunter into the world on Tuesday.\nThe baby boy weighed eight pounds seven ounces and was 22 inches long.'
messages = [{'role': 'user', 'content': create_propositions_input(passage)}]
output = generator(messages, max_new_tokens=4096, return_full_text=False)
result = process_propositions_output(output[0]['generated_text'])
print(result)

示例輸出

```json [ [ "Sarah Stage welcomed James Hunter into the world.", "Sarah Stage is 30 years old.", "James Hunter was welcomed on Tuesday." ], [ "James Hunter weighed eight pounds seven ounces.", "James Hunter was 22 inches long." ] ] ```

高級用法

使用 AutoModel 和 AutoTokenizer APIs 的示例代碼：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = 'google/gemma-7b-aps-it'
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map='auto',
    torch_dtype=torch.bfloat16,
)

passage = "For more than 40 years, the lyrics of American Pie have been puzzled over. This week the handwritten lyrics sold for more than $1 million at auction. The verses contain hidden references to seminal events of the 50s and 60s. It includes nods to Buddy Holly, Charles Manson and Martin Luther King."
messages = [{'role': 'user', 'content': create_propositions_input(passage)}]
inputs = tokenizer.apply_chat_template(messages, return_tensors='pt', add_generation_prompt=True, return_dict=True).to(model.device)

output = model.generate(**inputs, max_new_tokens=4096, do_sample=False)
generated_text = tokenizer.batch_decode(output[:, inputs['input_ids'].shape[1]:], skip_special_tokens=True)[0]
result = process_propositions_output(generated_text)
print(result)

示例輸出

```json [ [ "The lyrics of American Pie have been puzzled over for more than 40 years." ], [ "The handwritten lyrics sold for more than $1 million.", "The handwritten lyrics sold at auction.", "The handwritten lyrics sold this week." ], [ "The verses contain hidden references to seminal events of the 50s.", "The verses contain hidden references to seminal events of the 60s." ], [ "The lyrics include nods to Buddy Holly.", "The lyrics include nods to Charles Manson.", "The lyrics include nods to Martin Luther King." ] ] ```

✨ 主要特性

抽象命題分割：Gemma-APS 是用於抽象命題分割（APS）的生成模型和研究工具，能夠將文本內容分解為有意義的組件。
多場景應用：可用於研究、基礎任務、檢索、事實核查和生成任務評估等場景。

📚 詳細文檔

模型信息

描述

Gemma-APS 是一個用於抽象命題分割（簡稱 APS，也稱為主張提取）的生成模型和研究工具。給定一段文本，該模型會將內容分割成文本中表達的各個事實、陳述和觀點，並以完整句子的形式重新表述，對原文進行少量修改。

該模型可用於需要將文本內容分解為有意義組件的研究。應用場景包括基礎任務、檢索、事實核查以及生成任務（如摘要）的評估，在這些場景中，將各個命題（主張）分開處理可能會很有用，以便獨立處理。更多信息請查看研究論文。

上下文長度

模型在 8192 個標記的上下文長度上進行訓練。

輸入和輸出

輸入：一段文本。
輸出：文本段落中所有句子的命題列表。每個句子的命題單獨分組。

模型數據

訓練數據集

訓練數據包含合成生成的示例，每個示例都有（輸入段落，命題列表）對，其中命題列表包含輸入段落中所有句子的命題（每個句子一組命題）。
輸入段落是通過少樣本提示 Gemini Ultra 生成的。
命題列表是通過對輸入段落應用教師大語言模型（LLM）生成的。教師大語言模型是在經過過濾的 ROSE 數據集上訓練的 Gemini Pro 模型。

詳情請參閱研究論文。

數據預處理

我們過濾掉了與用於提示 Gemini Ultra 的任何少樣本示例有 >=4 個標記重疊的示例段落。
我們使用 ROSE 數據集來訓練教師大語言模型（Gemini Pro）。我們使用蘊含模型過濾 ROSE 示例，以去除不滿足命題所需屬性的情況。

實現信息

硬件

與 Gemma 類似，Gemma-APS 在 TPUv5e 上進行訓練。

訓練大語言模型需要大量的計算能力。TPU 專為機器學習中常見的矩陣運算而設計，在這一領域具有以下幾個優勢：

性能：TPU 專門設計用於處理訓練大語言模型（LLM）涉及的大量計算。與 CPU 相比，它們可以顯著加速訓練過程。
內存：TPU 通常配備大量高帶寬內存，允許在訓練過程中處理大型模型和批量大小。這有助於提高模型質量。
可擴展性：TPU Pod（大型 TPU 集群）為處理大型基礎模型日益增長的複雜性提供了可擴展的解決方案。你可以在多個 TPU 設備上分佈訓練，以實現更快、更高效的處理。
成本效益：在許多情況下，與基於 CPU 的基礎設施相比，TPU 可以為訓練大型模型提供更具成本效益的解決方案，特別是考慮到更快的訓練速度節省的時間和資源。

這些優勢與谷歌對可持續運營的承諾相一致。

軟件

訓練使用 JAX 進行。

JAX 允許研究人員利用最新一代的硬件（包括 TPU）來更快、更高效地訓練大型模型。

評估

基準測試結果

評估是在一個現有的領域內數據集（ROSE 數據集的開發集，經過蘊含模型過濾）和論文中引入的兩個領域外數據集上進行的。評估基於我們為抽象命題分割任務提出的新指標。

倫理與安全

評估方法

這些模型僅適用於英文文本的抽象命題分割，不適用於任何其他任務或語言。雖然我們已經在三個評估數據集上對模型進行了測試，並且與強大的基線相比取得了積極的結果，但模型在某些示例上仍可能存在錯誤。

使用與限制

預期用途

這些模型僅適用於英文文本的抽象命題分割，不適用於任何其他任務或語言。雖然我們已經在三個評估數據集上對其進行了測試，並且與強大的基線相比取得了積極的結果，但模型在某些示例上仍可能存在錯誤。

限制

這些模型存在一些用戶應該瞭解的限制：

訓練數據：
- 訓練數據的質量和多樣性會顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 我們已經在來自不同領域的段落上測試了我們的模型，這些段落包含幾個句子。
- 該模型支持英文的抽象命題分割，不支持任何其他語言。
語言歧義與細微差別：自然語言本質上是複雜的。大語言模型可能難以理解微妙的細微差別、諷刺或比喻性語言。
事實準確性：大語言模型根據從訓練數據中學到的信息生成響應，但它們不是知識庫。它們可能會生成不正確或過時的事實陳述。
常識：大語言模型依賴於語言中的統計模式。它們可能在某些情況下缺乏應用常識推理的能力。

倫理考量與風險

大語言模型（LLM）的開發引發了一些倫理問題。在創建開放模型時，我們仔細考慮了以下幾點：

偏差與公平性：在大規模真實世界文本數據上訓練的大語言模型可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查，輸入數據的預處理和後續評估在本模型卡片中進行了描述和報告。
錯誤信息與濫用：大語言模型可能被濫用來生成虛假、誤導性或有害的文本。
透明度與問責制：本模型卡片總結了模型的架構、能力、限制和評估過程的詳細信息。

已識別的風險和緩解措施：

偏差的延續：鼓勵在模型訓練、微調等用例中進行持續監控（使用評估指標、人工審查）並探索去偏技術。
有害內容的生成：內容安全機制和指南至關重要。鼓勵開發者謹慎行事，並根據其特定的產品政策和應用用例實施適當的內容安全保障措施。
惡意用途：技術限制以及開發者和最終用戶的教育可以幫助減輕大語言模型的惡意應用。提供了教育資源和用戶舉報濫用行為的機制。Gemma 禁止使用政策中列出了 Gemma 模型的禁止用途。
隱私侵犯：模型在經過過濾以去除個人身份信息（PII）的數據上進行訓練。鼓勵開發者遵守隱私法規並採用隱私保護技術。