🚀 生物醫學大語言模型Bio - Medical - Llama - 3 - 8B
生物醫學大語言模型Bio - Medical - Llama - 3 - 8B是基於Meta - Llama - 3 - 8B - Instruct微調而來,在生物醫學領域表現出色,能為研究、臨床決策等提供有力支持。
🚀 快速開始
你可以按照以下代碼示例使用Bio - Medical - Llama - 3 - 8B模型:
import transformers
import torch
model_id = "ContactDoctor/Bio-Medical-Llama-3-8B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are an expert trained on healthcare and biomedical domain!"},
{"role": "user", "content": "I'm a 35-year-old male and for the past few months, I've been experiencing fatigue, increased sensitivity to cold, and dry, itchy skin. What is the diagnosis here?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
✨ 主要特性
- 專業適配:專為生物醫學應用定製,能理解和生成生物醫學領域的文本。
- 數據多樣:使用包含超500,000條多樣條目的自定義數據集進行微調,涵蓋合成和人工篩選數據。
- 性能優越:在多個生物醫學NLP任務中表現優於許多領先的大語言模型。
📦 安裝指南
文檔未提供具體安裝命令,暫無法展示安裝指南。
💻 使用示例
基礎用法
import transformers
import torch
model_id = "ContactDoctor/Bio-Medical-Llama-3-8B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are an expert trained on healthcare and biomedical domain!"},
{"role": "user", "content": "I'm a 35-year-old male and for the past few months, I've been experiencing fatigue, increased sensitivity to cold, and dry, itchy skin. What is the diagnosis here?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
高級用法
文檔未提供高級用法代碼示例,暫無法展示。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型名稱 |
Bio - Medical - Llama - 3 - 8B |
基礎模型 |
Llama - 3 - 8B - Instruct |
參數數量 |
80億 |
訓練數據 |
自定義高質量生物醫學數據集 |
數據集中條目數量 |
500,000 + |
數據集組成 |
數據集包含合成和人工篩選的樣本,確保對生物醫學知識的多樣化和全面覆蓋。 |
模型描述
Bio - Medical - Llama - 3 - 8B模型是專為生物醫學應用設計的專業大語言模型。它基於meta - llama/Meta - Llama - 3 - 8B - Instruct模型,使用包含超500,000條多樣條目的自定義數據集進行微調。這些條目包括合成和人工篩選的數據,確保了生物醫學主題的高質量和廣泛覆蓋。該模型經過訓練,能夠理解和生成與各種生物醫學領域相關的文本,是生物醫學領域研究人員、臨床醫生和其他專業人士的寶貴工具。
評估指標
Bio - Medical - Llama - 3 - 8B模型在許多領先的大語言模型中表現出色。以下是使用Eleuther AI語言模型評估框架針對medmcqa、medqa_4options、mmlu_anatomy、mmlu_clinical_knowledge、mmlu_college_biology、mmlu_college_medicine、mmlu_medical_genetics、mmlu_professional_medicine和pubmedqa等任務評估的指標。

預期用途和限制
Bio - Medical - Llama - 3 - 8B模型適用於生物醫學領域的廣泛應用,包括:
- 研究支持:協助研究人員進行文獻綜述和從生物醫學文本中提取數據。
- 臨床決策支持:提供信息以支持臨床決策過程。
- 教育工具:作為醫學生和專業人士擴展知識庫的資源。
限制和倫理考慮
雖然Bio - Medical - Llama - 3 - 8B模型在各種生物醫學NLP任務中表現良好,但用戶應注意以下限制:
⚠️ 重要提示
- 偏差:模型可能繼承訓練數據中存在的偏差。雖然已努力策劃平衡的數據集,但仍可能存在一些偏差。
- 準確性:模型的響應基於其所見數據中的模式,可能並不總是準確或最新的。用戶應從可靠來源驗證關鍵信息。
- 倫理使用:模型應負責任地使用,特別是在臨床環境中,風險很高。它應補充而不是取代專業判斷和專業知識。
訓練超參數
以下超參數在訓練過程中使用:
- 學習率:0.0002
- 訓練批次大小:12
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:4
- 總訓練批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:餘弦
- 學習率調度器預熱比例:0.03
- 訓練步數:2000
- 混合精度訓練:Native AMP
框架版本
- PEFT 0.11.0
- Transformers 4.40.2
- Pytorch 2.1.2
- Datasets 2.19.1
- Tokenizers 0.19.1
🔧 技術細節
Bio - Medical - Llama - 3 - 8B模型基於Llama - 3 - 8B - Instruct進行微調。在訓練過程中,使用了自定義的高質量生物醫學數據集,該數據集包含超500,000條多樣條目,涵蓋合成和人工篩選的數據,以確保對生物醫學知識的全面覆蓋。訓練過程中採用了一系列超參數進行優化,如學習率、批次大小等,同時使用了混合精度訓練以提高訓練效率。評估時,使用了Eleuther AI語言模型評估框架針對多個生物醫學任務進行評估,以確保模型在生物醫學領域的性能。
📄 許可證
該模型遵循Bio - Medical - Llama - 3 - 8B(僅限非商業使用)許可協議。在使用模型之前,請仔細閱讀條款和條件。
聯繫信息
如需瞭解有關Bio - Medical - Llama - 3 - 8B的更多信息、諮詢或反饋問題,請聯繫:
- 郵箱:info@contactdoctor.in
- 網站:https://www.contactdoctor.in
引用
如果您在研究或應用中使用Bio - Medical - Llama - 3 - 8B模型,請按以下方式引用:
@misc{ContactDoctor_Bio-Medical-Llama-3-8B,
author = ContactDoctor,
title = {Bio-Medical: A High-Performance Biomedical Language Model},
year = {2024},
howpublished = {https://huggingface.co/ContactDoctor/Bio-Medical-Llama-3-8B},
}