🚀 flan-t5-large-grammar-synthesis - GGUF
本項目提供 flan-t5-large-grammar-synthesis 的GGUF文件,可用於Ollama、llama.cpp或任何支持GGUF格式t5模型的框架。該模型主要用於語法和拼寫糾正,能有效提升文本的準確性和規範性。
本倉庫主要包含“更高精度”/更大量化的文件,因為此模型的重點在於語法/拼寫糾正,低精度可能會導致糾正錯誤,從而使模型失去作用。
更多詳細信息請參考原倉庫。
📦 安裝指南
無
💻 使用示例
基礎用法
你可以使用 llamafile(或 llama-cli)來使用這些GGUF文件,示例如下:
llamafile.exe -m grammar-synthesis-Q6_K.gguf --temp 0 -p "There car broke down so their hitching a ride to they're class."
它將輸出糾正後的文本:
system_info: n_threads = 4 / 8 | AVX = 1 | AVX_VNNI = 0 | AVX2 = 1 | AVX512 = 1 | AVX512_VBMI = 1 | AVX512_VNNI = 1 | AVX512_BF16 = 0 | FMA = 1 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 |
sampling:
repeat_last_n = 64, repeat_penalty = 1.000, frequency_penalty = 0.000, presence_penalty = 0.000
top_k = 40, tfs_z = 1.000, top_p = 0.950, min_p = 0.050, typical_p = 1.000, temp = 0.000
mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
sampling order:
CFG -> Penalties -> top_k -> tfs_z -> typical_p -> top_p -> min_p -> temperature
generate: n_ctx = 8192, n_batch = 2048, n_predict = -1, n_keep = 0
The car broke down so they had to take a ride to school. [end of text]
llama_print_timings: load time = 782.21 ms
llama_print_timings: sample time = 0.23 ms / 16 runs ( 0.01 ms per token, 68376.07 tokens per second)
llama_print_timings: prompt eval time = 85.08 ms / 19 tokens ( 4.48 ms per token, 223.33 tokens per second)
llama_print_timings: eval time = 341.74 ms / 15 runs ( 22.78 ms per token, 43.89 tokens per second)
llama_print_timings: total time = 456.56 ms / 34 tokens
Log end
高級用法
如果你有GPU,務必在命令中添加 -ngl 9999
,這樣可以自動將盡可能多的層放置到GPU上,從而加快推理速度。
🔧 技術細節
無
📄 許可證
本項目採用 Apache-2.0 許可證。
📋 模型信息
屬性 |
詳情 |
模型類型 |
文本到文本生成 |
基礎模型 |
pszemraj/flan-t5-large-grammar-synthesis |
標籤 |
語法、拼寫 |