llama.cpp本地部署教程与GGUF量化实践

llama.cpp

探索llama.cpp在本地与大模型部署中的应用。关注GGUF格式模型量化、CPU/Apple Silicon推理优化，实现低资源环境下的高效LLM运行。

2026-03-17 13分钟阅读时长

本文系统解析 AI 模型行业通用的命名规则与标签含义，助力模型选型和本地部署。文章先梳理出 “厂商 / 系列 - 版本号 - 参数量 -...

2026-03-06 30分钟阅读时长

本文深入剖析 Qwen3.5 混合注意力架构的技术原理与实战部署。Qwen3.5 通过融合 Gated DeltaNet 线性注意力与完整注意力，以 3:1...