推理引擎关键问题
- 内存容量
- 权重
- 量化
- 蒸馏
- kv cache
- 缓存 sglang的radix tree
- 内存碎片化 paged attention
- 权重
- 算力
- prefill阶段是计算密集型的,核心是如何充分利用硬件资源
- 内存带宽
- decode阶段是访存密集型的,核心是如何加载一次权重,计算更多token
- batching
- 预测性推理 万字综述 10+ 种 LLM 投机采样推理加速方案 - 53AI-AI知识库|大模型知识库|大模型训练|智能体开发
效果
思考更长时间
Think Twice