Tagged "inference-speed-optimization"

llama.cpp Adds Multi-Token Prediction, Doubles Qwen 3.6B Throughput for Local Inference 19 May 2026
Linux 7.1-rc4 Released: Kernel Updates Relevant to Local LLM Inference 18 May 2026
Dynamic Expert Cache in llama.cpp Achieves 27% Faster Inference on Large MoE Models 15 April 2026