Tagged articles

post-training quantization

7 articles · Page 1 of 1

May 31, 2026 · Artificial Intelligence

Can Low-Bit Models Cut Inference Costs Better Than Small Models?

The article analyzes how low‑bit quantization differs from simply using smaller LLMs, examines hardware‑level precision reduction, compares post‑training quantization with native low‑bit designs, and explains the runtime and testing requirements needed to achieve real inference cost savings.

LLM Inferencecost optimizationhardware acceleration

0 likes · 7 min read

Can Low-Bit Models Cut Inference Costs Better Than Small Models?

AI Engineer Programming

Apr 25, 2026 · Artificial Intelligence

Quantization Across Signal Processing, AI Inference, and RAG Vector Search

This article explains how quantization—originating from signal processing—reduces precision to save resources, details its application to neural network weights and activations via PTQ, QAT, GPTQ, AWQ, and SmoothQuant, and shows how vector quantization enables fast, memory‑efficient retrieval in large‑scale RAG systems.

AWQGPTQLLM

0 likes · 19 min read

Quantization Across Signal Processing, AI Inference, and RAG Vector Search

AI Algorithm Path

Aug 23, 2025 · Artificial Intelligence

Understanding QAT: Quantization‑Aware Training with PyTorch

This article explains the principles of model quantization, compares post‑training quantization (PTQ) and quantization‑aware training (QAT), details the QAT workflow in PyTorch—including fake quantization, gradient handling, and code examples—and offers practical tips for achieving high‑accuracy int8/int4 models.

Fake QuantizationPyTorchQAT

0 likes · 15 min read

Understanding QAT: Quantization‑Aware Training with PyTorch

DeWu Technology

Apr 14, 2025 · Artificial Intelligence

Overview of Recent Large Language Model Quantization Techniques

The article surveys modern post‑training quantization approaches for large language models, detailing weight‑only and activation‑aware methods such as GPTQ, AWQ, HQQ, SmoothQuant, QuIP, QuaRot, SpinQuant, QQQ, QoQ, and FP8, and compares their precision levels, algorithmic steps, accuracy‑throughput trade‑offs, and implementation considerations for efficient inference.

AILLMQuantization

0 likes · 32 min read

Overview of Recent Large Language Model Quantization Techniques

Architect

Mar 5, 2025 · Artificial Intelligence

How Does Quantization Shrink LLMs? A Deep Dive into GPTQ, GGUF, and Techniques

This article explains why large language models need quantization, describes the core concepts, classification schemes, symmetric and asymmetric methods, handling of outliers, and compares post‑training quantization (PTQ) with quantization‑aware training (QAT), while detailing popular techniques such as GPTQ, GGUF, and BitNet.

AI hardwareGGUFGPTQ

0 likes · 25 min read

How Does Quantization Shrink LLMs? A Deep Dive into GPTQ, GGUF, and Techniques

ShiZhen AI

Jun 14, 2024 · Artificial Intelligence

Can Apple Intelligence Preserve Privacy in the AI Era?

Apple Intelligence introduces on‑device large language models and new AI features across iOS, macOS and iPad, but its limited memory forces aggressive quantization and a private‑cloud fallback, raising questions about whether Apple can truly safeguard user data while matching competitors like Google, Microsoft and OpenAI.

Apple IntelligenceChatGPT integrationPrivacy

0 likes · 11 min read

Can Apple Intelligence Preserve Privacy in the AI Era?

Kuaishou Tech

Dec 20, 2023 · Artificial Intelligence

SAMP: A Model Inference Toolkit of Post-Training Quantization for Text Processing via Self-Adaptive Mixed-Precision

SAMP is an adaptive mixed-precision inference toolkit that automatically controls floating-point and integer operations to accelerate model inference while maintaining computational accuracy.

AI inferenceNLP accelerationmixed-precision computing

0 likes · 9 min read

SAMP: A Model Inference Toolkit of Post-Training Quantization for Text Processing via Self-Adaptive Mixed-Precision