Tác giả: lethuha

o Dual-Axis Scaling: dùng hai vector tỷ lệ riêng biệt cho hàng và cột, giúp giảm lỗi lượng tử hóa do giá trị ngoại lai. o Sinkhorn-Knopp Normalization: thuật toán chuẩn hóa nhanh giúp giảm “matrix imbalance” – chỉ số mới hiệu quả hơn kurtosis trong tối ưu hóa chất lượng lượng tử hóa. 📌 Với phương pháp lượng tử hóa mới SINQ, Huawei đang dân chủ hóa khả năng chạy LLM trên phần cứng phổ thông, giúp tiết kiệm 60–70% bộ nhớ và chi phí GPU giảm tới 3 lần. Giải pháp nguồn mở, nhanh, dễ dùng và không…

Read More