Reader

微软1bit LLM新研究:原生4bit激活值量化,可充分利用新一代GPU对4bit计算的原生支持

| 量子位 | Default
减少内存带宽&提升计算效率