Google představil kompresní algoritmus TurboQuant pro jazykové modely. Snižuje nároky na paměť KV cache minimálně šestinásobně bez jakékoliv ztráty přesnosti modelu.
Google TurboQuant komprimuje paměť AI modelů. Výkon roste až 8x
Ondřej Lyko
dnes 07:00