Исследовательское подразделение Google разработало TurboQuant, алгоритм сжатия памяти для искусственного интеллекта, позволяющий ускорять вычисления нейросетей до восьми раз без потери качества ответов.
TurboQuant снижает требования к ресурсам для работы больших языковых моделей и систем векторного поиска. Алгоритм переводит многомерные векторы в полярную систему координат и сжимает основной объём данных, а второй механизм устраняет остаточные ошибки, используя всего один бит памяти. Технологию уже проверили на моделях Llama, Gemma и Mistral: кэш сжался до трёх бит, потребление памяти сократилось минимум в шесть раз, а скорость вычислений на графических ускорителях H100 выросла в восемь раз.
По словам Google, TurboQuant не требует дополнительного обучения нейросетей и будет внедрён в поисковые алгоритмы и собственные ИИ-продукты компании, включая Gemini. Публичная презентация проекта запланирована на конференциях ICLR и AISTATS в 2026 году.

