Model Inference Optimization

Overview

We develop efficient inference techniques for large language models, focusing on reducing memory and latency while preserving quality. Directions include KV cache pruning/merging, prompt compression, streaming state retention, and adaptive decoding.

Outcomes

SirLLM

Streaming Infinite Retentive LLM. ACL 2024.

2024 ACL Streaming
Prompt Compression

Compact representations for long-context prompting with minimal quality loss.

Ongoing Compression Long-Context

Overview

Outcomes

SirLLM

Prompt Compression