vLLM

vLLM은 LLM 추론 및 서빙을 위한 고처리량·고효율 메모리 관리 오픈소스 엔진
UC Berkeley Sky Computing Lab에서 개발된 PagedAttention 기반 추론 프레임워크
기존 시스템 대비 KV Cache 메모리 낭비를 60~80%에서 4% 미만으로 줄인 메모리 최적화 라이브러리

해당 개념이 필요한 이유

LLM을 프로덕션에 배포할 때, GPU 메모리 비용이 가장 큰 병목
기존 추론 시스템은 KV Cache의 60~80%를 낭비하여 동시 처리 가능한 요청 수가 제한됨
vLLM은 동일한 GPU 메모리로 더 많은 요청을 처리하여 비용 대비 처리량을 극대화

AS-IS

sequenceDiagram
    autonumber
    participant Client
    participant Server as 기존 추론 서버
    participant GPU as GPU Memory

    Client->>Server: Request 1 (max_tokens=2048)
    Server->>GPU: KV Cache 2048 슬롯 사전 할당
    Note over GPU: 실제 사용: 512 토큰<br/>낭비: 1536 슬롯 (75%)

    Client->>Server: Request 2 (max_tokens=2048)
    Server->>GPU: KV Cache 2048 슬롯 사전 할당
    Note over GPU: 실제 사용: 300 토큰<br/>낭비: 1748 슬롯 (85%)

    Client->>Server: Request 3
    Server--xClient: GPU 메모리 부족 → 거부

TO-BE

sequenceDiagram
    autonumber
    participant Client
    participant vLLM as vLLM (PagedAttention)
    participant GPU as GPU Memory (Block 단위)

    Client->>vLLM: Request 1
    vLLM->>GPU: Block 1~3 동적 할당 (필요한 만큼)
    Note over GPU: 사용: 512 토큰 → 32블록<br/>낭비: 4% 미만

    Client->>vLLM: Request 2
    vLLM->>GPU: Block 33~51 동적 할당
    Note over GPU: 사용: 300 토큰 → 19블록<br/>남은 블록 재활용 가능

    Client->>vLLM: Request 3
    vLLM->>GPU: 빈 블록에서 동적 할당
    Note over GPU: 메모리 효율적 사용 → 수용 가능

PagedAttention — 핵심 메커니즘

OS의 가상 메모리 페이징 개념을 GPU의 KV Cache 관리에 적용한 알고리즘.

개념	OS 가상 메모리	PagedAttention
관리 단위	Page Frame	KV Block (보통 16토큰)
매핑 테이블	Page Table	Block Table
주소 공간	Virtual → Physical	Logical Block → Physical GPU Block
공유 메커니즘	Copy-on-Write	Copy-on-Write

Block Table: 논리적 KV Cache 주소를 물리적 GPU 메모리 위치로 변환하는 매핑 구조. 연속 메모리 할당 없이 임의의 위치에 블록을 배치 가능.

기존 시스템의 3가지 메모리 낭비

Internal Fragmentation: 출력 토큰 수가 예측 불가능하여 사전 할당된 슬롯이 미사용 상태로 남음
Reservation: 요청 기간 동안 전체 메모리 블록을 잠금 → 부분 사용 시에도 재활용 불가
External Fragmentation: 가변 길이 시퀀스 사이의 빈 공간이 활용 불가

PagedAttention은 온디맨드 동적 할당으로 세 가지를 모두 해결.

성능 비교

비교 대상	처리량 개선
HuggingFace Transformers	24x
HuggingFace TGI	3.5x
일반적 추론 시스템	2~4x (동일 latency 기준)

주요 최적화 기법

Continuous Batching

요청이 완료될 때까지 기다리지 않고, 새 요청을 즉시 배치에 추가. Static batching 대비 GPU 활용률 극대화.

Speculative Decoding

작은 draft 모델이 큰 모델의 출력을 미리 예측 → 검증 후 채택. 속도 최대 2배 향상.

Prefix Caching

시스템 프롬프트 등 공통 접두사의 KV Cache를 저장·재사용. 반복 프롬프트 시 400%+ 성능 향상.

Quantization

모델 가중치를 낮은 정밀도(FP8, INT8, AWQ 등)로 변환하여 메모리 사용량 감소.

예: Llama-13B → FP32 기준 52GB → INT8로 13GB

Parallel Sampling: 하나의 프롬프트에서 여러 출력 생성 시 KV Cache 공유
Beam Search: 공통 prefix의 KV Cache 공유
Copy-on-Write: 분기 시점까지 공유, 변경 시에만 복사

지원 환경

카테고리	지원 항목
GPU	NVIDIA, AMD
CPU	Intel, ARM, PowerPC
가속기	TPU, Intel Gaudi, Huawei Ascend
모델	Llama, Qwen, Gemma, DeepSeek, Mixtral, LLaVA 등
병렬화	Tensor, Pipeline, Data, Expert Parallelism
API	OpenAI-compatible REST API

Explorer

날짜별 보기

2026년 (114)

2025년 (8)

vLLM

해당 개념이 필요한 이유

AS-IS

TO-BE

PagedAttention — 핵심 메커니즘

기존 시스템의 3가지 메모리 낭비

성능 비교

주요 최적화 기법

Prefix Caching

Memory Sharing

지원 환경

참고 문서

Graph View

Table of Contents

Backlinks