온프레미스의 의미
- 온프레미스: 모델/서비스가 **고객사 인프라(고객 서버)**에서 실행되고 데이터가 외부로 나가지 않음
- 벤더 인프라(벤더 클라우드, e.g. OpenAI, Gemini ..): 모델이 벤더가 운영하는 서버에서 실행됨
- 스타트업이 OpenAI API를 쓰는 경우, 모델은 OpenAI(또는 Azure OpenAI 등 벤더)의 서버에서 실행
- 이 경우 고객사 서버에서 실행되는 것이 아님 → 온프레미스 아님
- Private Endpoint/VPN: 전송 경로가 사설이어도 호스팅 주체가 벤더면 클라우드
스타트업이 온프레미스를 제공하는 현실적 방법
모델 선택
- 오픈웨이트 모델: Llama / Mistral / Qwen / Gemma 등
- 상용 모델 온프레미스 라이선스: 드물지만 존재 (대형 계약/규제 산업)
- GPT/Gemini/Anthropic: 가중치 비공개 → 온프레미스 불가, 클라우드 API만 가능
배포 방식
- 고객사 데이터센터/프라이빗 클라우드에 설치
- 서빙: vLLM / TGI / llama.cpp 등
- 보안: Air-gapped, 내부망 인증, 로그 외부 반출 금지
”OpenAI급 성능을 쓰고 싶다” vs 온프레미스
- OpenAI/Gemini/Anthropic API는 클라우드형 B2B (온프레미스 아님)
- 데이터는 외부 벤더 서버로 전송됨 (no-training 옵션은 가능)
- 온프레미스는 **로컬 추론 가능한 모델(오픈웨이트)**을 써야 함
벤더 의존성과 AI 하네스
- 벤더 파인튜닝 = 벤더 종속 → 스타트업은 최소화
- 대신 AI 하네스로 가치 제공:
- RAG(도메인 지식), 툴, 정책, 가드레일, 워크플로우
- LLM은 교체 가능한 모듈로 설계 (어댑터 패턴)
스타트업의 B2B 가치 제공 (Phase 분리)
Phase 1: AI Harness (초기, 벤더 LLM 기반)
- RAG + 하네스로 “일반 AI보다 더 나은 가치” 제공
- 벤더 LLM API 사용, 도메인 특화 답변, 업무 자동화
Phase 2: Open-weight Training (추후, 온프레미스 전환)
- 축적한 데이터로 오픈웨이트 모델 학습
- 온프레미스 배포로 벤더 의존성 탈피
수집 데이터의 용도
- 1) RAG 품질 개선 → Phase 1 (하네스)
- 2) 평가/회귀 테스트 → Phase 1 (하네스)
- 3) 모델 교체 시 재학습 → Phase 2 (오픈웨이트)
데이터 파이프라인 시퀀스
sequenceDiagram autonumber participant User as 👤 User participant Product as 🧩 Product box rgb(220, 240, 255) Startup Platform participant VectorDB as 📚 Vector DB participant Gateway as 🔐 API Gateway participant DataPipe as 🛠️ Data Pipeline participant Store as 🗂️ Data Store participant Labeling as ✍️ Labeling QA participant Train as 🧠 Training participant Deploy as 🚀 Deployment end box rgb(255, 240, 220) External LLM Vendors participant LLM as 🤖 LLM API end box rgb(220, 255, 220) Customer On-Prem participant OnPrem as 🏢 On-Prem Runtime end Note over User,Store: Phase 1 (AI Harness) User->>Product: 질의 입력 Product->>VectorDB: RAG 검색 VectorDB-->>Product: 관련 문서 컨텍스트 Product->>Gateway: 질의 + 컨텍스트 전달 Gateway->>LLM: 프롬프트 전송 LLM-->>Gateway: 응답 반환 Gateway-->>Product: 응답 전달 Product-->>User: 답변 표시 Product->>DataPipe: 로그 수집 (opt-in) DataPipe->>DataPipe: PII 마스킹/정제 DataPipe->>Store: 모델-중립 포맷 저장 Store->>VectorDB: RAG 재인덱싱 (주기적) Note over Store,OnPrem: Phase 2 (Open-weight Training) Store->>Labeling: 라벨링 큐 생성 Labeling-->>Train: 학습용 데이터셋 Train-->>Deploy: 오픈웨이트 모델 패키지 Deploy->>OnPrem: 온프레미스 배포
단계별 요약
Phase 1 (AI Harness)
- 사용자 질의: 사용자가 제품에 질의 입력
- RAG 검색: VectorDB에서 도메인 문서 컨텍스트 검색
- 벤더 LLM 호출: 질의 + 컨텍스트를 벤더 LLM API로 전송
- 응답 전달: 벤더 LLM 응답을 사용자에게 반환
- 로그 수집: opt-in 기준으로 로그/피드백 수집
- 데이터 정제: PII 마스킹 후 모델-중립 포맷으로 저장
- RAG 재인덱싱: 축적된 데이터로 VectorDB 주기적 업데이트
- 실시간 반영 아님: 누적 후 주기적으로 반영
Phase 2 (Open-weight Training)
- 라벨링: 축적 데이터를 오픈웨이트 학습용 데이터셋으로 준비
- 학습: 오픈웨이트 모델(Llama/Mistral 등)에 파인튜닝
- 온프레미스 배포: 학습된 모델을 고객사 내부에 배포
평가 체계 자동화 (선택사항)
스타트업이 성장하면서 품질 관리/모델 교체 대비로 도입할 수 있음. 대표적인 자동 평가 프레임워크
- OpenAI Evals: https://platform.openai.com/docs/guides/evals
- LM Evaluation Harness: https://github.com/EleutherAI/lm-evaluation-harness
- Ragas (RAG 평가): https://docs.ragas.io/en/stable/
- DeepEval: https://deepeval.com/
요약
- 온프레미스 = 고객 인프라 내부 실행
- GPT/Gemini/Anthropic은 클라우드 API만 가능 (온프레미스 불가)
- Phase 1: 벤더 LLM + RAG + 하네스로 B2B 가치 제공 (초기)
- Phase 2: 오픈웨이트 모델 학습 + 온프레미스 전환 (추후)
- 데이터는 모델-중립 포맷으로 축적 → Phase 1에서도, Phase 2에서도 재사용