온프레미스 B2B AI 제공

온프레미스의 의미

온프레미스: 모델/서비스가 **고객사 인프라(고객 서버)**에서 실행되고 데이터가 외부로 나가지 않음
벤더 인프라(벤더 클라우드, e.g. OpenAI, Gemini ..): 모델이 벤더가 운영하는 서버에서 실행됨
- 스타트업이 OpenAI API를 쓰는 경우, 모델은 OpenAI(또는 Azure OpenAI 등 벤더)의 서버에서 실행
- 이 경우 고객사 서버에서 실행되는 것이 아님 → 온프레미스 아님
Private Endpoint/VPN: 전송 경로가 사설이어도 호스팅 주체가 벤더면 클라우드

스타트업이 온프레미스를 제공하는 현실적 방법

모델 선택

오픈웨이트 모델: Llama / Mistral / Qwen / Gemma 등
상용 모델 온프레미스 라이선스: 드물지만 존재 (대형 계약/규제 산업)
GPT/Gemini/Anthropic: 가중치 비공개 → 온프레미스 불가, 클라우드 API만 가능

배포 방식

고객사 데이터센터/프라이빗 클라우드에 설치
서빙: vLLM / TGI / llama.cpp 등
보안: Air-gapped, 내부망 인증, 로그 외부 반출 금지

”OpenAI급 성능을 쓰고 싶다” vs 온프레미스

OpenAI/Gemini/Anthropic API는 클라우드형 B2B (온프레미스 아님)
데이터는 외부 벤더 서버로 전송됨 (no-training 옵션은 가능)
온프레미스는 **로컬 추론 가능한 모델(오픈웨이트)**을 써야 함

벤더 의존성과 AI 하네스

벤더 파인튜닝 = 벤더 종속 → 스타트업은 최소화
대신 AI 하네스로 가치 제공:
- RAG(도메인 지식), 툴, 정책, 가드레일, 워크플로우
- LLM은 교체 가능한 모듈로 설계 (어댑터 패턴)

스타트업의 B2B 가치 제공 (Phase 분리)

Phase 1: AI Harness (초기, 벤더 LLM 기반)

RAG + 하네스로 “일반 AI보다 더 나은 가치” 제공
벤더 LLM API 사용, 도메인 특화 답변, 업무 자동화

Phase 2: Open-weight Training (추후, 온프레미스 전환)

축적한 데이터로 오픈웨이트 모델 학습
온프레미스 배포로 벤더 의존성 탈피

수집 데이터의 용도

1) RAG 품질 개선 → Phase 1 (하네스)
2) 평가/회귀 테스트 → Phase 1 (하네스)
3) 모델 교체 시 재학습 → Phase 2 (오픈웨이트)

데이터 파이프라인 시퀀스

sequenceDiagram
  autonumber
  participant User as 👤 User
  participant Product as 🧩 Product
  box rgb(220, 240, 255) Startup Platform
    participant VectorDB as 📚 Vector DB
    participant Gateway as 🔐 API Gateway
    participant DataPipe as 🛠️ Data Pipeline
    participant Store as 🗂️ Data Store
    participant Labeling as ✍️ Labeling QA
    participant Train as 🧠 Training
    participant Deploy as 🚀 Deployment
  end
  box rgb(255, 240, 220) External LLM Vendors
    participant LLM as 🤖 LLM API
  end
  box rgb(220, 255, 220) Customer On-Prem
    participant OnPrem as 🏢 On-Prem Runtime
  end
  Note over User,Store: Phase 1 (AI Harness)
  User->>Product: 질의 입력
  Product->>VectorDB: RAG 검색
  VectorDB-->>Product: 관련 문서 컨텍스트
  Product->>Gateway: 질의 + 컨텍스트 전달
  Gateway->>LLM: 프롬프트 전송
  LLM-->>Gateway: 응답 반환
  Gateway-->>Product: 응답 전달
  Product-->>User: 답변 표시
  Product->>DataPipe: 로그 수집 (opt-in)
  DataPipe->>DataPipe: PII 마스킹/정제
  DataPipe->>Store: 모델-중립 포맷 저장
  Store->>VectorDB: RAG 재인덱싱 (주기적)
  Note over Store,OnPrem: Phase 2 (Open-weight Training)
  Store->>Labeling: 라벨링 큐 생성
  Labeling-->>Train: 학습용 데이터셋
  Train-->>Deploy: 오픈웨이트 모델 패키지
  Deploy->>OnPrem: 온프레미스 배포

단계별 요약

Phase 1 (AI Harness)

사용자 질의: 사용자가 제품에 질의 입력
RAG 검색: VectorDB에서 도메인 문서 컨텍스트 검색
벤더 LLM 호출: 질의 + 컨텍스트를 벤더 LLM API로 전송
응답 전달: 벤더 LLM 응답을 사용자에게 반환
로그 수집: opt-in 기준으로 로그/피드백 수집
데이터 정제: PII 마스킹 후 모델-중립 포맷으로 저장
RAG 재인덱싱: 축적된 데이터로 VectorDB 주기적 업데이트
- 실시간 반영 아님: 누적 후 주기적으로 반영

Phase 2 (Open-weight Training)

라벨링: 축적 데이터를 오픈웨이트 학습용 데이터셋으로 준비
학습: 오픈웨이트 모델(Llama/Mistral 등)에 파인튜닝
온프레미스 배포: 학습된 모델을 고객사 내부에 배포

평가 체계 자동화 (선택사항)

스타트업이 성장하면서 품질 관리/모델 교체 대비로 도입할 수 있음. 대표적인 자동 평가 프레임워크

OpenAI Evals: https://platform.openai.com/docs/guides/evals
LM Evaluation Harness: https://github.com/EleutherAI/lm-evaluation-harness
Ragas (RAG 평가): https://docs.ragas.io/en/stable/
DeepEval: https://deepeval.com/

요약

온프레미스 = 고객 인프라 내부 실행
GPT/Gemini/Anthropic은 클라우드 API만 가능 (온프레미스 불가)
Phase 1: 벤더 LLM + RAG + 하네스로 B2B 가치 제공 (초기)
Phase 2: 오픈웨이트 모델 학습 + 온프레미스 전환 (추후)
데이터는 모델-중립 포맷으로 축적 → Phase 1에서도, Phase 2에서도 재사용

Explorer

날짜별 보기

2026년 (44)

2025년 (4)

온프레미스 B2B AI 제공

온프레미스의 의미

스타트업이 온프레미스를 제공하는 현실적 방법

모델 선택

배포 방식

”OpenAI급 성능을 쓰고 싶다” vs 온프레미스

벤더 의존성과 AI 하네스

스타트업의 B2B 가치 제공 (Phase 분리)

Phase 1: AI Harness (초기, 벤더 LLM 기반)

Phase 2: Open-weight Training (추후, 온프레미스 전환)

수집 데이터의 용도

데이터 파이프라인 시퀀스

단계별 요약

Phase 1 (AI Harness)

Phase 2 (Open-weight Training)

평가 체계 자동화 (선택사항)

Graph View

Table of Contents