온프레미스의 의미

  • 온프레미스: 모델/서비스가 **고객사 인프라(고객 서버)**에서 실행되고 데이터가 외부로 나가지 않음
  • 벤더 인프라(벤더 클라우드, e.g. OpenAI, Gemini ..): 모델이 벤더가 운영하는 서버에서 실행됨
    • 스타트업이 OpenAI API를 쓰는 경우, 모델은 OpenAI(또는 Azure OpenAI 등 벤더)의 서버에서 실행
    • 이 경우 고객사 서버에서 실행되는 것이 아님 → 온프레미스 아님
  • Private Endpoint/VPN: 전송 경로가 사설이어도 호스팅 주체가 벤더면 클라우드

스타트업이 온프레미스를 제공하는 현실적 방법

모델 선택

  • 오픈웨이트 모델: Llama / Mistral / Qwen / Gemma 등
  • 상용 모델 온프레미스 라이선스: 드물지만 존재 (대형 계약/규제 산업)
  • GPT/Gemini/Anthropic: 가중치 비공개 → 온프레미스 불가, 클라우드 API만 가능

배포 방식

  • 고객사 데이터센터/프라이빗 클라우드에 설치
  • 서빙: vLLM / TGI / llama.cpp 등
  • 보안: Air-gapped, 내부망 인증, 로그 외부 반출 금지

”OpenAI급 성능을 쓰고 싶다” vs 온프레미스

  • OpenAI/Gemini/Anthropic API클라우드형 B2B (온프레미스 아님)
  • 데이터는 외부 벤더 서버로 전송됨 (no-training 옵션은 가능)
  • 온프레미스는 **로컬 추론 가능한 모델(오픈웨이트)**을 써야 함

벤더 의존성과 AI 하네스

  • 벤더 파인튜닝 = 벤더 종속 → 스타트업은 최소화
  • 대신 AI 하네스로 가치 제공:
    • RAG(도메인 지식), 툴, 정책, 가드레일, 워크플로우
    • LLM은 교체 가능한 모듈로 설계 (어댑터 패턴)

스타트업의 B2B 가치 제공 (Phase 분리)

Phase 1: AI Harness (초기, 벤더 LLM 기반)

  • RAG + 하네스로 “일반 AI보다 더 나은 가치” 제공
  • 벤더 LLM API 사용, 도메인 특화 답변, 업무 자동화

Phase 2: Open-weight Training (추후, 온프레미스 전환)

  • 축적한 데이터로 오픈웨이트 모델 학습
  • 온프레미스 배포로 벤더 의존성 탈피

수집 데이터의 용도

  • 1) RAG 품질 개선 → Phase 1 (하네스)
  • 2) 평가/회귀 테스트 → Phase 1 (하네스)
  • 3) 모델 교체 시 재학습 → Phase 2 (오픈웨이트)

데이터 파이프라인 시퀀스

sequenceDiagram
  autonumber
  participant User as 👤 User
  participant Product as 🧩 Product
  box rgb(220, 240, 255) Startup Platform
    participant VectorDB as 📚 Vector DB
    participant Gateway as 🔐 API Gateway
    participant DataPipe as 🛠️ Data Pipeline
    participant Store as 🗂️ Data Store
    participant Labeling as ✍️ Labeling QA
    participant Train as 🧠 Training
    participant Deploy as 🚀 Deployment
  end
  box rgb(255, 240, 220) External LLM Vendors
    participant LLM as 🤖 LLM API
  end
  box rgb(220, 255, 220) Customer On-Prem
    participant OnPrem as 🏢 On-Prem Runtime
  end
  Note over User,Store: Phase 1 (AI Harness)
  User->>Product: 질의 입력
  Product->>VectorDB: RAG 검색
  VectorDB-->>Product: 관련 문서 컨텍스트
  Product->>Gateway: 질의 + 컨텍스트 전달
  Gateway->>LLM: 프롬프트 전송
  LLM-->>Gateway: 응답 반환
  Gateway-->>Product: 응답 전달
  Product-->>User: 답변 표시
  Product->>DataPipe: 로그 수집 (opt-in)
  DataPipe->>DataPipe: PII 마스킹/정제
  DataPipe->>Store: 모델-중립 포맷 저장
  Store->>VectorDB: RAG 재인덱싱 (주기적)
  Note over Store,OnPrem: Phase 2 (Open-weight Training)
  Store->>Labeling: 라벨링 큐 생성
  Labeling-->>Train: 학습용 데이터셋
  Train-->>Deploy: 오픈웨이트 모델 패키지
  Deploy->>OnPrem: 온프레미스 배포

단계별 요약

Phase 1 (AI Harness)

  1. 사용자 질의: 사용자가 제품에 질의 입력
  2. RAG 검색: VectorDB에서 도메인 문서 컨텍스트 검색
  3. 벤더 LLM 호출: 질의 + 컨텍스트를 벤더 LLM API로 전송
  4. 응답 전달: 벤더 LLM 응답을 사용자에게 반환
  5. 로그 수집: opt-in 기준으로 로그/피드백 수집
  6. 데이터 정제: PII 마스킹 후 모델-중립 포맷으로 저장
  7. RAG 재인덱싱: 축적된 데이터로 VectorDB 주기적 업데이트
    • 실시간 반영 아님: 누적 후 주기적으로 반영

Phase 2 (Open-weight Training)

  1. 라벨링: 축적 데이터를 오픈웨이트 학습용 데이터셋으로 준비
  2. 학습: 오픈웨이트 모델(Llama/Mistral 등)에 파인튜닝
  3. 온프레미스 배포: 학습된 모델을 고객사 내부에 배포

평가 체계 자동화 (선택사항)

스타트업이 성장하면서 품질 관리/모델 교체 대비로 도입할 수 있음. 대표적인 자동 평가 프레임워크


요약

  • 온프레미스 = 고객 인프라 내부 실행
  • GPT/Gemini/Anthropic은 클라우드 API만 가능 (온프레미스 불가)
  • Phase 1: 벤더 LLM + RAG + 하네스로 B2B 가치 제공 (초기)
  • Phase 2: 오픈웨이트 모델 학습 + 온프레미스 전환 (추후)
  • 데이터는 모델-중립 포맷으로 축적 → Phase 1에서도, Phase 2에서도 재사용