Supertonic 3

Supertonic은 ONNX Runtime 기반의 온디바이스(on-device) 멀티링궐 TTS 시스템
클라우드·API 호출 없이 텍스트에서 음성을 합성하는 로컬 음성 합성 엔진
Supertonic 3는 최신 버전으로 ~99M 파라미터·31개 언어를 지원하는 경량 모델
Flow Matching 기반 아키텍처로 작은 크기에도 스튜디오급(44.1kHz) 음질을 내는 구조
GPU 없이 CPU만으로 동작하는 엣지 배포용 설계

해당 개념이 필요한 이유

기존 오픈 TTS는 0.7B~2B 파라미터급으로 무겁고 GPU·VRAM을 많이 요구
클라우드 TTS API는 비용·네트워크 지연·프라이버시 노출이라는 부담
온디바이스로 돌리려면 모델 크기·메모리·속도를 모두 줄여야 하는 제약

AS-IS (기존 대형 TTS / 클라우드 TTS)

sequenceDiagram
    autonumber
    participant App as 앱
    participant Cloud as 클라우드 TTS API
    participant GPU as GPU 서버(0.7B~2B)
    App->>Cloud: 텍스트 전송 (네트워크 필요)
    Cloud->>GPU: 대형 모델 추론 (VRAM 多)
    GPU-->>Cloud: 합성 음성
    Cloud-->>App: 음성 반환 (지연·비용·프라이버시 노출)

TO-BE (Supertonic 3 온디바이스)

sequenceDiagram
    autonumber
    participant App as 앱
    participant TTS as Supertonic 3 (~99M, ONNX)
    participant CPU as 로컬 CPU
    App->>TTS: 텍스트 입력
    TTS->>CPU: 경량 모델 추론 (GPU 불필요)
    CPU-->>TTS: latent → 44.1kHz WAV
    TTS-->>App: 음성 반환 (오프라인·저지연·프라이버시 보존)

아키텍처 3단 구성

Flow Matching 기반으로 텍스트를 음성으로 바꾸는 세 모듈로 구성된다. 실제로는 단일 파일이 아니라 여러 개의 .onnx 모듈이 단계별로 ONNX Runtime 위에서 실행되며, 그 앞단에 텍스트 전처리와 voice style 임베딩이 결합된다.

Speech Autoencoder — 오디오를 잠재(latent) 표현으로 인코딩·디코딩
Text-to-Latent 모듈 — Flow Matching으로 텍스트를 음향 잠재 표현으로 변환
Vocoder — 잠재 코드로부터 44.1kHz 오디오를 복원

flowchart LR
    T["텍스트 입력<br/>(+ 표현 태그)"] --> P[텍스트 전처리]
    V["voice style<br/>임베딩 (M1 등)"] --> M2
    P --> M2["text-to-latent.onnx<br/>(flow matching, total_steps)"]
    M2 --> M3["vocoder.onnx"]
    M3 --> W["44.1kHz WAV 음성"]

    subgraph RT["ONNX Runtime (CPU/브라우저)"]
        M2
        M3
    end

from supertonic import TTS의 TTS 객체가 이 ONNX 모듈들을 ONNX Runtime으로 구동하는 래퍼(wrapper)다. 사용자는 ONNX 파일을 직접 다루지 않고 tts.synthesize(text, ...) 한 줄로 TTS를 쓴다.

CPU만 쓰는가? — “GPU 불필요(CPU로 충분)”

Supertonic 3는 GPU 없이 CPU만으로 동작하도록 설계된 것이 핵심이다. 실제로 CPU 추론이 A100 GPU에서 측정한 더 큰 모델들보다도 빠른 지연시간을 내고 메모리도 훨씬 적게 쓴다. 다만 “CPU 전용”은 아니다. 밑단이 ONNX Runtime이므로 GPU가 있으면 CUDA 같은 Execution Provider나 브라우저의 WebGPU로 GPU 가속도 선택적으로 활용할 수 있다. 즉 “GPU가 필수가 아니다”가 정확한 표현이다.

Supertonic이 기반한 논문 3개

논문	역할
SupertonicTTS	전체 아키텍처와 효율적 설계
Length-Aware RoPE	cross-attention에서 텍스트-음성 정렬(alignment) 개선
Self-Purifying Flow Matching	노이즈 있는 라벨로 학습할 때 안정화

버전 비교

버전	상태	파라미터	언어	핵심 특징
Supertonic 3	최신	~99M	31	표현 태그·멀티링궐
Supertonic 2	안정	~66M	5	기반 릴리스
Supertonic 1	레거시	~66M	1 (영어)	최초 버전

주요 기능

표현 태그(Expression Tags): <laugh>, <breath>, <sigh> 등 10종을 인라인으로 삽입해 자연스러움 추가
Zero-shot 커스텀 보이스: Voice Builder로 학습 없이 새 목소리 생성
스튜디오 음질: 44.1kHz 16-bit WAV 직접 출력
광범위한 플랫폼 SDK: Python, Node.js, Browser(WebGPU/WASM), Java, C++, C#, Go, Swift, iOS, Rust, Flutter

사용법

from supertonic import TTS
 
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")
wav, duration = tts.synthesize(
    text="Supertonic is lightning fast TTS.",
    lang="en",
    voice_style=style,
    total_steps=8,  # 품질: 5-12 (= flow matching ODE 스텝 수)
    speed=1.05      # 속도: 0.7-2.0
)
tts.save_audio(wav, "output.wav")

Explorer

날짜별 보기

2026년 (148)

2025년 (8)

Supertonic 3

해당 개념이 필요한 이유

AS-IS (기존 대형 TTS / 클라우드 TTS)

TO-BE (Supertonic 3 온디바이스)

아키텍처 3단 구성

CPU만 쓰는가? — “GPU 불필요(CPU로 충분)”

Supertonic이 기반한 논문 3개

버전 비교

주요 기능

사용법

참고 문서

Graph View

Table of Contents

Backlinks