Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.supertoneapi.com/llms.txt

Use this file to discover all available pages before exploring further.

이 문서는 영어 원문을 기반으로 자동 번역되었습니다. 표현이 어색하거나 모호한 부분이 있을 수 있으니, 정확한 내용은 영어 원문을 함께 확인해 주세요.
Supertone은 품질, 지연시간, 지원 언어, 설정 가능성 측면에서 서로 다른 트레이드오프를 가진 다섯 가지 TTS 모델을 제공합니다. 이 페이지를 참고해 제품에 맞는 모델을 선택하세요.

어떤 모델을 선택할까

If you need…Pick
최고 수준의 종합 품질, 23개 언어 — 내레이션, 오디오북sona_speech_2
속도와 품질의 균형 — 품질 기준이 있는 인터랙티브 앱sona_speech_2_flash
가장 빠른 응답과 높은 발화 안정성, 31개 언어 — 보이스 에이전트, 실시간 인터랙션supertonic_api_3
청크 스트리밍 또는 전체 보이스 설정을 모두 사용sona_speech_1
모델은 요청마다 model 필드로 선택합니다. 생략하면 기본값은 sona_speech_1입니다.

모델 요약

ModelPositioningLanguagesVoice settingsNotable features
sona_speech_2최고 품질23subharmonic_amplitude_control을 제외한 전체음소(phoneme), 노말라이즈드 텍스트
sona_speech_2_flash속도와 품질의 균형23pitch_shift, pitch_variance, speed, duration음소(phoneme), 노말라이즈드 텍스트
supertonic_api_3초경량, 최저 지연시간, 향상된 발화 안정성31speed만 지원
supertonic_api_1레거시 supertonic 모델5speed만 지원
sona_speech_1레거시 플래그십3전체 보이스 설정스트리밍, 음소(phoneme)

모델 상세 설명

sona_speech_2

플랫폼에서 가장 자연스럽고 품질이 높은 보이스로, 넓은 다국어 커버리지를 제공합니다. 내레이션, 오디오북, 캐릭터 대사, 프로덕션 품질의 마케팅 오디오 등 지연시간보다 품질이 더 중요한 모든 영역에 권장합니다.
  • 언어(23): en, ko, ja, bg, cs, da, el, es, et, fi, hu, it, nl, pl, pt, ro, ar, de, fr, hi, id, ru, vi
  • 보이스 설정: subharmonic_amplitude_control을 제외한 모든 파라미터
  • 추가 기능: include_phonemes(립싱크용 타임스탬프), normalized_text(발음 제어)
  • 스트리밍: 지원하지 않음

sona_speech_2_flash

sona_speech_2의 경량 버전으로, 같은 다국어 커버리지를 유지하면서 지연시간을 낮추도록 최적화되어 있습니다. 응답 시간을 신경 쓰면서도 수용 가능한 품질을 원할 때 사용하세요 — 예를 들어 인터랙티브 에이전트나 대규모 배치 생성에 적합합니다.
  • 언어(23): sona_speech_2와 동일
  • 보이스 설정: pitch_shift, pitch_variance, speed, duration
  • 추가 기능: include_phonemes, normalized_text
  • 스트리밍: 지원하지 않음

supertonic_api_3

supertonic_api_1의 차세대 후속 모델로, 발화 안정성이 크게 향상되었습니다. 오픈 웨이트로 공개된 Supertonic 3와는 다르게 학습된 이 API 변형은 supertonic_api_1의 초저지연 특성을 그대로 유지하면서 훨씬 더 안정적인 발음과 낮은 오독률을 제공합니다. 보이스 에이전트, 챗봇, 첫 오디오까지의 시간이 최우선인 모든 실시간 경험을 위한 가장 권장되는 기본 모델입니다.
  • 언어(31): en, ko, ja, ar, bg, cs, da, de, el, es, et, fi, fr, hi, hr, hu, id, it, lt, lv, nl, pl, pt, ro, ru, sk, sl, sv, tr, uk, vi
  • 보이스 설정: speed만 지원 — 다른 설정은 조용히 무시됩니다
  • 추가 기능:
  • 스트리밍: 지원하지 않음(호출당 지연시간이 매우 낮아 스트리밍이 대부분 불필요합니다)

supertonic_api_1

레거시 supertonic 모델입니다. 동일한 지연시간 특성에서 더 넓은 언어 커버리지와 훨씬 향상된 발화 안정성을 제공하는 supertonic_api_3로 대체되었습니다. 이미 이 모델에 고정된 기존 연동이 있는 경우에만 supertonic_api_1을 선택하세요. 신규 프로젝트는 supertonic_api_3를 사용해야 합니다.
  • 언어(5): en, ko, ja, es, pt
  • 보이스 설정: speed만 지원 — 다른 설정은 조용히 무시됩니다
  • 추가 기능:
  • 스트리밍: 지원하지 않음

sona_speech_1

레거시 플래그십 모델입니다. 전체 보이스 설정을 지원하며, 현재 청크 스트리밍(stream_speech)을 지원하는 유일한 모델입니다. 대부분의 사용 사례에서는 더 새로운 모델이 더 나은 출발점이지만, stream_speech 출력이나 모든 파인 튜닝 파라미터(similarity, text_guidance, subharmonic_amplitude_control)가 반드시 필요한 경우 sona_speech_1을 선택하세요.
  • 언어(3): en, ko, ja
  • 보이스 설정: 모든 파라미터
  • 추가 기능: include_phonemes
  • 스트리밍: 지원

지원 언어

language는 모든 TTS 요청에 필수이며, 모델 선택한 보이스 모두가 지원하는 값이어야 합니다(보이스의 language 배열을 확인하세요).
CodeLanguagesona_speech_2sona_speech_2_flashsupertonic_api_3supertonic_api_1sona_speech_1
enEnglish
koKorean
jaJapanese
esSpanish
ptPortuguese
deGerman
frFrench
itItalian
nlDutch
plPolish
roRomanian
csCzech
daDanish
elGreek
etEstonian
fiFinnish
huHungarian
bgBulgarian
arArabic
hiHindi
idIndonesian
ruRussian
viVietnamese
hrCroatian
ltLithuanian
lvLatvian
skSlovak
slSlovenian
svSwedish
trTurkish
ukUkrainian
언어는 소문자 ISO 코드 문자열로 전달하세요.
response = client.text_to_speech.create_speech(
    voice_id=VOICE_ID,
    text="Hello!",
    language="en",
    model="sona_speech_2",
)
다국어 콘텐츠의 경우, 하나의 text에 여러 언어를 섞기보다 언어별로 요청을 분리해 호출하세요. 한자, 숫자, 단위, 기호가 포함된 일본어 입력은 노말라이즈드 텍스트를 참고하세요.

기능 지원 매트릭스

Featuresona_speech_2sona_speech_2_flashsupertonic_api_3supertonic_api_1sona_speech_1
스트리밍(stream_speech)
include_phonemes
normalized_text
pitch_shift, pitch_variance, speed, durationspeedspeed
similarity, text_guidance
subharmonic_amplitude_control

관련 문서

보이스 설정

모든 보이스 설정 파라미터와 지원 모델에 대한 레퍼런스입니다.

보이스

언어와 스타일 요구 사항에 맞는 보이스 ID를 찾으세요.

온디바이스 TTS

API 호출이나 네트워크 왕복 없이 CPU에서 로컬로 TTS를 실행하고 싶으신가요? Supertone은 같은 Supertonic 3 계열의 오픈 웨이트 모델인 Supertonic 3(99M 파라미터, ONNX Runtime, OpenRAIL-M 라이선스)도 공개하고 있습니다.
Supertonic 3(오픈 웨이트)는 supertonic_api_3와 다른 모델입니다. 같은 계열 이름과 혈통을 공유하지만 학습 방식이 다르고 생성되는 오디오도 다릅니다. 본 API가 노출하는 것은 API 모델(supertonic_api_3)이며, 오픈 웨이트 모델은 별도의 온디바이스 릴리스입니다. 보이스 품질, 지원 보이스, 동작이 동일하다고 가정하지 마세요.

Supertonic 3 — 온디바이스 TTS ↗

ONNX Runtime을 통해 CPU에서 로컬로 실행되는 99M 파라미터 오픈 웨이트 TTS — 31개 언어, GPU 불필요, 클라우드 불필요, API 불필요. supertonic_api_3와는 별개의 모델이며, 가중치, 샘플, SDK(Python, Node.js, Web, iOS, Android, C++)는 프로젝트 사이트에서 확인하세요.