Documentation Index
Fetch the complete documentation index at: https://docs.supertoneapi.com/llms.txt
Use this file to discover all available pages before exploring further.
이 문서는 영어 원문을 기반으로 자동 번역되었습니다. 표현이 어색하거나 모호한 부분이 있을 수 있으니, 정확한 내용은 영어 원문을 함께 확인해 주세요.
어떤 모델을 선택할까
| If you need… | Pick |
|---|---|
| 최고 수준의 종합 품질, 23개 언어 — 내레이션, 오디오북 | sona_speech_2 |
| 속도와 품질의 균형 — 품질 기준이 있는 인터랙티브 앱 | sona_speech_2_flash |
| 가장 빠른 응답과 높은 발화 안정성, 31개 언어 — 보이스 에이전트, 실시간 인터랙션 | supertonic_api_3 |
| 청크 스트리밍 또는 전체 보이스 설정을 모두 사용 | sona_speech_1 |
model 필드로 선택합니다. 생략하면 기본값은 sona_speech_1입니다.
모델 요약
| Model | Positioning | Languages | Voice settings | Notable features |
|---|---|---|---|---|
sona_speech_2 | 최고 품질 | 23 | subharmonic_amplitude_control을 제외한 전체 | 음소(phoneme), 노말라이즈드 텍스트 |
sona_speech_2_flash | 속도와 품질의 균형 | 23 | pitch_shift, pitch_variance, speed, duration | 음소(phoneme), 노말라이즈드 텍스트 |
supertonic_api_3 | 초경량, 최저 지연시간, 향상된 발화 안정성 | 31 | speed만 지원 | — |
supertonic_api_1 | 레거시 supertonic 모델 | 5 | speed만 지원 | — |
sona_speech_1 | 레거시 플래그십 | 3 | 전체 보이스 설정 | 스트리밍, 음소(phoneme) |
모델 상세 설명
sona_speech_2
플랫폼에서 가장 자연스럽고 품질이 높은 보이스로, 넓은 다국어 커버리지를 제공합니다. 내레이션, 오디오북, 캐릭터 대사, 프로덕션 품질의 마케팅 오디오 등 지연시간보다 품질이 더 중요한 모든 영역에 권장합니다.- 언어(23):
en,ko,ja,bg,cs,da,el,es,et,fi,hu,it,nl,pl,pt,ro,ar,de,fr,hi,id,ru,vi - 보이스 설정:
subharmonic_amplitude_control을 제외한 모든 파라미터 - 추가 기능:
include_phonemes(립싱크용 타임스탬프),normalized_text(발음 제어) - 스트리밍: 지원하지 않음
sona_speech_2_flash
sona_speech_2의 경량 버전으로, 같은 다국어 커버리지를 유지하면서 지연시간을 낮추도록 최적화되어 있습니다. 응답 시간을 신경 쓰면서도 수용 가능한 품질을 원할 때 사용하세요 — 예를 들어 인터랙티브 에이전트나 대규모 배치 생성에 적합합니다.
- 언어(23):
sona_speech_2와 동일 - 보이스 설정:
pitch_shift,pitch_variance,speed,duration - 추가 기능:
include_phonemes,normalized_text - 스트리밍: 지원하지 않음
supertonic_api_3
supertonic_api_1의 차세대 후속 모델로, 발화 안정성이 크게 향상되었습니다. 오픈 웨이트로 공개된 Supertonic 3와는 다르게 학습된 이 API 변형은 supertonic_api_1의 초저지연 특성을 그대로 유지하면서 훨씬 더 안정적인 발음과 낮은 오독률을 제공합니다. 보이스 에이전트, 챗봇, 첫 오디오까지의 시간이 최우선인 모든 실시간 경험을 위한 가장 권장되는 기본 모델입니다.
- 언어(31):
en,ko,ja,ar,bg,cs,da,de,el,es,et,fi,fr,hi,hr,hu,id,it,lt,lv,nl,pl,pt,ro,ru,sk,sl,sv,tr,uk,vi - 보이스 설정:
speed만 지원 — 다른 설정은 조용히 무시됩니다 - 추가 기능: —
- 스트리밍: 지원하지 않음(호출당 지연시간이 매우 낮아 스트리밍이 대부분 불필요합니다)
supertonic_api_1
레거시 supertonic 모델입니다. 동일한 지연시간 특성에서 더 넓은 언어 커버리지와 훨씬 향상된 발화 안정성을 제공하는supertonic_api_3로 대체되었습니다. 이미 이 모델에 고정된 기존 연동이 있는 경우에만 supertonic_api_1을 선택하세요. 신규 프로젝트는 supertonic_api_3를 사용해야 합니다.
- 언어(5):
en,ko,ja,es,pt - 보이스 설정:
speed만 지원 — 다른 설정은 조용히 무시됩니다 - 추가 기능: —
- 스트리밍: 지원하지 않음
sona_speech_1
레거시 플래그십 모델입니다. 전체 보이스 설정을 지원하며, 현재 청크 스트리밍(stream_speech)을 지원하는 유일한 모델입니다. 대부분의 사용 사례에서는 더 새로운 모델이 더 나은 출발점이지만, stream_speech 출력이나 모든 파인 튜닝 파라미터(similarity, text_guidance, subharmonic_amplitude_control)가 반드시 필요한 경우 sona_speech_1을 선택하세요.
- 언어(3):
en,ko,ja - 보이스 설정: 모든 파라미터
- 추가 기능:
include_phonemes - 스트리밍: 지원
지원 언어
language는 모든 TTS 요청에 필수이며, 모델 및 선택한 보이스 모두가 지원하는 값이어야 합니다(보이스의 language 배열을 확인하세요).
| Code | Language | sona_speech_2 | sona_speech_2_flash | supertonic_api_3 | supertonic_api_1 | sona_speech_1 |
|---|---|---|---|---|---|---|
en | English | ✅ | ✅ | ✅ | ✅ | ✅ |
ko | Korean | ✅ | ✅ | ✅ | ✅ | ✅ |
ja | Japanese | ✅ | ✅ | ✅ | ✅ | ✅ |
es | Spanish | ✅ | ✅ | ✅ | ✅ | — |
pt | Portuguese | ✅ | ✅ | ✅ | ✅ | — |
de | German | ✅ | ✅ | ✅ | — | — |
fr | French | ✅ | ✅ | ✅ | — | — |
it | Italian | ✅ | ✅ | ✅ | — | — |
nl | Dutch | ✅ | ✅ | ✅ | — | — |
pl | Polish | ✅ | ✅ | ✅ | — | — |
ro | Romanian | ✅ | ✅ | ✅ | — | — |
cs | Czech | ✅ | ✅ | ✅ | — | — |
da | Danish | ✅ | ✅ | ✅ | — | — |
el | Greek | ✅ | ✅ | ✅ | — | — |
et | Estonian | ✅ | ✅ | ✅ | — | — |
fi | Finnish | ✅ | ✅ | ✅ | — | — |
hu | Hungarian | ✅ | ✅ | ✅ | — | — |
bg | Bulgarian | ✅ | ✅ | ✅ | — | — |
ar | Arabic | ✅ | ✅ | ✅ | — | — |
hi | Hindi | ✅ | ✅ | ✅ | — | — |
id | Indonesian | ✅ | ✅ | ✅ | — | — |
ru | Russian | ✅ | ✅ | ✅ | — | — |
vi | Vietnamese | ✅ | ✅ | ✅ | — | — |
hr | Croatian | — | — | ✅ | — | — |
lt | Lithuanian | — | — | ✅ | — | — |
lv | Latvian | — | — | ✅ | — | — |
sk | Slovak | — | — | ✅ | — | — |
sl | Slovenian | — | — | ✅ | — | — |
sv | Swedish | — | — | ✅ | — | — |
tr | Turkish | — | — | ✅ | — | — |
uk | Ukrainian | — | — | ✅ | — | — |
text에 여러 언어를 섞기보다 언어별로 요청을 분리해 호출하세요. 한자, 숫자, 단위, 기호가 포함된 일본어 입력은 노말라이즈드 텍스트를 참고하세요.
기능 지원 매트릭스
| Feature | sona_speech_2 | sona_speech_2_flash | supertonic_api_3 | supertonic_api_1 | sona_speech_1 |
|---|---|---|---|---|---|
스트리밍(stream_speech) | — | — | — | — | ✅ |
include_phonemes | ✅ | ✅ | — | — | ✅ |
normalized_text | ✅ | ✅ | — | — | — |
pitch_shift, pitch_variance, speed, duration | ✅ | ✅ | speed만 | speed만 | ✅ |
similarity, text_guidance | ✅ | — | — | — | ✅ |
subharmonic_amplitude_control | — | — | — | — | ✅ |
관련 문서
보이스 설정
모든 보이스 설정 파라미터와 지원 모델에 대한 레퍼런스입니다.
보이스
언어와 스타일 요구 사항에 맞는 보이스 ID를 찾으세요.
온디바이스 TTS
API 호출이나 네트워크 왕복 없이 CPU에서 로컬로 TTS를 실행하고 싶으신가요? Supertone은 같은 Supertonic 3 계열의 오픈 웨이트 모델인 Supertonic 3(99M 파라미터, ONNX Runtime, OpenRAIL-M 라이선스)도 공개하고 있습니다.Supertonic 3 — 온디바이스 TTS ↗
ONNX Runtime을 통해 CPU에서 로컬로 실행되는 99M 파라미터 오픈 웨이트 TTS — 31개 언어, GPU 불필요, 클라우드 불필요, API 불필요.
supertonic_api_3와는 별개의 모델이며, 가중치, 샘플, SDK(Python, Node.js, Web, iOS, Android, C++)는 프로젝트 사이트에서 확인하세요.