모델 - Supertone API Documentation

이 문서는 영어 원문을 기반으로 자동 번역되었습니다. 표현이 어색하거나 모호한 부분이 있을 수 있으니, 정확한 내용은 영어 원문을 함께 확인해 주세요.

Supertone은 품질, 지연시간, 지원 언어, 설정 가능성 측면에서 서로 다른 트레이드오프를 가진 다섯 가지 TTS 모델을 제공합니다. 이 페이지를 참고해 제품에 맞는 모델을 선택하세요.

어떤 모델을 선택할까

If you need…	Pick
최고 수준의 종합 품질, 23개 언어 — 내레이션, 오디오북	`sona_speech_2`
속도와 품질의 균형 — 품질 기준이 있는 인터랙티브 앱	`sona_speech_2_flash`
가장 빠른 응답과 높은 발화 안정성, 31개 언어 — 보이스 에이전트, 실시간 인터랙션	`supertonic_api_3`
청크 스트리밍 또는 전체 보이스 설정을 모두 사용	`sona_speech_1`

모델은 요청마다 model 필드로 선택합니다. 생략하면 기본값은 sona_speech_1입니다.

모델 요약

Model	Positioning	Languages	Voice settings	Notable features
`sona_speech_2`	최고 품질	23	`subharmonic_amplitude_control`을 제외한 전체	음소(phoneme), 노말라이즈드 텍스트
`sona_speech_2_flash`	속도와 품질의 균형	23	`pitch_shift`, `pitch_variance`, `speed`, `duration`	음소(phoneme), 노말라이즈드 텍스트
`supertonic_api_3`	초경량, 최저 지연시간, 향상된 발화 안정성	31	`speed`만 지원	—
`supertonic_api_1`	레거시 supertonic 모델	5	`speed`만 지원	—
`sona_speech_1`	레거시 플래그십	3	전체 보이스 설정	스트리밍, 음소(phoneme)

모델 상세 설명

sona_speech_2

플랫폼에서 가장 자연스럽고 품질이 높은 보이스로, 넓은 다국어 커버리지를 제공합니다. 내레이션, 오디오북, 캐릭터 대사, 프로덕션 품질의 마케팅 오디오 등 지연시간보다 품질이 더 중요한 모든 영역에 권장합니다.

언어(23): en, ko, ja, bg, cs, da, el, es, et, fi, hu, it, nl, pl, pt, ro, ar, de, fr, hi, id, ru, vi
보이스 설정: subharmonic_amplitude_control을 제외한 모든 파라미터
추가 기능: include_phonemes(립싱크용 타임스탬프), normalized_text(발음 제어)
스트리밍: 지원하지 않음

sona_speech_2_flash

sona_speech_2의 경량 버전으로, 같은 다국어 커버리지를 유지하면서 지연시간을 낮추도록 최적화되어 있습니다. 응답 시간을 신경 쓰면서도 수용 가능한 품질을 원할 때 사용하세요 — 예를 들어 인터랙티브 에이전트나 대규모 배치 생성에 적합합니다.

언어(23): sona_speech_2와 동일
보이스 설정: pitch_shift, pitch_variance, speed, duration
추가 기능: include_phonemes, normalized_text
스트리밍: 지원하지 않음

supertonic_api_3

supertonic_api_1의 차세대 후속 모델로, 발화 안정성이 크게 향상되었습니다. 오픈 웨이트로 공개된 Supertonic 3와는 다르게 학습된 이 API 변형은 supertonic_api_1의 초저지연 특성을 그대로 유지하면서 훨씬 더 안정적인 발음과 낮은 오독률을 제공합니다. 보이스 에이전트, 챗봇, 첫 오디오까지의 시간이 최우선인 모든 실시간 경험을 위한 가장 권장되는 기본 모델입니다.

언어(31): en, ko, ja, ar, bg, cs, da, de, el, es, et, fi, fr, hi, hr, hu, id, it, lt, lv, nl, pl, pt, ro, ru, sk, sl, sv, tr, uk, vi
보이스 설정: speed만 지원 — 다른 설정은 조용히 무시됩니다
추가 기능: —
스트리밍: 지원하지 않음(호출당 지연시간이 매우 낮아 스트리밍이 대부분 불필요합니다)

supertonic_api_1

레거시 supertonic 모델입니다. 동일한 지연시간 특성에서 더 넓은 언어 커버리지와 훨씬 향상된 발화 안정성을 제공하는 supertonic_api_3로 대체되었습니다. 이미 이 모델에 고정된 기존 연동이 있는 경우에만 supertonic_api_1을 선택하세요. 신규 프로젝트는 supertonic_api_3를 사용해야 합니다.

언어(5): en, ko, ja, es, pt
보이스 설정: speed만 지원 — 다른 설정은 조용히 무시됩니다
추가 기능: —
스트리밍: 지원하지 않음

sona_speech_1

레거시 플래그십 모델입니다. 전체 보이스 설정을 지원하며, 현재 청크 스트리밍(stream_speech)을 지원하는 유일한 모델입니다. 대부분의 사용 사례에서는 더 새로운 모델이 더 나은 출발점이지만, stream_speech 출력이나 모든 파인 튜닝 파라미터(similarity, text_guidance, subharmonic_amplitude_control)가 반드시 필요한 경우 sona_speech_1을 선택하세요.

언어(3): en, ko, ja
보이스 설정: 모든 파라미터
추가 기능: include_phonemes
스트리밍: 지원

지원 언어

language는 모든 TTS 요청에 필수이며, 모델 및 선택한 보이스 모두가 지원하는 값이어야 합니다(보이스의 language 배열을 확인하세요).

Code	Language	`sona_speech_2`	`sona_speech_2_flash`	`supertonic_api_3`	`supertonic_api_1`	`sona_speech_1`
`en`	English	✅	✅	✅	✅	✅
`ko`	Korean	✅	✅	✅	✅	✅
`ja`	Japanese	✅	✅	✅	✅	✅
`es`	Spanish	✅	✅	✅	✅	—
`pt`	Portuguese	✅	✅	✅	✅	—
`de`	German	✅	✅	✅	—	—
`fr`	French	✅	✅	✅	—	—
`it`	Italian	✅	✅	✅	—	—
`nl`	Dutch	✅	✅	✅	—	—
`pl`	Polish	✅	✅	✅	—	—
`ro`	Romanian	✅	✅	✅	—	—
`cs`	Czech	✅	✅	✅	—	—
`da`	Danish	✅	✅	✅	—	—
`el`	Greek	✅	✅	✅	—	—
`et`	Estonian	✅	✅	✅	—	—
`fi`	Finnish	✅	✅	✅	—	—
`hu`	Hungarian	✅	✅	✅	—	—
`bg`	Bulgarian	✅	✅	✅	—	—
`ar`	Arabic	✅	✅	✅	—	—
`hi`	Hindi	✅	✅	✅	—	—
`id`	Indonesian	✅	✅	✅	—	—
`ru`	Russian	✅	✅	✅	—	—
`vi`	Vietnamese	✅	✅	✅	—	—
`hr`	Croatian	—	—	✅	—	—
`lt`	Lithuanian	—	—	✅	—	—
`lv`	Latvian	—	—	✅	—	—
`sk`	Slovak	—	—	✅	—	—
`sl`	Slovenian	—	—	✅	—	—
`sv`	Swedish	—	—	✅	—	—
`tr`	Turkish	—	—	✅	—	—
`uk`	Ukrainian	—	—	✅	—	—

언어는 소문자 ISO 코드 문자열로 전달하세요.

response = client.text_to_speech.create_speech(
    voice_id=VOICE_ID,
    text="Hello!",
    language="en",
    model="sona_speech_2",
)

다국어 콘텐츠의 경우, 하나의 text에 여러 언어를 섞기보다 언어별로 요청을 분리해 호출하세요. 한자, 숫자, 단위, 기호가 포함된 일본어 입력은 노말라이즈드 텍스트를 참고하세요.

기능 지원 매트릭스

Feature	`sona_speech_2`	`sona_speech_2_flash`	`supertonic_api_3`	`supertonic_api_1`	`sona_speech_1`
스트리밍(`stream_speech`)	—	—	—	—	✅
`include_phonemes`	✅	✅	—	—	✅
`normalized_text`	✅	✅	—	—	—
`pitch_shift`, `pitch_variance`, `speed`, `duration`	✅	✅	`speed`만	`speed`만	✅
`similarity`, `text_guidance`	✅	—	—	—	✅
`subharmonic_amplitude_control`	—	—	—	—	✅

보이스 설정

모든 보이스 설정 파라미터와 지원 모델에 대한 레퍼런스입니다.

보이스

언어와 스타일 요구 사항에 맞는 보이스 ID를 찾으세요.

온디바이스 TTS

API 호출이나 네트워크 왕복 없이 CPU에서 로컬로 TTS를 실행하고 싶으신가요? Supertone은 같은 Supertonic 3 계열의 오픈 웨이트 모델인 Supertonic 3(99M 파라미터, ONNX Runtime, OpenRAIL-M 라이선스)도 공개하고 있습니다.

Supertonic 3(오픈 웨이트)는 supertonic_api_3와 다른 모델입니다. 같은 계열 이름과 혈통을 공유하지만 학습 방식이 다르고 생성되는 오디오도 다릅니다. 본 API가 노출하는 것은 API 모델(supertonic_api_3)이며, 오픈 웨이트 모델은 별도의 온디바이스 릴리스입니다. 보이스 품질, 지원 보이스, 동작이 동일하다고 가정하지 마세요.

Supertonic 3 — 온디바이스 TTS ↗

ONNX Runtime을 통해 CPU에서 로컬로 실행되는 99M 파라미터 오픈 웨이트 TTS — 31개 언어, GPU 불필요, 클라우드 불필요, API 불필요. supertonic_api_3와는 별개의 모델이며, 가중치, 샘플, SDK(Python, Node.js, Web, iOS, Android, C++)는 프로젝트 사이트에서 확인하세요.

​어떤 모델을 선택할까

​모델 요약

​모델 상세 설명

​sona_speech_2

​sona_speech_2_flash

​supertonic_api_3

​supertonic_api_1

​sona_speech_1

​지원 언어

​기능 지원 매트릭스

​관련 문서

보이스 설정

보이스

​온디바이스 TTS

Supertonic 3 — 온디바이스 TTS ↗

어떤 모델을 선택할까

모델 요약

모델 상세 설명

sona_speech_2

sona_speech_2_flash

supertonic_api_3

supertonic_api_1

sona_speech_1

지원 언어

기능 지원 매트릭스

관련 문서

온디바이스 TTS