> ## Documentation Index
> Fetch the complete documentation index at: https://docs.supertoneapi.com/llms.txt
> Use this file to discover all available pages before exploring further.

# 모델

> 품질, 지연시간, 지원 언어, 보이스 설정, 기능 면에서 Supertone TTS 모델을 비교하고 사용 사례에 맞는 모델을 선택하세요.

<Note>
  이 문서는 영어 원문을 기반으로 자동 번역되었습니다. 표현이 어색하거나 모호한 부분이 있을 수 있으니, 정확한 내용은 [영어 원문](/en/docs/core-concepts/models)을 함께 확인해 주세요.
</Note>

Supertone은 품질, 지연시간, 지원 언어, 설정 가능성 측면에서 서로 다른 트레이드오프를 가진 다섯 가지 TTS 모델을 제공합니다. 이 페이지를 참고해 제품에 맞는 모델을 선택하세요.

## 어떤 모델을 선택할까

| If you need…                                         | Pick                                          |
| ---------------------------------------------------- | --------------------------------------------- |
| **최고 수준의 종합 품질**, 23개 언어 — 내레이션, 오디오북                | [`sona_speech_2`](#sona-speech-2)             |
| **속도와 품질의 균형** — 품질 기준이 있는 인터랙티브 앱                   | [`sona_speech_2_flash`](#sona-speech-2-flash) |
| **가장 빠른 응답과 높은 발화 안정성**, 31개 언어 — 보이스 에이전트, 실시간 인터랙션 | [`supertonic_api_3`](#supertonic-api-3)       |
| **청크 스트리밍** 또는 전체 보이스 설정을 모두 사용                      | [`sona_speech_1`](#sona-speech-1)             |

모델은 요청마다 `model` 필드로 선택합니다. 생략하면 기본값은 `sona_speech_1`입니다.

## 모델 요약

| Model                     | Positioning              | Languages | Voice settings                                       | Notable features        |
| ------------------------- | ------------------------ | --------- | ---------------------------------------------------- | ----------------------- |
| **`sona_speech_2`**       | 최고 품질                    | 23        | `subharmonic_amplitude_control`을 제외한 전체              | 음소(phoneme), 노말라이즈드 텍스트 |
| **`sona_speech_2_flash`** | 속도와 품질의 균형               | 23        | `pitch_shift`, `pitch_variance`, `speed`, `duration` | 음소(phoneme), 노말라이즈드 텍스트 |
| **`supertonic_api_3`**    | 초경량, 최저 지연시간, 향상된 발화 안정성 | 31        | `speed`만 지원                                          | —                       |
| **`supertonic_api_1`**    | 레거시 supertonic 모델        | 5         | `speed`만 지원                                          | —                       |
| **`sona_speech_1`**       | 레거시 플래그십                 | 3         | 전체 보이스 설정                                            | 스트리밍, 음소(phoneme)       |

## 모델 상세 설명

### sona\_speech\_2

플랫폼에서 가장 자연스럽고 품질이 높은 보이스로, 넓은 다국어 커버리지를 제공합니다. 내레이션, 오디오북, 캐릭터 대사, 프로덕션 품질의 마케팅 오디오 등 지연시간보다 품질이 더 중요한 모든 영역에 권장합니다.

* **언어(23):** `en`, `ko`, `ja`, `bg`, `cs`, `da`, `el`, `es`, `et`, `fi`, `hu`, `it`, `nl`, `pl`, `pt`, `ro`, `ar`, `de`, `fr`, `hi`, `id`, `ru`, `vi`
* **보이스 설정:** `subharmonic_amplitude_control`을 제외한 모든 파라미터
* **추가 기능:** `include_phonemes`(립싱크용 타임스탬프), `normalized_text`(발음 제어)
* **스트리밍:** 지원하지 않음

### sona\_speech\_2\_flash

`sona_speech_2`의 경량 버전으로, 같은 다국어 커버리지를 유지하면서 지연시간을 낮추도록 최적화되어 있습니다. 응답 시간을 신경 쓰면서도 **수용 가능한 품질**을 원할 때 사용하세요 — 예를 들어 인터랙티브 에이전트나 대규모 배치 생성에 적합합니다.

* **언어(23):** `sona_speech_2`와 동일
* **보이스 설정:** `pitch_shift`, `pitch_variance`, `speed`, `duration`
* **추가 기능:** `include_phonemes`, `normalized_text`
* **스트리밍:** 지원하지 않음

### supertonic\_api\_3

`supertonic_api_1`의 차세대 후속 모델로, **발화 안정성이 크게 향상되었습니다**. 오픈 웨이트로 공개된 Supertonic 3와는 다르게 학습된 이 API 변형은 `supertonic_api_1`의 초저지연 특성을 그대로 유지하면서 훨씬 더 안정적인 발음과 낮은 오독률을 제공합니다. 보이스 에이전트, 챗봇, 첫 오디오까지의 시간이 최우선인 모든 실시간 경험을 위한 가장 권장되는 기본 모델입니다.

* **언어(31):** `en`, `ko`, `ja`, `ar`, `bg`, `cs`, `da`, `de`, `el`, `es`, `et`, `fi`, `fr`, `hi`, `hr`, `hu`, `id`, `it`, `lt`, `lv`, `nl`, `pl`, `pt`, `ro`, `ru`, `sk`, `sl`, `sv`, `tr`, `uk`, `vi`
* **보이스 설정:** `speed`만 지원 — 다른 설정은 조용히 무시됩니다
* **추가 기능:** —
* **스트리밍:** 지원하지 않음(호출당 지연시간이 매우 낮아 스트리밍이 대부분 불필요합니다)

### supertonic\_api\_1

**레거시 supertonic 모델**입니다. 동일한 지연시간 특성에서 더 넓은 언어 커버리지와 훨씬 향상된 발화 안정성을 제공하는 [`supertonic_api_3`](#supertonic-api-3)로 대체되었습니다. 이미 이 모델에 고정된 기존 연동이 있는 경우에만 `supertonic_api_1`을 선택하세요. 신규 프로젝트는 `supertonic_api_3`를 사용해야 합니다.

* **언어(5):** `en`, `ko`, `ja`, `es`, `pt`
* **보이스 설정:** `speed`만 지원 — 다른 설정은 조용히 무시됩니다
* **추가 기능:** —
* **스트리밍:** 지원하지 않음

### sona\_speech\_1

레거시 플래그십 모델입니다. 전체 보이스 설정을 지원하며, 현재 **청크 스트리밍**(`stream_speech`)을 지원하는 유일한 모델입니다. 대부분의 사용 사례에서는 더 새로운 모델이 더 나은 출발점이지만, `stream_speech` 출력이나 모든 파인 튜닝 파라미터(`similarity`, `text_guidance`, `subharmonic_amplitude_control`)가 반드시 필요한 경우 `sona_speech_1`을 선택하세요.

* **언어(3):** `en`, `ko`, `ja`
* **보이스 설정:** 모든 파라미터
* **추가 기능:** `include_phonemes`
* **스트리밍:** 지원

## 지원 언어

`language`는 모든 TTS 요청에 필수이며, 모델 **및** 선택한 보이스 모두가 지원하는 값이어야 합니다(보이스의 `language` 배열을 확인하세요).

| Code | Language   | `sona_speech_2` | `sona_speech_2_flash` | `supertonic_api_3` | `supertonic_api_1` | `sona_speech_1` |
| ---- | ---------- | :-------------: | :-------------------: | :----------------: | :----------------: | :-------------: |
| `en` | English    |        ✅        |           ✅           |          ✅         |          ✅         |        ✅        |
| `ko` | Korean     |        ✅        |           ✅           |          ✅         |          ✅         |        ✅        |
| `ja` | Japanese   |        ✅        |           ✅           |          ✅         |          ✅         |        ✅        |
| `es` | Spanish    |        ✅        |           ✅           |          ✅         |          ✅         |        —        |
| `pt` | Portuguese |        ✅        |           ✅           |          ✅         |          ✅         |        —        |
| `de` | German     |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `fr` | French     |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `it` | Italian    |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `nl` | Dutch      |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `pl` | Polish     |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `ro` | Romanian   |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `cs` | Czech      |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `da` | Danish     |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `el` | Greek      |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `et` | Estonian   |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `fi` | Finnish    |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `hu` | Hungarian  |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `bg` | Bulgarian  |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `ar` | Arabic     |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `hi` | Hindi      |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `id` | Indonesian |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `ru` | Russian    |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `vi` | Vietnamese |        ✅        |           ✅           |          ✅         |          —         |        —        |
| `hr` | Croatian   |        —        |           —           |          ✅         |          —         |        —        |
| `lt` | Lithuanian |        —        |           —           |          ✅         |          —         |        —        |
| `lv` | Latvian    |        —        |           —           |          ✅         |          —         |        —        |
| `sk` | Slovak     |        —        |           —           |          ✅         |          —         |        —        |
| `sl` | Slovenian  |        —        |           —           |          ✅         |          —         |        —        |
| `sv` | Swedish    |        —        |           —           |          ✅         |          —         |        —        |
| `tr` | Turkish    |        —        |           —           |          ✅         |          —         |        —        |
| `uk` | Ukrainian  |        —        |           —           |          ✅         |          —         |        —        |

언어는 소문자 ISO 코드 문자열로 전달하세요.

```python theme={"dark"}
response = client.text_to_speech.create_speech(
    voice_id=VOICE_ID,
    text="Hello!",
    language="en",
    model="sona_speech_2",
)
```

다국어 콘텐츠의 경우, 하나의 `text`에 여러 언어를 섞기보다 언어별로 요청을 분리해 호출하세요. 한자, 숫자, 단위, 기호가 포함된 일본어 입력은 [노말라이즈드 텍스트](/ko/docs/text-to-speech/normalized-text)를 참고하세요.

## 기능 지원 매트릭스

| Feature                                              | `sona_speech_2` | `sona_speech_2_flash` | `supertonic_api_3` | `supertonic_api_1` | `sona_speech_1` |
| ---------------------------------------------------- | :-------------: | :-------------------: | :----------------: | :----------------: | :-------------: |
| 스트리밍(`stream_speech`)                                |        —        |           —           |          —         |          —         |        ✅        |
| `include_phonemes`                                   |        ✅        |           ✅           |          —         |          —         |        ✅        |
| `normalized_text`                                    |        ✅        |           ✅           |          —         |          —         |        —        |
| `pitch_shift`, `pitch_variance`, `speed`, `duration` |        ✅        |           ✅           |      `speed`만      |      `speed`만      |        ✅        |
| `similarity`, `text_guidance`                        |        ✅        |           —           |          —         |          —         |        ✅        |
| `subharmonic_amplitude_control`                      |        —        |           —           |          —         |          —         |        ✅        |

## 관련 문서

<CardGroup cols={2}>
  <Card title="보이스 설정" icon="sliders" href="/ko/docs/text-to-speech/voice-settings">
    모든 보이스 설정 파라미터와 지원 모델에 대한 레퍼런스입니다.
  </Card>

  <Card title="보이스" icon="users" href="/ko/docs/core-concepts/voices">
    언어와 스타일 요구 사항에 맞는 보이스 ID를 찾으세요.
  </Card>
</CardGroup>

## 온디바이스 TTS

API 호출이나 네트워크 왕복 없이 **CPU에서 로컬로** TTS를 실행하고 싶으신가요? Supertone은 같은 Supertonic 3 계열의 오픈 웨이트 모델인 **Supertonic 3**(99M 파라미터, ONNX Runtime, OpenRAIL-M 라이선스)도 공개하고 있습니다.

<Warning>
  **Supertonic 3(오픈 웨이트)는 `supertonic_api_3`와 다른 모델입니다.** 같은 계열 이름과 혈통을 공유하지만 학습 방식이 다르고 생성되는 오디오도 다릅니다. 본 API가 노출하는 것은 API 모델(`supertonic_api_3`)이며, 오픈 웨이트 모델은 별도의 온디바이스 릴리스입니다. 보이스 품질, 지원 보이스, 동작이 동일하다고 가정하지 마세요.
</Warning>

<CardGroup cols={1}>
  <Card title="Supertonic 3 — 온디바이스 TTS ↗" icon="microchip" href="https://supertonic3.github.io/">
    ONNX Runtime을 통해 CPU에서 로컬로 실행되는 99M 파라미터 오픈 웨이트 TTS — 31개 언어, GPU 불필요, 클라우드 불필요, API 불필요. `supertonic_api_3`와는 별개의 모델이며, 가중치, 샘플, SDK(Python, Node.js, Web, iOS, Android, C++)는 프로젝트 사이트에서 확인하세요.
  </Card>
</CardGroup>