curl --request POST \
--url https://supertoneapi.com/v1/text-to-speech/{voice_id} \
--header 'Content-Type: application/json' \
--header 'x-sup-api-key: <api-key>' \
--data '
{
"text": "<string>",
"style": "<string>",
"model": "sona_speech_1",
"output_format": "wav",
"voice_settings": {
"pitch_shift": 0,
"pitch_variance": 1,
"speed": 1,
"duration": 0,
"similarity": 3,
"text_guidance": 1,
"subharmonic_amplitude_control": 1
},
"include_phonemes": false,
"normalized_text": "<string>"
}
'"<string>"원하는 보이스를 사용하여 텍스트를 완전한 오디오 파일로 변환합니다.
curl --request POST \
--url https://supertoneapi.com/v1/text-to-speech/{voice_id} \
--header 'Content-Type: application/json' \
--header 'x-sup-api-key: <api-key>' \
--data '
{
"text": "<string>",
"style": "<string>",
"model": "sona_speech_1",
"output_format": "wav",
"voice_settings": {
"pitch_shift": 0,
"pitch_variance": 1,
"speed": 1,
"duration": 0,
"similarity": 3,
"text_guidance": 1,
"subharmonic_amplitude_control": 1
},
"include_phonemes": false,
"normalized_text": "<string>"
}
'"<string>"Documentation Index
Fetch the complete documentation index at: https://docs.supertoneapi.com/llms.txt
Use this file to discover all available pages before exploring further.
POST https://supertoneapi.com/v1/text-to-speech/{voice_id}
| Name | Required | Description |
|---|---|---|
voice_id | ✅ | 대상 보이스의 ID입니다. |
| Name | Required | Description |
|---|---|---|
text | ✅ | 변환할 텍스트입니다. 최대 300자. 더 긴 입력은 SDK를 사용하거나 클라이언트 측에서 분할해 주십시오. |
language | ✅ | 언어 코드입니다(예: en, ko, ja). 보이스와 모델이 모두 지원해야 합니다. |
style | — | 감정 스타일입니다(예: neutral, happy). 생략하면 보이스의 기본 스타일이 적용됩니다. |
model | — | TTS 모델입니다. 기본값은 sona_speech_1. |
output_format | — | wav(기본값) 또는 mp3. |
voice_settings | — | 고급 보이스 파라미터입니다(아래 참조). |
include_phonemes | — | true이면 응답이 base64 오디오와 음소 타이밍 데이터가 포함된 JSON으로 전환됩니다. 기본값은 false. |
normalized_text | — | 발음 정규화된 보조 텍스트입니다(sona_speech_2와 sona_speech_2_flash에서 주로 일본어용으로 사용됩니다). |
| Model | Languages |
|---|---|
sona_speech_2, sona_speech_2_flash | en, ko, ja, bg, cs, da, el, es, et, fi, hu, it, nl, pl, pt, ro, ar, de, fr, hi, id, ru, vi |
supertonic_api_3 | en, ko, ja, ar, bg, cs, da, de, el, es, et, fi, fr, hi, hr, hu, id, it, lt, lv, nl, pl, pt, ro, ru, sk, sl, sv, tr, uk, vi |
supertonic_api_1 | en, ko, ja, es, pt |
sona_speech_1 | en, ko, ja |
| Name | Range | Default | Description |
|---|---|---|---|
pitch_shift | -24 → 24 | 0 | 반음(semitone) 단위의 피치 조정입니다. |
pitch_variance | 0 → 2 | 1 | 피치 변동 정도입니다. |
speed | 0.5 → 2 | 1 | 재생 속도 배수입니다. duration 이후에 적용됩니다. |
duration | 0 → 60 | 0 | 0이 아닌 값을 지정하면 해당 길이(초)에 맞추어 오디오를 생성합니다. |
similarity | 1 → 5 | 3 | 출력이 원본 캐릭터 보이스와 얼마나 유사한지 제어합니다. |
text_guidance | 0 → 4 | 1 | 텍스트 내용에 따라 발화 특성이 얼마나 민감하게 적응할지 제어합니다. |
subharmonic_amplitude_control | 0 → 2 | 1 | 생성 음성의 서브하모닉 진폭 양을 제어합니다. |
| Setting | sona_speech_2 | sona_speech_2_flash | supertonic_api_3 | supertonic_api_1 | sona_speech_1 |
|---|---|---|---|---|---|
pitch_shift, pitch_variance, duration | ✅ | ✅ | — | — | ✅ |
speed | ✅ | ✅ | ✅ | ✅ | ✅ |
similarity, text_guidance | ✅ | — | — | — | ✅ |
subharmonic_amplitude_control | — | — | — | — | ✅ |
include_phonemes=false): 본문에 바이너리 오디오가 담깁니다.
Content-Type: audio/wav 또는 audio/mpeg(output_format에 따름).X-Audio-Length 헤더: 생성된 오디오의 길이(초)입니다.include_phonemes=true일 때: base64 오디오와 음소 배열이 포함된 JSON 본문이 반환됩니다.
{
"audio_base64": "UklGRnoGAABXQVZF...",
"phonemes": {
"symbols": ["", "h", "ɐ", "ɡ", "ʌ", ""],
"start_times_seconds": [0, 0.092, 0.197, 0.255, 0.29, 0.58],
"durations_seconds": [0.092, 0.104, 0.058, 0.034, 0.29, 0.162]
}
}
text가 300자를 초과하면 400을 반환합니다. 자동 청크 분할을 위해 Python 또는 TypeScript SDK를 사용하거나 직접 분할해 주십시오 — Long text를 참고해 주십시오.speed는 duration 이후에 적용됩니다. duration=5, speed=2로 설정하면 약 10초의 오디오가 생성됩니다.style을 생략하면 보이스의 styles 배열 첫 번째 값이 사용됩니다. 보이스마다 기본값이 다를 수 있으므로 Get voice로 확인해 주십시오.The text to convert to speech
300The language code of the text
en, ko, ja, bg, cs, da, el, es, et, fi, hu, it, nl, pl, pt, ro, ar, de, fr, hi, id, ru, vi, hr, lt, lv, sk, sl, sv, tr, uk The style of character to use for the text-to-speech conversion
The model type to use for the text-to-speech conversion
sona_speech_1, sona_speech_2, sona_speech_2_flash, supertonic_api_1, supertonic_api_3 The desired output format of the audio file (wav, mp3). Default is wav.
wav, mp3 Show child attributes
Return phoneme timing data with the audio
Pre-normalized text for TTS. Only used with sona_speech_2 and sona_speech_2_flash models.
Returns either binary audio or JSON with phoneme data based on include_phonemes parameter
Binary audio file (when include_phonemes=false or omitted)