선택한 보이스와 설정 가능한 보이스 설정을 사용하여 텍스트를 음성으로 변환하고, 결과를 오디오 스트림으로 반환합니다.
| Name | Required | Description |
|---|---|---|
voice_id | Yes | 대상 보이스의 ID입니다. |
| Name | Required | Description |
|---|---|---|
text | Yes | 변환할 텍스트입니다(최대 300자). |
language | Yes | 언어 코드입니다. 지원: en, ko, ja. |
style | No | 감정 스타일입니다. 예: neutral, happy, sad 등. 미지정 시 캐릭터의 기본 스타일이 적용됩니다. |
model | No | TTS 모델입니다. 기본값: sona_speech_1. |
output_format | No | 출력 포맷입니다. 옵션: wav, mp3. 기본값: wav. |
voice_settings | No | 고급 보이스 파라미터입니다(아래 참조). |
include_phonemes | No | true이면 오디오(Base64 인코딩)와 함께 음소 타이밍 데이터를 반환합니다. 기본값: false. |
| Name | Range | Default | Description |
|---|---|---|---|
pitch_shift | -24 → 24 | 0 | 반음(semitone) 단위의 피치 조정입니다. |
pitch_variance | 0 → 2 | 1 | 피치 변동 정도입니다. |
speed | 0.5 → 2 | 1 | 생성 오디오를 균일하게 더 빠르거나 느리게 조정합니다(비율). |
duration | 0 → 60 | 0 | 값을 지정하면 해당 길이(초)에 맞추어 음성이 생성됩니다. |
similarity | 1 → 5 | 3 | 생성 음성이 원본 캐릭터 보이스와 얼마나 유사한지 제어합니다. |
text_guidance | 0 → 4 | 1 | 텍스트 내용에 따라 발화 특성이 얼마나 민감하게 적응할지 제어합니다. |
subharmonic_amplitude_control | 0 → 2 | 1 | 생성 음성의 서브하모닉 진폭 양을 제어합니다. |
sona_speech_1 모델에서만 지원됩니다.The text to convert to speech
300The language code of the text
en, ko, ja, bg, cs, da, el, es, et, fi, hu, it, nl, pl, pt, ro, ar, de, fr, hi, id, ru, vi The style of character to use for the text-to-speech conversion
The model type to use for the text-to-speech conversion
sona_speech_1, sona_speech_2, supertonic_api_1 The desired output format of the audio file (wav, mp3). Default is wav.
wav, mp3 Return phoneme timing data with the audio
Streaming audio data in binary format or NDJSON format with phoneme data based on includePhonemes parameter
Binary audio stream (when includePhonemes=false or omitted)