텍스트를 음성으로 변환하는 TTS API의 요청 구조와 파라미터 사용 방법, 오류 주의사항을 안내합니다.
지정한 보이스로 텍스트를 음성으로 변환하는 TTS(Text-to-Speech) API입니다.
이 API를 통해 원하는 문장을 자연스러운 음성으로 생성할 수 있습니다.
{voice_id}
: 캐릭터 단위의 ID만 사용 가능language
, style
, model
등의 파라미터는 Request Body에 포함됩니다항목 | 필수 | 설명 |
---|---|---|
text | ✅ | 변환할 텍스트. 최대 300자까지 입력 가능 |
language | ✅ | 텍스트의 언어. ko , en , ja 중 하나 |
style | ❌ | 감정 스타일. 예: neutral , happy , sad 등. 지정하지 않으면 해당 캐릭터의 기본 스타일이 적용됨 |
model | ❌ | 사용 모델. 기본값은 sona_speech_1 . 현재는 이 모델만 사용 가능 |
voice_settings | ❌ | 음정/속도 조절. pitch_shift , pitch_variance , speed 필드 포함 (기본값: 0, 1, 1) |
wav
output_format=mp3
를 쿼리 파라미터로 전달하면 mp3 형식으로도 응답 가능X-Audio-Length
헤더를 통해 음성의 길이(초)를 확인할 수 있음text
길이는 300자 초과 시 400 오류가 발생합니다.style
이 없는 경우에도 호출 가능하지만, 캐릭터에 따라 default style이 다를 수 있어 Get Voices API를 호출해 디폴트 스타일을 확인해주세요(스타일 배열 중 처음 오는 값이 디폴트).API key for the service
The desired output format of the audio file (wav, mp3). Default is wav.
wav
, mp3
Audio file converted from text. The response includes an X-Audio-Length header with the duration in seconds.
The response is of type file
.