텍스트를 음성으로 변환하기 위한 파라미터 구조와 사용법을 단계별로 안내합니다.
voice_id
: 사용할 보이스의 고유 IDoutput_format
(선택): 생성할 오디오 형식. wav
(기본값), mp3
중 선택 가능필드 | 필수 여부 | 설명 |
---|---|---|
text | ✅ | 음성으로 변환할 텍스트 (최대 300자) |
language | ✅ | 텍스트의 언어. 보이스가 지원하는 언어 내에서 선택 (ko , en , ja ) |
style | ❌ | 적용할 감정 스타일 (neutral , happy 등). 미입력 시 디폴트 스타일 사용, 가장 앞에 오는 값이 디폴트 스타일 |
model | ❌ | 사용할 음성 모델 (sona_speech_1 ). 생략 시 자동 적용 |
voice_settings | ❌ | 음성의 높낮이, 억양, 속도를 조절하는 고급 옵션 (아래 참고) |
voice_settings
선택voice_settings
는 생성되는 음성의 발화 느낌을 미세하게 조정하고 싶을 때 사용할 수 있는 고급 옵션입니다.
파라미터 | 설명 | 허용 범위 | 기본값 |
---|---|---|---|
pitch_shift | 음정의 높낮이를 조정합니다. 0은 원래 보이스의 음정이며, ±12단계까지 가능합니다. 1단계는 반음입니다. | -12 ~ +12 | 0 |
pitch_variance | 발화 중 억양의 변화 정도를 조절합니다. 작을수록 평탄한 억양, 클수록 풍부한 억양을 생성합니다. | 0.1 ~ 2 | 1 |
speed | 발화 속도를 조절합니다. 1보다 작으면 느려지고, 크면 빨라집니다. | 0.5 ~ 2 | 1 |
audio/wav
또는 audio/mpeg
)으로 응답됩니다.sona_speech_1
하나입니다.