이 문서는 영어 원문을 기반으로 자동 번역되었습니다. 표현이 어색하거나 모호한 부분이 있을 수 있으니, 정확한 내용은 영어 원문을 함께 확인해 주세요.
create_speech에 그대로 전달하면, SDK가 문장 경계에서 분할하여 각 세그먼트를 생성하고, 결과를 하나로 병합합니다.
Python
TypeScript
내부에서 일어나는 일
- SDK는
SCRIPT.length > 300임을 감지합니다. - 우선 문장 부호를 기준으로 분할하고, 한 문장 자체가 너무 길면 단어 경계로 다시 분할합니다.
- Python SDK는 최대 3개의
create_speech요청을 병렬로 실행하며, TypeScript SDK는 순차적으로 실행합니다. - 각 세그먼트는 완전한 오디오 파일을 반환합니다.
- SDK는 첫 세그먼트 이후의 모든 세그먼트에서 WAV 헤더를 제거한 뒤, 바이트를 이어 붙여 하나의 연속된 클립으로 만듭니다.
- 그 결과 단일 세그먼트 응답과 동일한 형식의 재생 가능한 파일 하나를 받게 됩니다.
팁
- 문장 부호가 효과적입니다. 문장 부호가 잘 표기된 원문일수록 더 깔끔하게 분할됩니다. 스크립트가 기계 번역이나 음성 인식 결과라면
./?/!를 추가하는 것만으로 결과가 좋아집니다. - 보이스 설정은 그대로 전파됩니다. 동일한
voice_settings가 모든 세그먼트에 적용되므로, 병합된 오디오의 톤이 일관되게 유지됩니다. - 먼저 예측해 보세요.
predict_duration은 자동 청크 분할을 하지 않지만, 스크립트를 몇 개의 문장으로 직접 나누어 각각에 대해predict_duration을 호출하고 결과를 합산하면 비용을 예측할 수 있습니다. - 적합한 모델을 선택하세요. 긴 내레이션에서는
sona_speech_2가 가장 자연스러운 발화를 만들어 냅니다. 많은 내레이션을 빠르게 생성해야 한다면sona_speech_2_flash로 전환하세요.
관련 문서
장문 텍스트
300자 제한과 청크 분할 동작에 대한 전체 레퍼런스입니다.
보이스 설정
내레이션의 발화 방식을 세밀하게 조정하세요.