Text-to-speech 가이드
수퍼톤의 음성 AI를 활용해 텍스트로부터 음성을 생성하는 방법을 확인하세요.
개요
이 문서는 수퍼톤의 Text To Speech API의 사용 방법을 설명합니다. 수퍼톤의 Text-to-speech 기술을 활용해 텍스트를 자연스러운 음성으로 변환할 수 있습니다.
지원 언어
수퍼톤 API는 각 언어별로 최적화된 음성 모델을 제공하며, 현재 아래와 같은 언어를 지원합니다.
- 한국어(ko)
- 일본어(ja)
- 영어(en)
보이스 선택 가이드
1. 사용 가능한 보이스 확인
두 가지 방법으로 사용 가능한 보이스 정보를 확인하실 수 있습니다.
Get Voices API를 호출해 확인
Get Voices API를 호출하여 사용 가능한 보이스 목록을 확인할 수 있습니다. API는 다음과 같은 형식의 JSON 응답을 반환합니다. JSON 응답 내 포함된 voice_id
를 API 호출 시 파라미터로 입력합니다.
Supertone Play에서 보이스를 탐색하여 확인
Supertone Play 제품 내에서 다양한 보이스를 탐색한 뒤 마음에 드는 보이스와 설정을 복사하여 활용할 수 있습니다.
Supertone Play에서 다양한 보이스와 세부 설정을 적용해 콘텐츠를 제작한 뒤, 마음에 드는 라인의 세부 설정을 복사해보세요. 화면 우측 라인 패널의 오른쪽 상단에 있는 버튼을 클릭하면 아이디와 보이스 설정을 복사하실 수 있어요.
2. 보이스 속성 이해하기
각 보이스는 다음과 같은 속성을 가지고 있습니다.
Age
보이스의 연령대를 나타내는 태그입니다. 수퍼톤 API는 4가지 연령대 태그를 제공하고 있습니다.
child
, young-adult
, middle-aged
, elder
Gender
보이스의 성별을 나타내는 태그입니다. 수퍼톤 API는 2가지 성별 태그를 제공하고 있습니다.
male
, female
Use Case
보이스의 추천 사용 용도를 나타내는 태그입니다. 수퍼톤 API는 6가지 사용 용도 태그를 제공하고 있습니다.
advertisement
, announcement
, audiobook
, documentary
, education
, game
Language
해당 보이스에 최적화된 언어 태그입니다. 수퍼톤 API는 3가지의 언어 태그를 제공하고 있습니다.
ko
, ja
, en
Style
보이스별 고유한 감정과 말투를 나타내는 태그입니다. 각 보이스마다 고유한 스타일 값을 가지고 있으므로, Get Voices API를 호출해 직접 확인하는 것을 권장합니다.
3. 보이스 선택하기
- 원하는 언어의 보이스를 필터링합니다
- 프로젝트의 목적에 맞는 use_case를 가진 보이스를 선택합니다
- 원하는 연령대와 성별의 보이스를 선택합니다
- 선택한 보이스의
voice_id
를 복사하여 API 호출 시 사용합니다
API 호출 가이드
1. 텍스트 입력 제한사항
- 최대 길이: 띄어쓰기 포함 200자
- 텍스트 요구사항:
- 공백이나 구두점만으로 이루어진 텍스트는 사용할 수 없습니다
- 올바른 문법과 표기법을 사용해야 정확한 발음이 생성됩니다
- 특수문자 “\n” 등이 포함되지 않도록 주의해야 합니다
2. 오디오 출력 형식
- Query 파라미터
output_format
으로 지정 - 지원 형식:
wav
(기본값)mp3
3. 모델 선택
Body 파라미터 model
로 다음 중 선택:
turbo
- 특징: 중간 품질, 매우 빠른 레이턴시
- 추천 용도: 실시간 대화
pro
- 특징: 고품질, 중간 레이턴시
- 추천 용도: 콘텐츠 제작, 고품질 음성이 필요한 경우
주요 지표 비교
turbo | pro | |
---|---|---|
음질 평가 점수(NISQA) | 4.15 | 4.20 |
평균 응답 시간(Latency) | - 50자 기준: 820ms - 100자 기준: 1,000ms | - 50자 기준: 1,500ms - 100자 기준: 2,300ms |
지원 언어 | ko , ja , en | ko , ja , en |
추천 사용 용도 | AI와의 음성대화 서비스 | 오디오북, 영상 등 콘텐츠 제작 |
4. 음성 세부 설정
pitch_shift
(음정 조절)- 범위: -24 ~ 24 (기본값: 0.0)
- 설명:
- 1단위 = 1 세미톤
- 양수: 음정 상승 (예: 10 = 5톤 상승)
- 음수: 음정 하강 (예: -10 = 5톤 하강)
- ±24 = 2옥타브 변화
pitch_variance
(음정 변화폭)- 범위: 0 ~ 2 (기본값: 1.0)
- 설명:
- 0: 최소 변화폭
- 2: 최대 변화폭
- 값이 클수록 다이나믹한 음성
speed
(발화 속도)- 범위: 0.5 ~ 2.0 (기본값: 1.0)
- 설명:
- 1.0: 기본 속도
- 2.0: 2배속
- 0.5: 0.5배속
생성된 결과물 안내
1. 파일명 구조
예시
2024-08-28_05-02-53_arin_ko_happy_gv0_av15_ps0_pv100_s100.mp3
구성요소
- 생성 시간:
2024-08-28_05-02-53
(YYYY-MM-DD_HH-mm-ss) - 보이스 이름:
arin
- 언어:
ko
- 스타일:
happy
- 피치 조절:
ps0
(pitch shift) - 피치 변화 범위:
pv100
(pitch variance, 100 = 1.0) - 발화 속도:
s100
(speed, 100 = 1.0) - 파일 형식:
.mp3
2. 참고사항
생성된 음성은 머신러닝 기술을 기반으로 하기 때문에 동일한 설정으로 생성하더라도 결과물이 완전히 동일하지 않을 수 있으며, 품질 또한 완전히 균일하지 않을 수 있습니다.