개요

이 문서는 수퍼톤의 Text To Speech API의 사용 방법을 설명합니다. 수퍼톤의 Text-to-speech 기술을 활용해 텍스트를 자연스러운 음성으로 변환할 수 있습니다.

지원 언어

수퍼톤 API는 각 언어별로 최적화된 음성 모델을 제공하며, 현재 아래와 같은 언어를 지원합니다.

  1. 한국어(ko)
  2. 일본어(ja)
  3. 영어(en)

보이스 선택 가이드

1. 사용 가능한 보이스 확인

두 가지 방법으로 사용 가능한 보이스 정보를 확인하실 수 있습니다.

Get Voices API를 호출해 확인

Get Voices API를 호출하여 사용 가능한 보이스 목록을 확인할 수 있습니다. API는 다음과 같은 형식의 JSON 응답을 반환합니다. JSON 응답 내 포함된 voice_id를 API 호출 시 파라미터로 입력합니다.

{
    "voices": [
        {
            "voice_id": "54CyP2zU9HCeLVCpzDRFPi",
            "name": "Yoonho",
            "description": "Yoonho is a sarcastic and indifferent teenager. He doesn't express his emotions well.",
            "age": "young-adult",
            "gender": "male",
            "use_case": "game",
            "language": "ko",
            "style": "blank_high"
        }
    ]
}

Supertone Play에서 보이스를 탐색하여 확인

Supertone Play 제품 내에서 다양한 보이스를 탐색한 뒤 마음에 드는 보이스와 설정을 복사하여 활용할 수 있습니다.

Supertone Play에서 다양한 보이스와 세부 설정을 적용해 콘텐츠를 제작한 뒤, 마음에 드는 라인의 세부 설정을 복사해보세요. 화면 우측 라인 패널의 오른쪽 상단에 있는 버튼을 클릭하면 아이디와 보이스 설정을 복사하실 수 있어요.

2. 보이스 속성 이해하기

각 보이스는 다음과 같은 속성을 가지고 있습니다.

Age

보이스의 연령대를 나타내는 태그입니다. 수퍼톤 API는 4가지 연령대 태그를 제공하고 있습니다.


child, young-adult, middle-aged, elder

Gender

보이스의 성별을 나타내는 태그입니다. 수퍼톤 API는 2가지 성별 태그를 제공하고 있습니다.


male, female

Use Case

보이스의 추천 사용 용도를 나타내는 태그입니다. 수퍼톤 API는 6가지 사용 용도 태그를 제공하고 있습니다.


advertisement, announcement, audiobook, documentary, education, game

Language

해당 보이스에 최적화된 언어 태그입니다. 수퍼톤 API는 3가지의 언어 태그를 제공하고 있습니다.


ko, ja, en

Style

보이스별 고유한 감정과 말투를 나타내는 태그입니다. 각 보이스마다 고유한 스타일 값을 가지고 있으므로, Get Voices API를 호출해 직접 확인하는 것을 권장합니다.

3. 보이스 선택하기

  1. 원하는 언어의 보이스를 필터링합니다
  2. 프로젝트의 목적에 맞는 use_case를 가진 보이스를 선택합니다
  3. 원하는 연령대와 성별의 보이스를 선택합니다
  4. 선택한 보이스의 voice_id를 복사하여 API 호출 시 사용합니다

API 호출 가이드

1. 텍스트 입력 제한사항

  • 최대 길이: 띄어쓰기 포함 200자
  • 텍스트 요구사항:
    • 공백이나 구두점만으로 이루어진 텍스트는 사용할 수 없습니다
    • 올바른 문법과 표기법을 사용해야 정확한 발음이 생성됩니다
    • 특수문자 “\n” 등이 포함되지 않도록 주의해야 합니다

2. 오디오 출력 형식

  • Query 파라미터 output_format으로 지정
  • 지원 형식:
    • wav (기본값)
    • mp3

3. 모델 선택

Body 파라미터 model로 다음 중 선택:

turbo

  • 특징: 중간 품질, 매우 빠른 레이턴시
  • 추천 용도: 실시간 대화

pro

  • 특징: 고품질, 중간 레이턴시
  • 추천 용도: 콘텐츠 제작, 고품질 음성이 필요한 경우

주요 지표 비교

turbopro
음질 평가 점수(NISQA)4.154.20
평균 응답 시간(Latency)- 50자 기준: 820ms
- 100자 기준: 1,000ms
- 50자 기준: 1,500ms
- 100자 기준: 2,300ms
지원 언어ko, ja, enko, ja, en
추천 사용 용도AI와의 음성대화 서비스오디오북, 영상 등 콘텐츠 제작

4. 음성 세부 설정

  1. pitch_shift (음정 조절)
    • 범위: -24 ~ 24 (기본값: 0.0)
    • 설명:
      • 1단위 = 1 세미톤
      • 양수: 음정 상승 (예: 10 = 5톤 상승)
      • 음수: 음정 하강 (예: -10 = 5톤 하강)
      • ±24 = 2옥타브 변화
  2. pitch_variance (음정 변화폭)
    • 범위: 0 ~ 2 (기본값: 1.0)
    • 설명:
      • 0: 최소 변화폭
      • 2: 최대 변화폭
      • 값이 클수록 다이나믹한 음성
  3. speed (발화 속도)
    • 범위: 0.5 ~ 2.0 (기본값: 1.0)
    • 설명:
      • 1.0: 기본 속도
      • 2.0: 2배속
      • 0.5: 0.5배속

생성된 결과물 안내

1. 파일명 구조

예시

2024-08-28_05-02-53_arin_ko_happy_gv0_av15_ps0_pv100_s100.mp3

구성요소

  • 생성 시간: 2024-08-28_05-02-53 (YYYY-MM-DD_HH-mm-ss)
  • 보이스 이름: arin
  • 언어: ko
  • 스타일: happy
  • 피치 조절: ps0 (pitch shift)
  • 피치 변화 범위: pv100 (pitch variance, 100 = 1.0)
  • 발화 속도: s100 (speed, 100 = 1.0)
  • 파일 형식: .mp3

2. 참고사항

생성된 음성은 머신러닝 기술을 기반으로 하기 때문에 동일한 설정으로 생성하더라도 결과물이 완전히 동일하지 않을 수 있으며, 품질 또한 완전히 균일하지 않을 수 있습니다.