NANSY 모델 소개

NANSY(Neural Analysis and Synthesis) 모델을 기반으로 한 수퍼톤의 음성 AI 기술은 실제 사람의 음성과 구분하기 어려울 정도의 고품질 음성을 생성합니다. NANSY는 음성과 관련된 생성 작업들을 수행하기 위해 설계된 통합 신경망 프레임워크입니다. 이 모델은 음성 및 노래 합성, 음성 변환, 음성 디자인 등 다양한 다운스트림 작업의 기반 모델로 사용됩니다. 통합된 구조를 통해 생성 과정에서 음성의 특성을 일관되게 유지하며, 네 가지 개별 요소들의 제어를 통해 모든 사람의 목소리를 표현할 수 있습니다.

음성 생성 방법

수퍼톤의 고품질 AI 음성을 생성하기 위해서는 수퍼톤 API를 활용해야 합니다. API를 통한 음성 생성 프로세스는 다음과 같습니다.

1

API Key 발급

수퍼톤 API 서비스에 가입한 후 콘솔 페이지에서 클로즈드 베타를 신청해주세요. 신청이 승인되면 콘솔 페이지에서 API Key를 발급받으실 수 있습니다.

2

보이스 선택

Get Voices API를 호출해 이용 가능한 보이스 목록을 조회하거나 Supertone Play에 가입해 2주간 무료로 모든 보이스를 테스트해보실 수 있습니다. 마음에 드는 보이스를 찾으셨다면 해당 보이스의 아이디를 복사해 API 호출 파라미터로 입력해주세요.

3

음성 생성

수퍼톤의 Text-to-speech API를 호출해 텍스트로부터 AI 음성을 생성하실 수 있습니다.

4

결과물 활용

생성된 음성 파일을 다운로드하거나 스트리밍으로 재생해보세요. 콘텐츠 제작 및 다양한 사례에 활용하실 수 있습니다.

수퍼톤 API를 바로 사용하시려면 빠르게 시작하기 페이지를 확인해주세요.

주요 기능

1. 고품질 음성 합성

수퍼톤의 AI 음성 합성 기술은 자연스러운 억양과 풍부한 감정 표현을 제공합니다.

주요 특징

  1. 자연스러운 억양과 운율을 가진 음성 생성
  2. 다양한 감정과 뉘앙스 표현 가능
  3. 사용자 선호도에 따른 파일 형식 선택 가능
    • wav: 무손실 고품질 음성이 필요한 경우
    • mp3: 일반적인 용도의 효율적인 파일 크기

2. 다국어 지원

수퍼톤 API는 글로벌 서비스를 위한 다양한 언어 지원을 제공합니다.

지원 언어

  1. 한국어(ko)
  2. 일본어(ja)
  3. 영어(en)

각 언어별로 해당 언어에 최적화된 발음과 억양을 제공하며, 지속적으로 지원 언어를 확대해 나갈 예정입니다.

3. 다양한 보이스

풍부한 음성 포트폴리오를 통해 다양한 캐릭터와 상황에 맞는 음성을 제공합니다.

보이스 구분 태그

  1. 성별
    • 남성
    • 여성
  2. 연령대
    • 어린이
    • 젊은이
    • 중년
    • 노인
  3. 스타일
    • 보이스별 특화된 감정 표현 지원
    • 상황과 콘텐츠에 맞는 다양한 말투
    • 캐릭터성이 살아있는 음색

각 보이스는 해당 캐릭터에 맞는 고유한 특성과 감정 표현이 가능하며, Supertone Play 서비스에 가입하여 2주 동안 무료로 실제 음성을 테스트해보실 수 있습니다.