NANSY モデルの紹介

NANSY(Neural Analysis and Synthesis) モデルを基盤としたSupertoneの音声AI技術は、実際の人間の声と区別が難しいほどの高品質な音声を生成します。NANSYは音声に関連する生成タスクを実行するために設計された統合ニューラルネットワークフレームワークです。このモデルは、音声および歌声合成、声質変換、音声デザインなど、様々なダウンストリームタスクの基盤モデルとして使用されています。統合された構造により、生成過程で音声の特性を一貫して維持し、4つの個別要素の制御を通じてあらゆる人の声を表現することができます。

音声生成方法

Supertoneの高品質AI音声を生成するためには、Supertone APIを活用する必要があります。APIを通じた音声生成プロセスは以下の通りです。

1

API Key の発行

Supertone APIサービスに登録した後、コンソールページでクローズドベータをお申し込みください。申請が承認されると、コンソールページでAPI Keyを発行することができます。

2

ボイスの選択

Get Voices APIを呼び出して利用可能なボイス一覧を照会するか、Supertone Playに登録して2週間無料ですべてのボイスをテストしていただけます。お好みのボイスが見つかりましたら、そのボイスのIDをコピーしてAPI呼び出しパラメータに入力してください。

3

音声生成

SupertoneのText-to-speech APIを呼び出してテキストからAI音声を生成することができます。

4

生成物の活用

生成された音声ファイルをダウンロードするか、ストリーミングで再生してみましょう。コンテンツ制作や様々なケースにご活用いただけます。

Supertone APIをすぐに使用したい場合は、クイックスタートページをご確認ください。

主な機能

1. 高品質な音声合成

Supertoneの AI音声合成技術は、自然なイントネーションと豊かな感情表現を提供します。

主な特徴

  1. 自然なイントネーションとリズムを持つ音声生成
  2. 多様な感情とニュアンスの表現が可能
  3. ユーザーの好みに応じたファイル形式の選択が可能
    • wav: ロスレスの高品質音声が必要な場合
    • mp3: 一般的な用途での効率的なファイルサイズ

2. 多言語対応

Supertone APIは、グローバルサービスのための多様な言語をサポートしています。

対応言語

  1. 韓国語(ko)
  2. 日本語(ja)
  3. 英語(en)

各言語に最適化された発音とイントネーションを提供しており、今後もサポート言語を拡大していく予定です。

3. 多様なボイス

豊富な音声ポートフォリオを通じて、様々なキャラクターや状況に合った音声を提供します。

ボイス区分タグ

  1. 性別
    • 男性
    • 女性
  2. 年齢層
    • 子供
    • 若者
    • 中年
    • 高齢者
  3. スタイル
    • ボイスごとに特化した感情表現をサポート
    • 状況とコンテンツに合った多様な話し方
    • キャラクター性が生きている音色

各ボイスは、そのキャラクターに合った固有の特性と感情表現が可能で、Supertone Playサービスに登録すると、2週間無料で実際の音声をテストしていただけます。