Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.supertoneapi.com/llms.txt

Use this file to discover all available pages before exploring further.

このドキュメントは英語の原文から自動翻訳されています。表現に不自然な箇所がある場合があります。正確な内容は英語の原文もあわせてご確認ください。
ボイスとは、テキストを読み上げるキャラクターのことです。すべてのTTSリクエストではvoice_idによって話者を指定します。Supertoneでは、別々のエンドポイントから2種類のボイスを提供しています。
  • プリセットボイス — Supertoneが設計・提供するボイスです。PlayボイスライブラリまたはGET /v1/voicesから閲覧できます。このページではプリセットボイスを扱います。
  • カスタムボイス — ご自身で作成・管理するボイスクローンです。カスタムボイスをご覧ください。

ボイスIDを見つける

Supertone Playからコピーする(最速)

Supertone Playのボイスライブラリを開き、ボイスカードにカーソルを合わせ、Copy voice IDをクリックしてください。IDがクリップボードにコピーされ、すぐにリクエストにペーストできます。
Supertone PlayからボイスIDをコピー

API経由でボイスを一覧取得する

import os
from supertone import Supertone

with Supertone(api_key=os.environ["SUPERTONE_API_KEY"]) as client:
    result = client.voices.list_voices(page_size=20)
    for voice in result.items or []:
        print(voice.voice_id, voice.name, voice.language)

フィルターで検索する

search_voicesを使用すると、言語、スタイル、性別、年齢、用途、モデルでフィルタリングできます。複数の値はカンマ区切りで指定し、OR条件として扱われます。
result = client.voices.search_voices(
    language="ko,en",
    style="happy",
    page_size=20,
)
完全なパラメータリストはAPIリファレンスをご覧ください:ボイス検索

ボイスオブジェクト

APIが返すボイスは、おおよそ次のような構造になっています。
{
  "voice_id": "20160a4c5ba38967330c84",
  "name": "Adam",
  "description": "",
  "age": "young-adult",
  "gender": "male",
  "use_case": "meme",
  "language": ["ko", "en", "ja"],
  "styles": ["neutral"],
  "models": ["sona_speech_1"],
  "samples": [
    {
      "language": "en",
      "style": "neutral",
      "model": "sona_speech_1",
      "url": "https://.../sample.wav"
    }
  ],
  "thumbnail_image_url": "https://.../thumb.png"
}
フィールド意味
voice_idTTSリクエストに渡す識別子。
languageこのボイスが対応する言語。リクエストのlanguageはこのリスト内の値である必要があります。
styles利用可能な感情スタイル。先頭の要素がデフォルトです。
modelsこのボイスで使用可能なモデル。
samples(language, style, model)の組み合わせごとに事前生成されたプレビュー音声 — アプリ内プレビューに便利です。

重要な制約

  • 3つすべてが揃っている必要があります。 TTSの呼び出しを成功させるには、voice_idに加えて、そのボイスが実際に対応している(language, style, model)の組み合わせが必要です。組み合わせが存在しない場合、APIはエラーを返します。
  • デフォルトスタイル。 styleを省略した場合は、ボイスのstyles配列の先頭の値が使用されます。キャラクターごとにデフォルトが異なる可能性があるため、省略する前にボイスオブジェクトをご確認ください。
  • 権限。 プリセットボイスはすべてのアカウントで利用可能であり、アクセスはプランによってのみ制限されます。

次のステップ

モデルを選ぶ

ボイスに合った適切なTTSモデルを選びましょう。

カスタムボイス

独自のボイスをクローニングして管理しましょう。