Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.supertoneapi.com/llms.txt

Use this file to discover all available pages before exploring further.

このドキュメントは英語の原文から自動翻訳されています。表現に不自然な箇所がある場合があります。正確な内容は英語の原文もあわせてご確認ください。
voice_settings はすべての TTS リクエストで指定できる任意のオブジェクトで、オーディオの発話表現 — ピッチ、抑揚、速度、そしてフラッグシップモデル向けのいくつかの高度なパラメータ — を調整します。

クイックリファレンス

SettingRangeDefaultWhat it does
pitch_shift-24 → 240半音単位のピッチシフトです。±12 で 1 オクターブ分にあたります。
pitch_variance0 → 21ピッチの変動幅です — 値が小さいほど平板に、大きいほど抑揚豊かになります。
speed0.5 → 21再生速度の倍率です。duration の後に適用されます。
duration0 → 600生成オーディオを目標長さ(秒)に合わせます(0 = 目標なし)。
similarity1 → 53出力が元のキャラクターボイスにどれだけ近いかを制御します。
text_guidance0 → 41テキスト内容に対して発話特性がどの程度敏感に適応するかを制御します。
subharmonic_amplitude_control0 → 21生成音声のサブハーモニック振幅量です。

ボイスパラメータの設定

VOICE_ID = "20160a4c5ba38967330c84"  # replace with your voice ID

response = client.text_to_speech.create_speech(
    voice_id=VOICE_ID,
    text="Let me tell you a story.",
    language="en",
    model="sona_speech_1",
    voice_settings={
        "pitch_shift": 2,
        "pitch_variance": 1.3,
        "speed": 0.95,
    },
)

モデル別のサポート状況

すべてのモデルがすべての設定に対応しているわけではありません。サポートされていない設定は 黙って無視されます — たとえば supertonic_api_3subharmonic_amplitude_control を指定してもエラーにはならず、単に出力に影響しないだけです。
Settingsona_speech_2sona_speech_2_flashsupertonic_api_3supertonic_api_1sona_speech_1
pitch_shift
pitch_variance
speed
duration
similarity
text_guidance
subharmonic_amplitude_control

パラメータの相互作用

  • pitch_shift は半音単位です。 +12 で 1 オクターブ上がります。自然な調整には小さい値(±1 〜 ±4)を使ってください。大きな値ではロボット的な響きになります。
  • pitch_variance は表現力を制御します。 0 にすると単調になり(インストラクショナル動画やニュース読み上げに向きます)、最大 2 にすると非常に表情豊かな発話になります。
  • duration の次に speed 両方を指定すると、エンジンはまず duration 秒を目標とし、その後 speed を倍率として適用します。duration=5speed=2 を指定すると、おおよそ 10 秒のオーディオになります。
  • similaritytext_guidance は、クローンボイスや sona_speech_2 / sona_speech_1 でもっとも効果を発揮します。similarity を上げるとソースボイスにより忠実になり、text_guidance を上げると発話がテキストの感情トーンに合わせて変化しやすくなります。

レシピ

穏やかでゆっくりしたナレーション:
{ "pitch_variance": 0.7, "speed": 0.9 }
興奮した、速いテンポの発話:
{ "pitch_shift": 1, "pitch_variance": 1.5, "speed": 1.15 }
目標クリップ長に合わせる(例: 6 秒のシーンの吹き替え):
{ "duration": 6 }

関連項目

モデル

どのモデルがどの Voice settings に対応しているかを確認します。

API リファレンス

リクエストとレスポンスの完全なスキーマ。