Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.supertoneapi.com/llms.txt

Use this file to discover all available pages before exploring further.

このドキュメントは英語の原文から自動翻訳されています。表現に不自然な箇所がある場合があります。正確な内容は英語の原文もあわせてご確認ください。
Supertoneは、品質、レイテンシ、対応言語、設定の自由度に関してそれぞれ異なるトレードオフを持つ5つのTTSモデルを提供しています。このページを参考に、製品に適したモデルを選択してください。

選び方

求めるものおすすめ
最高品質、23言語対応 — ナレーション、オーディオブックsona_speech_2
速度と品質のバランス — 品質基準のあるインタラクティブなアプリsona_speech_2_flash
最速の応答と高い発話安定性、31言語対応 — ボイスエージェント、リアルタイムインタラクションsupertonic_api_3
チャンク単位のストリーミング、または全ボイス設定への対応sona_speech_1
モデルはリクエストごとにmodelフィールドで指定します。省略した場合のデフォルトはsona_speech_1です。

モデル一覧

モデル位置付け言語数ボイス設定主な機能
sona_speech_2最高品質23subharmonic_amplitude_controlを除くすべて音素、正規化テキスト
sona_speech_2_flash速度と品質のバランス23pitch_shiftpitch_variancespeedduration音素、正規化テキスト
supertonic_api_3超軽量、最低レイテンシ、発話安定性の向上31speedのみ
supertonic_api_1レガシーのsupertonicモデル5speedのみ
sona_speech_1レガシーフラッグシップ3すべてのボイス設定ストリーミング、音素

モデル詳細

sona_speech_2

プラットフォーム上で最も自然かつ最高品質のボイスで、幅広い多言語対応を備えています。ナレーション、オーディオブック、キャラクター対話、プロダクション品質のマーケティング音声など、レイテンシよりも品質が重要な場面でおすすめです。
  • 対応言語(23): enkojabgcsdaelesetfihuitnlplptroardefrhiidruvi
  • ボイス設定: subharmonic_amplitude_controlを除くすべてのパラメータ
  • 追加機能: include_phonemes(リップシンク用のタイムスタンプ)、normalized_text(発音制御)
  • ストリーミング: 非対応

sona_speech_2_flash

sona_speech_2の軽量版で、同じ多言語対応を保ちながら低レイテンシ向けに最適化されています。応答時間を重視しつつ十分な品質も求めたい場合に使用してください。例えば、インタラクティブなエージェントや大規模なバッチ生成などです。
  • 対応言語(23): sona_speech_2と同じ
  • ボイス設定: pitch_shiftpitch_variancespeedduration
  • 追加機能: include_phonemesnormalized_text
  • ストリーミング: 非対応

supertonic_api_3

supertonic_api_1の次世代後継モデルで、発話安定性が大幅に向上しています。オープンウェイトのSupertonic 3リリースとは異なる学習が行われており、このAPIバリアントはsupertonic_api_1の超低レイテンシプロファイルを引き継ぎつつ、はるかに信頼性の高い発音と読み間違いの低減を実現しています。最初の音声が返るまでの時間が最優先となるボイスエージェント、チャットボット、リアルタイム体験において最適なデフォルトです。
  • 対応言語(31): enkojaarbgcsdadeelesetfifrhihrhuiditltlvnlplptroruskslsvtrukvi
  • ボイス設定: speedのみ — 他の設定は黙って無視されます
  • 追加機能:
  • ストリーミング: 非対応(ただし1回あたりのレイテンシが非常に低いため、ストリーミングは通常不要です)

supertonic_api_1

レガシーのsupertonicモデルです。supertonic_api_3に置き換えられました。supertonic_api_3は同等のレイテンシプロファイルを保ちつつ、より広い言語対応と大幅に向上した発話安定性を提供します。supertonic_api_1は、既存の連携がこのモデルに固定されている場合のみご利用ください。新規プロジェクトではsupertonic_api_3を使用してください。
  • 対応言語(5): enkojaespt
  • ボイス設定: speedのみ — 他の設定は黙って無視されます
  • 追加機能:
  • ストリーミング: 非対応

sona_speech_1

レガシーフラッグシップです。すべてのボイス設定に対応しており、現時点でチャンク単位のストリーミングstream_speech)をサポートしている唯一のモデルです。多くの用途では新しいモデルから始めることをおすすめします。stream_speechの出力や、完全なファインチューニングパラメータ(similaritytext_guidancesubharmonic_amplitude_control)が特に必要な場合にsona_speech_1を選択してください。
  • 対応言語(3): enkoja
  • ボイス設定: すべてのパラメータ
  • 追加機能: include_phonemes
  • ストリーミング: 対応

対応言語

languageはすべてのTTSリクエストで必須であり、モデル選択したボイスの両方が対応している値である必要があります(ボイスのlanguage配列を確認してください)。
コード言語sona_speech_2sona_speech_2_flashsupertonic_api_3supertonic_api_1sona_speech_1
en英語
ko韓国語
ja日本語
esスペイン語
ptポルトガル語
deドイツ語
frフランス語
itイタリア語
nlオランダ語
plポーランド語
roルーマニア語
csチェコ語
daデンマーク語
elギリシャ語
etエストニア語
fiフィンランド語
huハンガリー語
bgブルガリア語
arアラビア語
hiヒンディー語
idインドネシア語
ruロシア語
viベトナム語
hrクロアチア語
ltリトアニア語
lvラトビア語
skスロバキア語
slスロベニア語
svスウェーデン語
trトルコ語
ukウクライナ語
言語は小文字のISOコード文字列として渡してください。
response = client.text_to_speech.create_speech(
    voice_id=VOICE_ID,
    text="Hello!",
    language="en",
    model="sona_speech_2",
)
多言語コンテンツを扱う場合は、1つのtext内で言語を混在させるのではなく、言語ごとに別々のリクエストを送ってください。漢字、数字、単位、記号を含む日本語入力については、正規化テキストを参照してください。

機能対応マトリックス

機能sona_speech_2sona_speech_2_flashsupertonic_api_3supertonic_api_1sona_speech_1
ストリーミング(stream_speech
include_phonemes
normalized_text
pitch_shiftpitch_variancespeeddurationspeedのみspeedのみ
similaritytext_guidance
subharmonic_amplitude_control

関連項目

ボイス設定

各ボイス設定パラメータと対応モデルのリファレンス。

ボイス

言語およびスタイル要件にマッチするボイスIDを見つけましょう。

オンデバイスTTS

API呼び出しもネットワーク往復もなしで、CPU上でローカルにTTSを実行したいとお考えですか?Supertoneは同じSupertonic 3ファミリーのオープンウェイトモデル — Supertonic 3(99Mパラメータ、ONNX Runtime、OpenRAIL-Mライセンス)も公開しています。
Supertonic 3(オープンウェイト)はsupertonic_api_3とは別のモデルです。 ファミリー名と系統は共通していますが、学習方法が異なり、生成されるオーディオも異なります。本APIで提供されているのはAPIモデル(supertonic_api_3)であり、オープンウェイトモデルはオンデバイス向けの別リリースです。音声品質、対応ボイス、挙動の同等性を前提にしないでください。

Supertonic 3 — オンデバイスTTS ↗

ONNX Runtime経由でCPU上にローカル実行する、99MパラメータのオープンウェイトTTS — 31言語対応、GPU不要、クラウド不要、API不要。supertonic_api_3とは別モデルです。重み、サンプル、SDK(Python、Node.js、Web、iOS、Android、C++)についてはプロジェクトサイトをご覧ください。