Documentation Index
Fetch the complete documentation index at: https://docs.supertoneapi.com/llms.txt
Use this file to discover all available pages before exploring further.
このドキュメントは英語の原文から自動翻訳されています。表現に不自然な箇所がある場合があります。正確な内容は英語の原文もあわせてご確認ください。
選び方
| 求めるもの | おすすめ |
|---|---|
| 最高品質、23言語対応 — ナレーション、オーディオブック | sona_speech_2 |
| 速度と品質のバランス — 品質基準のあるインタラクティブなアプリ | sona_speech_2_flash |
| 最速の応答と高い発話安定性、31言語対応 — ボイスエージェント、リアルタイムインタラクション | supertonic_api_3 |
| チャンク単位のストリーミング、または全ボイス設定への対応 | sona_speech_1 |
modelフィールドで指定します。省略した場合のデフォルトはsona_speech_1です。
モデル一覧
| モデル | 位置付け | 言語数 | ボイス設定 | 主な機能 |
|---|---|---|---|---|
sona_speech_2 | 最高品質 | 23 | subharmonic_amplitude_controlを除くすべて | 音素、正規化テキスト |
sona_speech_2_flash | 速度と品質のバランス | 23 | pitch_shift、pitch_variance、speed、duration | 音素、正規化テキスト |
supertonic_api_3 | 超軽量、最低レイテンシ、発話安定性の向上 | 31 | speedのみ | — |
supertonic_api_1 | レガシーのsupertonicモデル | 5 | speedのみ | — |
sona_speech_1 | レガシーフラッグシップ | 3 | すべてのボイス設定 | ストリーミング、音素 |
モデル詳細
sona_speech_2
プラットフォーム上で最も自然かつ最高品質のボイスで、幅広い多言語対応を備えています。ナレーション、オーディオブック、キャラクター対話、プロダクション品質のマーケティング音声など、レイテンシよりも品質が重要な場面でおすすめです。- 対応言語(23):
en、ko、ja、bg、cs、da、el、es、et、fi、hu、it、nl、pl、pt、ro、ar、de、fr、hi、id、ru、vi - ボイス設定:
subharmonic_amplitude_controlを除くすべてのパラメータ - 追加機能:
include_phonemes(リップシンク用のタイムスタンプ)、normalized_text(発音制御) - ストリーミング: 非対応
sona_speech_2_flash
sona_speech_2の軽量版で、同じ多言語対応を保ちながら低レイテンシ向けに最適化されています。応答時間を重視しつつ十分な品質も求めたい場合に使用してください。例えば、インタラクティブなエージェントや大規模なバッチ生成などです。
- 対応言語(23):
sona_speech_2と同じ - ボイス設定:
pitch_shift、pitch_variance、speed、duration - 追加機能:
include_phonemes、normalized_text - ストリーミング: 非対応
supertonic_api_3
supertonic_api_1の次世代後継モデルで、発話安定性が大幅に向上しています。オープンウェイトのSupertonic 3リリースとは異なる学習が行われており、このAPIバリアントはsupertonic_api_1の超低レイテンシプロファイルを引き継ぎつつ、はるかに信頼性の高い発音と読み間違いの低減を実現しています。最初の音声が返るまでの時間が最優先となるボイスエージェント、チャットボット、リアルタイム体験において最適なデフォルトです。
- 対応言語(31):
en、ko、ja、ar、bg、cs、da、de、el、es、et、fi、fr、hi、hr、hu、id、it、lt、lv、nl、pl、pt、ro、ru、sk、sl、sv、tr、uk、vi - ボイス設定:
speedのみ — 他の設定は黙って無視されます - 追加機能: —
- ストリーミング: 非対応(ただし1回あたりのレイテンシが非常に低いため、ストリーミングは通常不要です)
supertonic_api_1
レガシーのsupertonicモデルです。supertonic_api_3に置き換えられました。supertonic_api_3は同等のレイテンシプロファイルを保ちつつ、より広い言語対応と大幅に向上した発話安定性を提供します。supertonic_api_1は、既存の連携がこのモデルに固定されている場合のみご利用ください。新規プロジェクトではsupertonic_api_3を使用してください。
- 対応言語(5):
en、ko、ja、es、pt - ボイス設定:
speedのみ — 他の設定は黙って無視されます - 追加機能: —
- ストリーミング: 非対応
sona_speech_1
レガシーフラッグシップです。すべてのボイス設定に対応しており、現時点でチャンク単位のストリーミング(stream_speech)をサポートしている唯一のモデルです。多くの用途では新しいモデルから始めることをおすすめします。stream_speechの出力や、完全なファインチューニングパラメータ(similarity、text_guidance、subharmonic_amplitude_control)が特に必要な場合にsona_speech_1を選択してください。
- 対応言語(3):
en、ko、ja - ボイス設定: すべてのパラメータ
- 追加機能:
include_phonemes - ストリーミング: 対応
対応言語
languageはすべてのTTSリクエストで必須であり、モデルと選択したボイスの両方が対応している値である必要があります(ボイスのlanguage配列を確認してください)。
| コード | 言語 | sona_speech_2 | sona_speech_2_flash | supertonic_api_3 | supertonic_api_1 | sona_speech_1 |
|---|---|---|---|---|---|---|
en | 英語 | ✅ | ✅ | ✅ | ✅ | ✅ |
ko | 韓国語 | ✅ | ✅ | ✅ | ✅ | ✅ |
ja | 日本語 | ✅ | ✅ | ✅ | ✅ | ✅ |
es | スペイン語 | ✅ | ✅ | ✅ | ✅ | — |
pt | ポルトガル語 | ✅ | ✅ | ✅ | ✅ | — |
de | ドイツ語 | ✅ | ✅ | ✅ | — | — |
fr | フランス語 | ✅ | ✅ | ✅ | — | — |
it | イタリア語 | ✅ | ✅ | ✅ | — | — |
nl | オランダ語 | ✅ | ✅ | ✅ | — | — |
pl | ポーランド語 | ✅ | ✅ | ✅ | — | — |
ro | ルーマニア語 | ✅ | ✅ | ✅ | — | — |
cs | チェコ語 | ✅ | ✅ | ✅ | — | — |
da | デンマーク語 | ✅ | ✅ | ✅ | — | — |
el | ギリシャ語 | ✅ | ✅ | ✅ | — | — |
et | エストニア語 | ✅ | ✅ | ✅ | — | — |
fi | フィンランド語 | ✅ | ✅ | ✅ | — | — |
hu | ハンガリー語 | ✅ | ✅ | ✅ | — | — |
bg | ブルガリア語 | ✅ | ✅ | ✅ | — | — |
ar | アラビア語 | ✅ | ✅ | ✅ | — | — |
hi | ヒンディー語 | ✅ | ✅ | ✅ | — | — |
id | インドネシア語 | ✅ | ✅ | ✅ | — | — |
ru | ロシア語 | ✅ | ✅ | ✅ | — | — |
vi | ベトナム語 | ✅ | ✅ | ✅ | — | — |
hr | クロアチア語 | — | — | ✅ | — | — |
lt | リトアニア語 | — | — | ✅ | — | — |
lv | ラトビア語 | — | — | ✅ | — | — |
sk | スロバキア語 | — | — | ✅ | — | — |
sl | スロベニア語 | — | — | ✅ | — | — |
sv | スウェーデン語 | — | — | ✅ | — | — |
tr | トルコ語 | — | — | ✅ | — | — |
uk | ウクライナ語 | — | — | ✅ | — | — |
text内で言語を混在させるのではなく、言語ごとに別々のリクエストを送ってください。漢字、数字、単位、記号を含む日本語入力については、正規化テキストを参照してください。
機能対応マトリックス
| 機能 | sona_speech_2 | sona_speech_2_flash | supertonic_api_3 | supertonic_api_1 | sona_speech_1 |
|---|---|---|---|---|---|
ストリーミング(stream_speech) | — | — | — | — | ✅ |
include_phonemes | ✅ | ✅ | — | — | ✅ |
normalized_text | ✅ | ✅ | — | — | — |
pitch_shift、pitch_variance、speed、duration | ✅ | ✅ | speedのみ | speedのみ | ✅ |
similarity、text_guidance | ✅ | — | — | — | ✅ |
subharmonic_amplitude_control | — | — | — | — | ✅ |
関連項目
ボイス設定
各ボイス設定パラメータと対応モデルのリファレンス。
ボイス
言語およびスタイル要件にマッチするボイスIDを見つけましょう。
オンデバイスTTS
API呼び出しもネットワーク往復もなしで、CPU上でローカルにTTSを実行したいとお考えですか?Supertoneは同じSupertonic 3ファミリーのオープンウェイトモデル — Supertonic 3(99Mパラメータ、ONNX Runtime、OpenRAIL-Mライセンス)も公開しています。Supertonic 3 — オンデバイスTTS ↗
ONNX Runtime経由でCPU上にローカル実行する、99MパラメータのオープンウェイトTTS — 31言語対応、GPU不要、クラウド不要、API不要。
supertonic_api_3とは別モデルです。重み、サンプル、SDK(Python、Node.js、Web、iOS、Android、C++)についてはプロジェクトサイトをご覧ください。