モデル - Supertone API Documentation

このドキュメントは英語の原文から自動翻訳されています。表現に不自然な箇所がある場合があります。正確な内容は英語の原文もあわせてご確認ください。

Supertoneは、品質、レイテンシ、対応言語、設定の自由度に関してそれぞれ異なるトレードオフを持つ5つのTTSモデルを提供しています。このページを参考に、製品に適したモデルを選択してください。

選び方

求めるもの	おすすめ
最高品質、23言語対応 — ナレーション、オーディオブック	`sona_speech_2`
速度と品質のバランス — 品質基準のあるインタラクティブなアプリ	`sona_speech_2_flash`
最速の応答と高い発話安定性、31言語対応 — ボイスエージェント、リアルタイムインタラクション	`supertonic_api_3`
チャンク単位のストリーミング、または全ボイス設定への対応	`sona_speech_1`

モデルはリクエストごとにmodelフィールドで指定します。省略した場合のデフォルトはsona_speech_1です。

モデル一覧

モデル	位置付け	言語数	ボイス設定	主な機能
`sona_speech_2`	最高品質	23	`subharmonic_amplitude_control`を除くすべて	音素、正規化テキスト
`sona_speech_2_flash`	速度と品質のバランス	23	`pitch_shift`、`pitch_variance`、`speed`、`duration`	音素、正規化テキスト
`supertonic_api_3`	超軽量、最低レイテンシ、発話安定性の向上	31	`speed`のみ	—
`supertonic_api_1`	レガシーのsupertonicモデル	5	`speed`のみ	—
`sona_speech_1`	レガシーフラッグシップ	3	すべてのボイス設定	ストリーミング、音素

モデル詳細

sona_speech_2

プラットフォーム上で最も自然かつ最高品質のボイスで、幅広い多言語対応を備えています。ナレーション、オーディオブック、キャラクター対話、プロダクション品質のマーケティング音声など、レイテンシよりも品質が重要な場面でおすすめです。

対応言語（23）： en、ko、ja、bg、cs、da、el、es、et、fi、hu、it、nl、pl、pt、ro、ar、de、fr、hi、id、ru、vi
ボイス設定： subharmonic_amplitude_controlを除くすべてのパラメータ
追加機能： include_phonemes（リップシンク用のタイムスタンプ）、normalized_text（発音制御）
ストリーミング： 非対応

sona_speech_2_flash

sona_speech_2の軽量版で、同じ多言語対応を保ちながら低レイテンシ向けに最適化されています。応答時間を重視しつつ十分な品質も求めたい場合に使用してください。例えば、インタラクティブなエージェントや大規模なバッチ生成などです。

対応言語（23）： sona_speech_2と同じ
ボイス設定： pitch_shift、pitch_variance、speed、duration
追加機能： include_phonemes、normalized_text
ストリーミング： 非対応

supertonic_api_3

supertonic_api_1の次世代後継モデルで、発話安定性が大幅に向上しています。オープンウェイトのSupertonic 3リリースとは異なる学習が行われており、このAPIバリアントはsupertonic_api_1の超低レイテンシプロファイルを引き継ぎつつ、はるかに信頼性の高い発音と読み間違いの低減を実現しています。最初の音声が返るまでの時間が最優先となるボイスエージェント、チャットボット、リアルタイム体験において最適なデフォルトです。

対応言語（31）： en、ko、ja、ar、bg、cs、da、de、el、es、et、fi、fr、hi、hr、hu、id、it、lt、lv、nl、pl、pt、ro、ru、sk、sl、sv、tr、uk、vi
ボイス設定： speedのみ — 他の設定は黙って無視されます
追加機能： —
ストリーミング： 非対応（ただし1回あたりのレイテンシが非常に低いため、ストリーミングは通常不要です）

supertonic_api_1

レガシーのsupertonicモデルです。supertonic_api_3に置き換えられました。supertonic_api_3は同等のレイテンシプロファイルを保ちつつ、より広い言語対応と大幅に向上した発話安定性を提供します。supertonic_api_1は、既存の連携がこのモデルに固定されている場合のみご利用ください。新規プロジェクトではsupertonic_api_3を使用してください。

対応言語（5）： en、ko、ja、es、pt
ボイス設定： speedのみ — 他の設定は黙って無視されます
追加機能： —
ストリーミング： 非対応

sona_speech_1

レガシーフラッグシップです。すべてのボイス設定に対応しており、現時点でチャンク単位のストリーミング（stream_speech）をサポートしている唯一のモデルです。多くの用途では新しいモデルから始めることをおすすめします。stream_speechの出力や、完全なファインチューニングパラメータ（similarity、text_guidance、subharmonic_amplitude_control）が特に必要な場合にsona_speech_1を選択してください。

対応言語（3）： en、ko、ja
ボイス設定： すべてのパラメータ
追加機能： include_phonemes
ストリーミング： 対応

対応言語

languageはすべてのTTSリクエストで必須であり、モデルと選択したボイスの両方が対応している値である必要があります（ボイスのlanguage配列を確認してください）。

コード	言語	`sona_speech_2`	`sona_speech_2_flash`	`supertonic_api_3`	`supertonic_api_1`	`sona_speech_1`
`en`	英語	✅	✅	✅	✅	✅
`ko`	韓国語	✅	✅	✅	✅	✅
`ja`	日本語	✅	✅	✅	✅	✅
`es`	スペイン語	✅	✅	✅	✅	—
`pt`	ポルトガル語	✅	✅	✅	✅	—
`de`	ドイツ語	✅	✅	✅	—	—
`fr`	フランス語	✅	✅	✅	—	—
`it`	イタリア語	✅	✅	✅	—	—
`nl`	オランダ語	✅	✅	✅	—	—
`pl`	ポーランド語	✅	✅	✅	—	—
`ro`	ルーマニア語	✅	✅	✅	—	—
`cs`	チェコ語	✅	✅	✅	—	—
`da`	デンマーク語	✅	✅	✅	—	—
`el`	ギリシャ語	✅	✅	✅	—	—
`et`	エストニア語	✅	✅	✅	—	—
`fi`	フィンランド語	✅	✅	✅	—	—
`hu`	ハンガリー語	✅	✅	✅	—	—
`bg`	ブルガリア語	✅	✅	✅	—	—
`ar`	アラビア語	✅	✅	✅	—	—
`hi`	ヒンディー語	✅	✅	✅	—	—
`id`	インドネシア語	✅	✅	✅	—	—
`ru`	ロシア語	✅	✅	✅	—	—
`vi`	ベトナム語	✅	✅	✅	—	—
`hr`	クロアチア語	—	—	✅	—	—
`lt`	リトアニア語	—	—	✅	—	—
`lv`	ラトビア語	—	—	✅	—	—
`sk`	スロバキア語	—	—	✅	—	—
`sl`	スロベニア語	—	—	✅	—	—
`sv`	スウェーデン語	—	—	✅	—	—
`tr`	トルコ語	—	—	✅	—	—
`uk`	ウクライナ語	—	—	✅	—	—

言語は小文字のISOコード文字列として渡してください。

response = client.text_to_speech.create_speech(
    voice_id=VOICE_ID,
    text="Hello!",
    language="en",
    model="sona_speech_2",
)

多言語コンテンツを扱う場合は、1つのtext内で言語を混在させるのではなく、言語ごとに別々のリクエストを送ってください。漢字、数字、単位、記号を含む日本語入力については、正規化テキストを参照してください。

機能対応マトリックス

機能	`sona_speech_2`	`sona_speech_2_flash`	`supertonic_api_3`	`supertonic_api_1`	`sona_speech_1`
ストリーミング（`stream_speech`）	—	—	—	—	✅
`include_phonemes`	✅	✅	—	—	✅
`normalized_text`	✅	✅	—	—	—
`pitch_shift`、`pitch_variance`、`speed`、`duration`	✅	✅	`speed`のみ	`speed`のみ	✅
`similarity`、`text_guidance`	✅	—	—	—	✅
`subharmonic_amplitude_control`	—	—	—	—	✅

ボイス設定

各ボイス設定パラメータと対応モデルのリファレンス。

ボイス

言語およびスタイル要件にマッチするボイスIDを見つけましょう。

オンデバイスTTS

API呼び出しもネットワーク往復もなしで、CPU上でローカルにTTSを実行したいとお考えですか？Supertoneは同じSupertonic 3ファミリーのオープンウェイトモデル — Supertonic 3（99Mパラメータ、ONNX Runtime、OpenRAIL-Mライセンス）も公開しています。

Supertonic 3（オープンウェイト）はsupertonic_api_3とは別のモデルです。 ファミリー名と系統は共通していますが、学習方法が異なり、生成されるオーディオも異なります。本APIで提供されているのはAPIモデル（supertonic_api_3）であり、オープンウェイトモデルはオンデバイス向けの別リリースです。音声品質、対応ボイス、挙動の同等性を前提にしないでください。

Supertonic 3 — オンデバイスTTS ↗

ONNX Runtime経由でCPU上にローカル実行する、99MパラメータのオープンウェイトTTS — 31言語対応、GPU不要、クラウド不要、API不要。supertonic_api_3とは別モデルです。重み、サンプル、SDK（Python、Node.js、Web、iOS、Android、C++）についてはプロジェクトサイトをご覧ください。

​選び方

​モデル一覧

​モデル詳細

​sona_speech_2

​sona_speech_2_flash

​supertonic_api_3

​supertonic_api_1

​sona_speech_1

​対応言語

​機能対応マトリックス

​関連項目

ボイス設定

ボイス

​オンデバイスTTS

Supertonic 3 — オンデバイスTTS ↗

選び方

モデル一覧

モデル詳細

sona_speech_2

sona_speech_2_flash

supertonic_api_3

supertonic_api_1

sona_speech_1

対応言語

機能対応マトリックス

関連項目

オンデバイスTTS