Convert text to speech
Text to speech
Create speech
選択したボイスを使用して、テキストを完全な音声ファイルに変換します。
POST
Convert text to speech
このドキュメントは英語の原文から自動翻訳されています。表現に不自然な箇所がある場合があります。正確な内容は英語の原文もあわせてご確認ください。
エンドポイント
パスパラメータ
| Name | Required | Description |
|---|---|---|
voice_id | ✅ | 対象ボイスの ID です。 |
リクエストボディ
| Name | Required | Description |
|---|---|---|
text | ✅ | 変換対象のテキストです。最大 300 文字。 より長い入力には SDK の利用、またはクライアント側での分割をご検討ください。 |
language | ✅ | 言語コード(例: en、ko、ja)です。ボイスとモデルの両方でサポートされている必要があります。 |
style | — | 感情スタイル(例: neutral、happy)です。未指定の場合はボイスのデフォルトスタイルが適用されます。 |
model | — | TTS モデルです。デフォルトは sona_speech_1。 |
output_format | — | wav(デフォルト)または mp3。 |
voice_settings | — | 高度なボイスパラメータです(下記参照)。 |
include_phonemes | — | true の場合、レスポンスは Base64 オーディオと音素タイミングデータを含む JSON に切り替わります。デフォルト: false。 |
normalized_text | — | 発音正規化された補助テキストです(sona_speech_2 および sona_speech_2_flash で使用され、主に日本語向け)。 |
モデル別対応言語
| Model | Languages |
|---|---|
sona_speech_2, sona_speech_2_flash | en, ko, ja, bg, cs, da, el, es, et, fi, hu, it, nl, pl, pt, ro, ar, de, fr, hi, id, ru, vi |
supertonic_api_3 | en, ko, ja, ar, bg, cs, da, de, el, es, et, fi, fr, hi, hr, hu, id, it, lt, lv, nl, pl, pt, ro, ru, sk, sl, sv, tr, uk, vi |
supertonic_api_1 | en, ko, ja, es, pt |
sona_speech_1 | en, ko, ja |
ボイス設定
サポートされていない設定は警告なく無視されます(エラーにはなりません)。| Name | Range | Default | Description |
|---|---|---|---|
pitch_shift | -24 → 24 | 0 | 半音(semitone)単位のピッチ調整です。 |
pitch_variance | 0 → 2 | 1 | ピッチ変動の度合いです。 |
speed | 0.5 → 2 | 1 | 再生レートの倍率です。duration の後に適用されます。 |
duration | 0 → 60 | 0 | 非ゼロを指定すると、その長さ(秒)に合わせて音声を生成します。 |
similarity | 1 → 5 | 3 | 生成音声が元のキャラクターボイスにどれだけ近いかを制御します。 |
text_guidance | 0 → 4 | 1 | 入力テキストの内容に対して発話特性がどの程度敏感に適応するかを制御します。 |
subharmonic_amplitude_control | 0 → 2 | 1 | 生成音声のサブハーモニック振幅量を制御します。 |
モデル別のボイス設定
| Setting | sona_speech_2 | sona_speech_2_flash | supertonic_api_3 | supertonic_api_1 | sona_speech_1 |
|---|---|---|---|---|---|
pitch_shift, pitch_variance, duration | ✅ | ✅ | — | — | ✅ |
speed | ✅ | ✅ | ✅ | ✅ | ✅ |
similarity, text_guidance | ✅ | — | — | — | ✅ |
subharmonic_amplitude_control | — | — | — | — | ✅ |
レスポンス
デフォルト(include_phonemes=false): ボディにバイナリオーディオを返します。
Content-Type: audio/wavまたはaudio/mpeg(output_formatに対応)。X-Audio-Lengthヘッダー: 生成音声の長さ(秒)です。
include_phonemes=true の場合: Base64 オーディオと音素配列を含む JSON ボディです。
注意事項
textが 300 文字を超えると400を返します。自動チャンキングには Python または TypeScript SDK をご利用いただくか、手動で分割してください(長文 を参照)。speedはdurationの後に適用されます。duration=5とspeed=2を指定すると、約 10 秒のオーディオが生成されます。styleを省略した場合は、ボイスのstyles配列の最初の値が使用されます。デフォルトはボイスごとに異なる場合があるため、ボイス取得 で確認してください。
関連項目
Docs: Create speech
SDK サンプル付きの解説。
Stream speech
クリップ全体を待たずに、オーディオチャンクをストリーミングします。
Authorizations
Path Parameters
Body
application/json
The text to convert to speech
Maximum string length:
300The language code of the text
Available options:
en, ko, ja, bg, cs, da, el, es, et, fi, hu, it, nl, pl, pt, ro, ar, de, fr, hi, id, ru, vi, hr, lt, lv, sk, sl, sv, tr, uk The style of character to use for the text-to-speech conversion
The model type to use for the text-to-speech conversion
Available options:
sona_speech_1, sona_speech_2, sona_speech_2_flash, supertonic_api_1, supertonic_api_3 The desired output format of the audio file (wav, mp3). Default is wav.
Available options:
wav, mp3 Return phoneme timing data with the audio
Pre-normalized text for TTS. Only used with sona_speech_2 and sona_speech_2_flash models.
Response
Returns either binary audio or JSON with phoneme data based on include_phonemes parameter
Binary audio file (when include_phonemes=false or omitted)