Stream speech

エンドポイント

https://supertoneapi.com/v1/text-to-speech/{voice_id}/stream

パスパラメータ

Name	Required	Description
`voice_id`	Yes	対象ボイスの ID です。

リクエストボディ

Name	Required	Description
`text`	Yes	変換するテキストです（最大 300 文字）。
`language`	Yes	言語コードです。サポート: `en`, `ko`, `ja`。
`style`	No	感情スタイルです。例: `neutral`, `happy`, `sad` など。未指定の場合はキャラクターのデフォルトが適用されます。
`model`	No	TTS モデルです。デフォルト: `sona_speech_1`。
`output_format`	No	出力フォーマットです。オプション: `wav`, `mp3`。デフォルト: `wav`。
`voice_settings`	No	高度なボイスパラメータです（下記参照）。
`include_phonemes`	No	`true` の場合、オーディオ（Base64 エンコード）に加えて音素タイミングデータを返します。デフォルト: `false`。

ボイス設定（任意）

Name	Range	Default	Description
`pitch_shift`	-24 → 24	0	半音（semitone）単位のピッチ調整です。
`pitch_variance`	0 → 2	1	ピッチ変動の度合いです。
`speed`	0.5 → 2	1	生成オーディオを一様に速く／遅くします（比率）。
`duration`	0 → 60	0	値を指定すると、その長さ（秒）に合わせて音声が生成されます。
`similarity`	1 → 5	3	生成音声が元のキャラクターボイスにどれだけ近いかを制御します。
`text_guidance`	0 → 4	1	入力テキストに対して発話特性がどの程度敏感に適応するかを制御します。
`subharmonic_amplitude_control`	0 → 2	1	生成音声のサブハーモニック振幅量を制御します。

レスポンス

include_phonemes に応じて次のいずれかを返します。 Audio Stream
（デフォルト & include_phonemes=false の場合）
audio/wav – バイナリオーディオストリーム。
audio/mpeg – バイナリオーディオストリーム。 NDJSON stream with Phoneme Data
（include_phonemes=true の場合）
改行区切り JSON（Newline-Delimited JSON）としてストリーミングされます。

{
  "audio_base64": "UklGRnoGAABXQVZF...",
  "phonemes": {
    "symbols": ["", "h", "ɐ", "ɡ", "ʌ", ""],
    "start_times_seconds": [0, 0.092, 0.197, 0.255, 0.29, 0.58],
    "durations_seconds": [0.092, 0.104, 0.058, 0.034, 0.29, 0.162]
  }
}

注意事項

Stream Speech はベータ機能であり、現在は sona_speech_1 モデルのみでサポートされています。
text が 300 文字を超えると 400 エラーになります。
speed は duration の後に適用されます。（例: duration=5seconds, speed=2times → 最終的なオーディオ ≈ 10seconds）
style を指定しなくても呼び出せますが、デフォルトスタイルはキャラクターによって異なる場合があります。デフォルトは Get Voices API で確認してください（スタイル配列の先頭がデフォルト）。
返却されたオーディオファイルは保存または直接再生できます。（クライアントに応じて適切な処理が必要な場合があります。）

Authorizations

x-sup-api-key

string

header

required

Path Parameters

voice_id

string

required

Body

application/json

text

string

required

The text to convert to speech

Maximum string length: 300

language

enum<string>

required

The language code of the text

Available options:

en,

ko,

ja,

bg,

cs,

da,

el,

es,

et,

fi,

hu,

it,

nl,

pl,

pt,

ro,

ar,

de,

fr,

hi,

id,

ru,

vi

style

string

The style of character to use for the text-to-speech conversion

model

enum<string>

default:sona_speech_1

The model type to use for the text-to-speech conversion

Available options:

sona_speech_1,

sona_speech_2,

supertonic_api_1

output_format

enum<string>

default:wav

The desired output format of the audio file (wav, mp3). Default is wav.

Available options:

wav,

mp3

voice_settings

object

Show child attributes

voice_settings.pitch_shift

number

default:0

Required range: -24 <= x <= 24

voice_settings.pitch_variance

number

default:1

Required range: 0 <= x <= 2

voice_settings.speed

number

default:1

Required range: 0.5 <= x <= 2

voice_settings.duration

number

default:0

Duration parameter for TTS generation

Required range: 0 <= x <= 60

voice_settings.similarity

number

default:3

Similarity parameter for voice matching

Required range: 1 <= x <= 5

voice_settings.text_guidance

number

default:1

Text guidance parameter for generation control

Required range: 0 <= x <= 4

voice_settings.subharmonic_amplitude_control

number

default:1

Subharmonic amplitude control parameter

Required range: 0 <= x <= 2

include_phonemes

boolean

default:false

Return phoneme timing data with the audio

Response

Streaming audio data in binary format or NDJSON format with phoneme data based on includePhonemes parameter

Binary audio stream (when includePhonemes=false or omitted)

Supertone API

Voices

Custom voices

Text to speech

Usage

エンドポイント

パスパラメータ

リクエストボディ

ボイス設定（任意）

レスポンス

注意事項

Authorizations

Path Parameters

Body

Response

Supertone API

Voices

Custom voices

Text to speech

Usage

​エンドポイント

​パスパラメータ

​リクエストボディ

​ボイス設定（任意）

​レスポンス

​注意事項

Authorizations

Path Parameters

Body

Response

エンドポイント

パスパラメータ

リクエストボディ

ボイス設定（任意）

レスポンス

注意事項