エンドポイント
パスパラメータ
| Name | Required | Description |
|---|---|---|
voice_id | Yes | 対象ボイスの ID です。 |
リクエストボディ
| Name | Required | Description |
|---|---|---|
text | Yes | 変換するテキストです(最大 300 文字)。 |
language | Yes | 言語コードです。サポート: en, ko, ja。 |
style | No | 感情スタイルです。例: neutral, happy, sad など。未指定の場合はキャラクターのデフォルトが適用されます。 |
model | No | TTS モデルです。デフォルト: sona_speech_1。 |
output_format | No | 出力フォーマットです。オプション: wav, mp3。デフォルト: wav。 |
voice_settings | No | 高度なボイスパラメータです(下記参照)。 |
include_phonemes | No | true の場合、オーディオ(Base64 エンコード)に加えて音素タイミングデータを返します。デフォルト: false。 |
| Name | Range | Default | Description |
|---|---|---|---|
pitch_shift | -24 → 24 | 0 | 半音(semitone)単位のピッチ調整です。 |
pitch_variance | 0 → 2 | 1 | ピッチ変動の度合いです。 |
speed | 0.5 → 2 | 1 | 生成オーディオを一様に速く/遅くします(比率)。 |
duration | 0 → 60 | 0 | 値を指定すると、その長さ(秒)に合わせて音声が生成されます。 |
similarity | 1 → 5 | 3 | 生成音声が元のキャラクターボイスにどれだけ近いかを制御します。 |
text_guidance | 0 → 4 | 1 | 入力テキストに対して発話特性がどの程度敏感に適応するかを制御します。 |
subharmonic_amplitude_control | 0 → 2 | 1 | 生成音声のサブハーモニック振幅量を制御します。 |
レスポンス
include_phonemes に応じて次のいずれかを返します。 バイナリオーディオ**(デフォルト & include_phonemes=false の場合)
audio/wav – 生の WAV ファイル。
audio/mpeg – 生の MP3 ファイル。 音素データ付き JSON
(include_phonemes=true の場合)
注意事項
- text が 300 文字を超えると 400 エラーになります。
- speed は duration の後に適用されます。(例: duration=5seconds, speed=2times → 最終オーディオ ≈ 10seconds)
- style を指定しなくても呼び出せますが、デフォルトスタイルはキャラクターによって異なる場合があります。デフォルトスタイルは Get Voices API で確認してください(styles 配列の先頭がデフォルト)。
- レスポンスのオーディオファイルは直接保存・再生できます(クライアントに応じて適切な処理が必要な場合があります)。
Authorizations
Path Parameters
Body
application/json
The text to convert to speech
Maximum length:
300The language code of the text
Available options:
en, ko, ja The style of character to use for the text-to-speech conversion
The model type to use for the text-to-speech conversion
The desired output format of the audio file (wav, mp3). Default is wav.
Available options:
wav, mp3 Return phoneme timing data with the audio
Response
Returns either binary audio or JSON with phoneme data based on include_phonemes parameter
Binary audio file (when include_phonemes=false or omitted)