Text to Speech
Predict Duration
音声を生成せずに予想長さのみを返すAPIで、課金予測やテキスト長調節に活用できます。
POST
このAPIは音声を実際に生成せず、
入力されたテキストを基に予想音声長(秒単位)のみを返します。
TTS呼び出し前に予想クレジット消費量を把握したり、テキスト長を調節する際に有用です。
使用方式
- 呼び出し方式とRequest Bodyは
text-to-speech
APIとほぼ同じです。 - ただし、結果としてオーディオではなく
duration
値のみが返されます。 - Predict Duration API呼び出し時にはクレジットが消費されません。
Request Body項目説明
項目 | 必須 | 説明 |
---|---|---|
text | ✅ | 分析対象テキスト。最大300文字 |
language | ✅ | テキスト言語。ko 、en 、ja のうち一つ |
style | ❌ | 感情スタイル。指定しない場合はdefaultスタイルが使用されます |
model | ❌ | デフォルト値はsona_speech_1 。現在は該当モデルのみ使用可能 |
voice_settings | ❌ | 発話速度やピッチ調節値。結果長に影響を与える可能性があります |
使用例
レスポンス例
該当テキストを生成すると約3.57秒分のオーディオが作られるという意味です。
活用のコツ
- クレジットは実際に差し引かれません。(音声生成が行われないため)
- 同じテキストを実際に呼び出す時とほぼ類似した結果を得ることができます。
voice_settings.speed
を調節すると長さが変わるため、固定された発話速度でテストすることをお勧めします。
Headers
API key for the service
Path Parameters
Body
application/json
Response
200
application/json
Returns predicted duration of the audio in seconds
The response is of type object
.