Predict text-to-speech duration
Text to speech
Predict duration
オーディオを生成せず、クレジットも消費せずに、指定したテキストから生成される音声の長さを推定します。
POST
Predict text-to-speech duration
このドキュメントは英語の原文から自動翻訳されています。表現に不自然な箇所がある場合があります。正確な内容は英語の原文もあわせてご確認ください。
このエンドポイントは クレジットを消費しません。300 文字の上限は適用され、自動チャンキングは行われません。
エンドポイント
パスパラメータ
| Name | Required | Description |
|---|---|---|
voice_id | ✅ | 対象ボイスの ID です。 |
リクエストボディ
音声生成 と同じ形式で、text、language、style、model、voice_settings を指定します。長さに影響しない output_format、include_phonemes、normalized_text は含まれません。
| Name | Required | Description |
|---|---|---|
text | ✅ | 解析対象のテキストです。最大 300 文字。 |
language | ✅ | 言語コードです。ボイスとモデルの両方でサポートされている必要があります。 |
style | — | 感情スタイルです。デフォルトはボイスの最初のスタイルです。 |
model | — | TTS モデルです。デフォルトは sona_speech_1。 |
voice_settings | — | speed と duration を通じて長さに影響します。全項目は 音声生成 のテーブルをご参照ください。 |
リクエスト例
レスポンス
注意事項
- 予測時には、実際の
create_speech呼び出しと 同じmodelとspeedを指定してください。両方が結果に影響します。異なる速度で予測と生成を行うと、長さに不整合が生じます。 - クレジットは差し引かれません。 UI のヒント表示や予算の事前チェックに安全にご利用いただけます。
関連項目
Docs: Cost and usage
予測と予算管理に predict_duration を活用する方法。
Create speech
見積もりを確認したうえで、実際にオーディオを生成します。
Authorizations
Path Parameters
Body
application/json
The text to convert to speech. Max length is 300 characters.
Maximum string length:
300Language code of the voice
Available options:
en, ko, ja, bg, cs, da, el, es, et, fi, hu, it, nl, pl, pt, ro, ar, de, fr, hi, id, ru, vi, hr, lt, lv, sk, sl, sv, tr, uk The style of character to use for the text-to-speech conversion
The model type to use for the text-to-speech conversion
Available options:
sona_speech_1, sona_speech_2, sona_speech_2_flash, supertonic_api_1, supertonic_api_3 The desired output format of the audio file (wav, mp3). Default is wav.
Available options:
wav, mp3 Response
Returns predicted duration of the audio in seconds