Predict duration

Predict text-to-speech duration

curl --request POST \
  --url https://supertoneapi.com/v1/predict-duration/{voice_id} \
  --header 'Content-Type: application/json' \
  --header 'x-sup-api-key: <api-key>' \
  --data '
{
  "text": "<string>",
  "language": "en",
  "style": "<string>",
  "model": "sona_speech_1",
  "output_format": "wav",
  "voice_settings": {
    "pitch_shift": 0,
    "pitch_variance": 1,
    "speed": 1,
    "duration": 0,
    "similarity": 3,
    "text_guidance": 1,
    "subharmonic_amplitude_control": 1
  }
}
'

{
  "duration": 123
}

POST

predict-duration

{voice_id}

Predict text-to-speech duration

curl --request POST \
  --url https://supertoneapi.com/v1/predict-duration/{voice_id} \
  --header 'Content-Type: application/json' \
  --header 'x-sup-api-key: <api-key>' \
  --data '
{
  "text": "<string>",
  "language": "en",
  "style": "<string>",
  "model": "sona_speech_1",
  "output_format": "wav",
  "voice_settings": {
    "pitch_shift": 0,
    "pitch_variance": 1,
    "speed": 1,
    "duration": 0,
    "similarity": 3,
    "text_guidance": 1,
    "subharmonic_amplitude_control": 1
  }
}
'

{
  "duration": 123
}

このAPIは音声を実際に生成せず、入力されたテキストを基に予想音声長（秒単位）のみを返します。
TTS呼び出し前に予想クレジット消費量を把握したり、テキスト長を調節する際に有用です。

エンドポイント

https://supertoneapi.com/v1/predict-duration/{voice_id}

リクエストパラメータ

Item	Required	Description
`text`	Yes	解析するテキストです。最大 300 文字です。
`language`	Yes	テキストの言語です。`ko`、`en`、`ja` のいずれかです。
`style`	No	感情スタイルです。未指定の場合はデフォルトスタイルが使用されます。
`model`	No	デフォルトは `sona_speech_1` です。現在はこのモデルのみ利用可能です。
`voice_settings`	No	発話速度やピッチの調整値です。結果の長さに影響する場合があります。

使用方式

呼び出し方法と Request Body は text-to-speech API とほぼ同一です。
ただしオーディオは返されず、結果として duration のみが返ります。
Predict Duration API の呼び出しではクレジットは消費されません。
実際のクレジットは減りません。（音声生成が行われないため）
同一テキストで実際に呼び出した場合と非常に近い結果を得られます。
voice_settings.speed を調整すると長さが変わるため、一定の発話速度でテストすることをおすすめします。

Authorizations

x-sup-api-key

string

header

required

Path Parameters

voice_id

string

required

Body

application/json

text

string

required

The text to convert to speech. Max length is 300 characters.

Maximum string length: 300

language

enum<string>

required

Language code of the voice

Available options:

en,

ko,

ja

style

string

The style of character to use for the text-to-speech conversion

model

string

default:sona_speech_1

The model type to use for the text-to-speech conversion

output_format

enum<string>

default:wav

The desired output format of the audio file (wav, mp3). Default is wav.

Available options:

wav,

mp3

voice_settings

object

Show child attributes

voice_settings.pitch_shift

number

default:0

Required range: -24 <= x <= 24

voice_settings.pitch_variance

number

default:1

Required range: 0 <= x <= 2

voice_settings.speed

number

default:1

Required range: 0.5 <= x <= 2

voice_settings.duration

number

default:0

Duration parameter for TTS generation

Required range: 0 <= x <= 60

voice_settings.similarity

number

default:3

Similarity parameter for voice matching

Required range: 1 <= x <= 5

voice_settings.text_guidance

number

default:1

Text guidance parameter for generation control

Required range: 0 <= x <= 4

voice_settings.subharmonic_amplitude_control

number

default:1

Subharmonic amplitude control parameter

Required range: 0 <= x <= 2

Response

Returns predicted duration of the audio in seconds

duration

number

Stream speech

Get usage

⌘I

Supertone API

Voices

Custom voices

Text to speech

Usage

エンドポイント

リクエストパラメータ

使用方式

Authorizations

Path Parameters

Body

Response

Supertone API

Voices

Custom voices

Text to speech

Usage

​エンドポイント

​リクエストパラメータ

​使用方式

Authorizations

Path Parameters

Body

Response

エンドポイント

リクエストパラメータ

使用方式