テキストを音声に変換するためのパラメータ構造と使用法をステップバイステップでご案内します。
voice_id
:使用するボイスの固有IDoutput_format
(選択):生成するオーディオ形式。wav
(デフォルト)、mp3
から選択可能フィールド | 必須 | 説明 |
---|---|---|
text | ✅ | 音声に変換するテキスト(最大300文字) |
language | ✅ | テキストの言語。ボイスがサポートする言語の中から選択(ko 、en 、ja ) |
style | ❌ | 適用する感情スタイル (neutral, happy など)。未入力の場合、デフォルトスタイルを使用します。最初の値がデフォルトスタイルになります。 |
model | ❌ | 使用する音声モデル(sona_speech_1 )。省略時は自動適用 |
voice_settings | ❌ | 音声のピッチ、イントネーション、速度を調節する高度なオプション(下記参照) |
voice_settings
選択voice_settings
は、生成される音声の発話感を細かく調整したい場合に使用できる高度なオプションです。
パラメータ | 説明 | 許可範囲 | デフォルト値 |
---|---|---|---|
pitch_shift | 音程の高低を調整します。 0は元のボイスの音程で、±12段階まで可能です。1段階は半音です。 | -12 ~ +12 | 0 |
pitch_variance | 発話中のイントネーション変化の程度を調節します。 小さいほど平坦なイントネーション、大きいほど豊かなイントネーションを生成します。 | 0.1 ~ 2 | 1 |
speed | 発話速度を調節します。 1より小さいと遅くなり、大きいと速くなります。 | 0.5 ~ 2 | 1 |
audio/wav
またはaudio/mpeg
)でレスポンスされます。sona_speech_1
一つです。