このドキュメントは英語の原文から自動翻訳されています。表現に不自然な箇所がある場合があります。正確な内容は英語の原文もあわせてご確認ください。
create_speechに渡すと、SDKが文の区切りで分割し、各セグメントを生成して結合します。
Python
TypeScript
内部での処理の流れ
- SDKは
SCRIPT.length > 300であることを検出します。 - まず文の区切り記号で分割し、1文自体が長すぎる場合は単語境界でさらに分割します。
- PythonのSDKは最大3つの
create_speechリクエストを並列に実行し、TypeScriptのSDKは順次実行します。 - 各セグメントは完結したオーディオファイルとして返されます。
- SDKは2つ目以降の各セグメントからWAVヘッダーを取り除き、バイト列を1つの連続したクリップに連結します。
- 結果として、単一セグメントのレスポンスと同じ形式の、そのまま再生できるファイルが1つ返ります。
ヒント
- 句読点が効きます。 適切に句読点が付いた原文ほど、きれいな切れ目で分割できます。スクリプトが機械翻訳や文字起こし由来の場合は、
./?/!を補うと結果が改善します。 - ボイス設定は引き継がれます。 同じ
voice_settingsがすべてのセグメントに適用されるため、結合後の音声も一貫した印象になります。 - 事前に見積もりましょう。
predict_durationは自動チャンク分割を行いませんが、スクリプトを数文に分けてそれぞれpredict_durationを呼び出し、長さを合計することでコストを見積もれます。 - 適切なモデルを選んでください。 長文ナレーションでは
sona_speech_2が最も自然な発話を生成します。多数のナレーションを高速に生成する必要がある場合はsona_speech_2_flashに切り替えてください。
関連情報
長文テキスト
300文字制限とチャンク分割の挙動に関する完全なリファレンスです。
ボイス設定
ナレーションの発話表現を細かく調整できます。