Inworld 1.5 Mini Text To SpeechがWaveSpeedAIに登場

Inworld 1.5 Mini テキスト読み上げがWaveSpeedAIに登場

音声はAIアプリケーションのデフォルトインターフェースになりつつあります。会話エージェントからインタラクティブゲームまで、テキストを自然な音声に変換する能力——即座に、かつ手頃なコストで——はあると便利なものではなく、必須要件となっています。WaveSpeedAIは、Inworld 1.5 Miniの提供開始を発表します。これは、わずか1,000文字あたり$0.005で自然な多言語音声合成を実現する、超高速・超低コストのテキスト読み上げモデルです。

Artificial Analysis TTSリーダーボードで第1位を獲得したチームであるInworld AIが開発したInworld 1.5 Miniは、スピードとスケールを予算内で必要とする開発者に、プロダクションレベルの音声合成を提供します。

Inworld 1.5 Miniとは？

Inworld 1.5 Miniは、レイテンシーに敏感な高ボリュームアプリケーション向けに特化して構築された、InworldのTTS-1.5ファミリーの軽量バリアントです。同ファミリーのInworld 1.5 Maxが最大限の自然さと表現力を優先するのに対し、Miniは超高速なレスポンスタイムを優先し、P90初回音声出力までのレイテンシーが130ms未満を達成します。これは前世代モデルより4倍高速です。

コンパクトなアーキテクチャにもかかわらず、Miniは品質を犠牲にしていません。TTS-1.5世代は、以前のInworldモデルと比較して30%高い表現力と40%の単語エラー率削減を実現しています。その結果、ほぼ瞬時に応答しながらも驚くほど自然な音声を出力するモデルが完成し、ミリ秒単位が重要なリアルタイムインタラクティブ体験に最適です。

主な機能

超低レイテンシー

P90初回音声出力までのレイテンシーが130ms未満 — 現在利用可能な最速クラスのTTSモデル
前世代のInworldより4倍高速
リアルタイム会話パイプラインとインタラクティブアプリケーション向けに最適化

15言語対応の65以上の多言語音声

Inworld 1.5 Miniは、以下をカバーする多様な音声ライブラリを搭載しています：

英語 — プロフェッショナルなナレーターから表現豊かなキャラクターボイスまで、25種類の個性的な音声
中国語 — 落ち着いた、エネルギッシュ、ナラティブスタイルを含む4種類の音声
日本語、韓国語 — 自然なイントネーションを持つネイティブスピーカーの音声
ヨーロッパ言語 — フランス語、ドイツ語、スペイン語、ポルトガル語、イタリア語、オランダ語、ポーランド語、ロシア語
南アジア・中東 — ヒンディー語、ヘブライ語、アラビア語

各音声には独自の個性があります——オーディオブックに最適なBlakeの豊かで親密なトーン、ゲームのヴィランに完璧なDominusの不気味なロボット的質感、瞑想コンテンツに適したLunaの落ち着いたケイデンスなど。

きめ細かなコントロール

話速調整 — アナウンスには速く、ドラマチックなナレーションには遅く
温度コントロール — 低い値は一貫した予測可能な出力に、高い値はよりダイナミックで表現豊かな出力に
シンプルなパラメータセット — テキスト、音声、レート、温度のみ。複雑な設定は不要。

比類ない価格設定

1,000文字あたり$0.005で、Inworld 1.5 Miniは市場で最も手頃なTTSソリューションの一つです——同等の品質レベルの競合モデルと比較して最大25倍お得。文字数は1,000単位に切り上げられ、透明で予測可能な請求体系です。

文字数	コスト
1,000文字まで	$0.005
5,000文字まで	$0.025
10,000文字まで	$0.050

実際のユースケース

会話AIと音声エージェント

Inworld 1.5 Miniの130ms未満のレイテンシーは、音声対応チャットボット、カスタマーサービスエージェント、バーチャルアシスタントに最適な選択肢です。ユーザーは、遅いTTSシステムにありがちな不自然な沈黙なしに、流暢で自然な会話を体験できます。多言語音声ライブラリにより、初日からグローバルにデプロイできます。

ゲームとインタラクティブエンターテインメント

即座に表現豊かな音声合成でNPCダイアログ、ゲーム内ナレーション、キャラクターボイスを強化します。Hades（威圧的でしゃがれた声）、Pixie（高くて遊び心のある声）、Edward（早口でストリートスマートな声）などの音声を使えば、ゲーム開発者はすぐに使えるキャラクターキャストを手に入れられます——プロトタイピングやインディー制作に声優は不要です。

大量コンテンツ制作

eラーニングプラットフォーム、自動ニュースサービス、アクセシビリティレイヤー向けに数千の音声クリップを生成する必要がありますか？Miniの低コストと高速処理の組み合わせにより、大規模なバッチ音声生成が経済的に実現可能です。草稿や反復作業に使用し、最終品質が重要な本番制作時にはInworld 1.5 Maxに切り替えてください。

多言語コンテンツ配信

単一のAPIエンドポイントから15言語の音声コンテンツを作成できます。アプリをローカライズする場合でも、多言語ポッドキャストを制作する場合でも、翻訳パイプラインを構築する場合でも、Miniは各言語でネイティブ品質の発音とイントネーションで対応します。

アクセシビリティ

記事、ドキュメント、通知などの書面コンテンツを手頃なコストで音声に変換し、視覚障害のあるユーザーや読むよりも聴く方が好きなユーザーにとってアクセスしやすい製品を作りましょう。

WaveSpeedAIで始める

WaveSpeedAIでInworld 1.5 Miniを使用するには、わずか数行のコードで始められます：

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "text": "A clear example input",
    "voice_id": "Alex",
    "speaking_rate": 1,
    "temperature": 1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/inworld/inworld-1.5-mini/text-to-speech", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

ステップバイステップ

テキストを準備する — 音声に変換したいコンテンツを入力またはペーストする
音声を選ぶ — 15言語対応の65以上の音声プリセットから選択する（例：温かみのある自然な声にはAshley、ラジオアナウンサーのエネルギーにはCarter、フレンドリーな日本語にはAsuka）
デリバリーを調整する — ペーシングにはspeaking_rate、表現力にはtemperatureを設定する
生成する — リクエストを送信し、ダウンロード可能な音声ファイルを受け取る

プロのヒント

自然なペーシングにはspeaking_rateを1.0前後に保つ——ドラマチックな読み上げには低く、クイックアナウンスには高く設定する
低いtemperatureはより一貫した予測可能な出力を生成する——自動化システムに最適
長いテキストは論理的な段落に分割して、より良いペーシングと自然な間を作る
最良の発音のために、常に音声言語をテキスト言語に合わせる
迅速なプロトタイピングにはMiniから始め、最終的な本番音声にはInworld 1.5 Maxにアップグレードする

なぜWaveSpeedAI？

WaveSpeedAI経由でInworld 1.5 Miniを実行すると、単なるモデルアクセス以上のものが得られます：

コールドスタートなし — リクエストは初期化遅延ゼロで即座に処理される
最高のパフォーマンス — 最適化されたインフラが一貫して高速なレスポンスタイムを提供
手頃な価格 — 隠れた費用のない透明な従量課金制
シンプルなREST API — わかりやすい推論エンドポイントで任意のアプリケーションに統合可能
本番対応 — 高可用性でスケールの信頼性のために構築

まとめ

Inworld 1.5 Miniは、開発者が求めていたスイートスポットを実現しています：リアルタイムアプリケーションに十分な速さ、大量本番環境に十分な手頃さ、そして65以上の表現豊かな音声で15言語をカバーする汎用性。Artificial Analysis LeaderboardでNo.1にランクされたTTS技術に支えられ、WaveSpeedAIのゼロコールドスタートインフラを通じて提供されるため、アプリケーションに自然な音声を追加する最も実用的な方法です。

音声エージェントの構築、ゲームダイアログの生成、多言語コンテンツの制作、または製品のアクセシビリティ向上など、WaveSpeedAI上のInworld 1.5 Miniはスピード、品質、手頃さを兼ね備え、それを実現します。

今すぐWaveSpeedAIでInworld 1.5 Miniを試す、プロダクションレベルの音声合成をわずかなコストで構築を始めましょう。