Inworld 1.5 MaxがWaveSpeedAIに登場

#1位のボイスAI、フル機能で登場：Inworld 1.5 Max テキスト読み上げがWaveSpeedAIに対応

ボイスAIは転換点を迎えています。リアルタイムAIエージェント、インタラクティブエンターテインメント、多言語コンテンツプラットフォームが主流となる中、真に人間らしい音声を生成し、ミリ秒単位で応答するテキスト読み上げへの需要はかつてなく高まっています。WaveSpeedAIは、Inworld 1.5 Max の提供開始を発表します。これはInworldのTTS-1.5ファミリーのプレミアムモデルであり、ELOスコア1,160を獲得したArtificial Analysis リーダーボードで第1位のテキスト読み上げモデルです。ブラインド比較テストではElevenLabs Multilingual v2を52ポイント上回っています。

Inworld 1.5 Maxは、妥協を許さない開発者やクリエイターのために構築されています。最大限の表現力、最高の自然さ、最大限の言語カバレッジ——すべてをWaveSpeedAI上でコールドスタートなし、1,000文字あたり$0.01で提供します。

Inworld 1.5 Maxとは？

Inworld 1.5 Maxは、音声品質が最優先される用途向けに設計された、Inworld AIのTTS-1.5世代のフラッグシップモデルです。超低レイテンシと最小コストを最適化したInworld 1.5 Miniとは異なり、Maxは最も豊かで表現力あふれる音声合成を提供します——P90ファーストオーディオレイテンシ250ms未満を実現しながら、これは依然として前世代モデルより4倍高速です。

TTS-1.5世代は大きな飛躍を遂げています：以前のInworldモデルと比較して表現力が30%向上し、単語エラー率が40%低減されています。Maxはこれらの改善をさらに発展させ、より深い感情表現、より繊細なイントネーション、そして少ないアーティファクトを実現しています——業界全体のブラインド比較で、リスナーが最も自然と評価する音声を提供します。

主な機能

独立したベンチマークで検証された第1位の品質

Inworld TTS-1.5 MaxはArtificial Analysis TTSリーダーボードのトップ位置を保持しており、ElevenLabs、OpenAI、Googleなど競合モデルとの2,376回以上のブラインド比較投票によって評価されています。これはマーケティングではなく、測定・検証済みの品質優位性です。

15言語65以上のボイス

Inworld 1.5 MaxはTTS業界でも最も充実したボイスライブラリの一つを備えています：

英語 — プロのナレーター（Elizabeth）、温かみのある会話スタイル（Ashley、Dennis）、キャラクターボイス（Hades、Dominus、Pixie）、オーディオブック専門（Blake）、瞑想ガイド（Luna）など、25種類の個性的なボイス
中国語 — 落ち着いた、エネルギッシュ、ナラティブなスタイルの4ボイス
日本語・韓国語 — 本格的なイントネーションとリズムを持つネイティブ話者ボイス6種
ヨーロッパ言語 — フランス語、ドイツ語、スペイン語、ポルトガル語、イタリア語、オランダ語、ポーランド語、ロシア語——合計18ボイス
南アジア・中東言語 — ヒンディー語、ヘブライ語、アラビア語——プロフェッショナルなクオリティの6ボイス

すべてのボイスに個別の個性と用途があります。広告にはCarter のラジオアナウンサーエネルギー、オンボーディングにはOliviaのフレンドリーなブリティッシュな温かさ、ASMRコンテンツにはSvetlanaの柔らかく息遣いのあるトーン——最適なボイスがすでに揃っています。

細かな表現力コントロール

話速 — ゆっくりとした劇的な読み上げから高速なアナウンスまで、配信速度を調整
温度 — ダイナミックなキャラクターダイアログには表現力を上げ、安定した予測可能なIVRやナレーション出力には下げる
シンプルな設定 — text、voice_id、speaking_rate、temperatureの4パラメータだけ。複雑なSSMLマークアップ不要。

プレミアム品質での250ms未満のレイテンシ

Inworld 1.5 MaxはP90ファーストオーディオレイテンシ250ms未満を達成——プレミアム音声合成の深みを保ちながら、リアルタイム会話アプリケーションに十分な速さです。これはほとんどの人が遅延を感じる閾値より速く、音声エージェント、ライブ翻訳、インタラクティブ体験に適しています。

スケールでもお手頃な価格

1,000文字あたり$0.01で、Inworld 1.5 Maxは多くの競合プレミアムTTSモデルより25倍以上リーズナブルです。請求は透明——文字数は最近の1,000単位に切り上げ——隠れた料金、最低コミットメント、段階的な価格設定の複雑さはありません。

文字数	料金
1,000文字まで	$0.01
2,000文字まで	$0.02
5,000文字まで	$0.05
10,000文字まで	$0.10

実際のユースケース

プロダクション品質のボイスオーバーとオーディオブック

Inworld 1.5 Maxは、音声品質が主な関心事となる場面で優れた性能を発揮します。YouTubeナレーション、ポッドキャストイントロ、マーケティング動画、オーディオブックを制作するコンテンツクリエイターは、豊かな表現力と低いエラー率から恩恵を受けます。Blakeのようなボイスはオーディオブックリスナーが期待する親密で温かいトーンを提供し、Elizabethは企業コンテンツに必要な洗練されたプロフェッショナリズムを発揮します。

リアルタイム音声エージェントと会話AI

250ms未満で自然な音声で応答するカスタマーサービスエージェント、バーチャルアシスタント、AIコンパニオンを構築しましょう。リーダーボードトップの品質とリアルタイムパフォーマンスの組み合わせにより、ユーザーはスムーズな会話を体験できます——ぎこちない間で中断されるロボット的な出力ではなく。

ゲーム開発とインタラクティブエンターテインメント

フルボイスキャストを雇わずに、ゲームの世界を個性的なキャラクターボイスで満たしましょう。Hadesはダンジョンボスの威厳ある重みを表現します。Pixieはフェアリーコンパニオンのための弾んだ遊び心あるエネルギーを提供します。Dominusはサイファイのヴィランの不気味なロボット的トーンを演じます。65以上のボイスと表現力の温度コントロールにより、開発者はキャラクターダイアログをスケールでプロトタイプ化して出荷できます。

多言語コンテンツローカライゼーション

単一のAPIから15言語でオーディオコンテンツを生成し、グローバルオーディエンスにリーチしましょう。アプリのオンボーディングフローをローカライズし、多言語のeラーニングコースを制作し、またはリアルタイム翻訳パイプラインを構築——すべての言語でネイティブ品質の発音とイントネーションを実現します。

スケールでのアクセシビリティ

記事、ドキュメント、アプリ内通知、インターフェース要素などの書き込みコンテンツを高品質な音声に変換することで、製品をインクルーシブにしましょう。Inworld 1.5 Maxの自然さにより、モデルを活用したスクリーンリーダーや音声インターフェースは、耐え忍ぶものではなく、快適に使えるものになります。

WaveSpeedAIでの始め方

WaveSpeed Python SDKを使えば、Inworld 1.5 Maxをアプリケーションに統合するのはわずか数行のコードで済みます：

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "text": "A clear example input",
    "voice_id": "Alex",
    "speaking_rate": 1,
    "temperature": 1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/inworld/inworld-1.5-max/text-to-speech", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

クイックスタートガイド

テキストを用意する — 音声に変換したいコンテンツを入力またはペーストする
ボイスを選ぶ — 15言語65以上のボイスプリセットから選択。プロのナレーションにはElizabeth、明るいストーリーテリングにはHana、滑らかなフランス語配信にはAlainを試してみましょう
配信スタイルを設定する — ペーシングにはspeaking_rateを、表現力にはtemperatureを調整
生成する — リクエストを送信し、数秒でダウンロード可能な音声ファイルを受け取る

プロのヒント

自然なナレーションにはspeaking_rateを1.0に保つ——劇的な読み上げには低く、アナウンスには高く
一貫性が重要なIVR、電話システム、自動化ワークフローには低いtemperatureを使用
声の多様性がキャラクターを際立たせるゲームダイアログ、ストーリーテリング、コンテンツには高いtemperatureを使用
長いテキストは論理的な段落に分割してより良いペーシングと自然な呼吸の間を実現
最適な発音とイントネーションのために、ボイスの言語をテキストに合わせる
より高いスループットをより低コストで必要とする場合は、ドラフト生成や大量ワークフロー向けに1,000文字あたり$0.005のInworld 1.5 Miniをお試しください

なぜWaveSpeedAIなのか？

WaveSpeedAIでInworld 1.5 Maxを実行することは、単純なモデルアクセス以上のものを提供します：

コールドスタートなし — すべてのリクエストは初期化遅延なしに即座に処理されます
最高のパフォーマンス — 最適化されたインフラが、負荷下でも一貫して高速なレスポンスタイムを保証
リーズナブルな価格 — 隠れたコストなし、1,000文字あたり$0.01の透明な従量課金
シンプルなREST API — あらゆるアプリケーションスタックに統合できる簡単な推論エンドポイント
プロダクション対応 — 高可用性保証による信頼性とスケールのために構築

まとめ

Inworld 1.5 Maxは、開発者が待ち望んでいたテキスト読み上げモデルです：ブラインド品質比較で独立検証済みの#1 TTSモデル、15言語65以上の表現豊かなボイス、リアルタイムアプリケーションのための250ms未満のレイテンシ、そしてスケールでのプレミアム音声合成をアクセシブルにする価格設定。音声エージェントの開発、コンテンツ制作、ゲーム構築、製品のアクセシビリティ向上など、WaveSpeedAI上のInworld 1.5 Maxはコールドスタートなし、妥協なしで最高のボイスAIを提供します。

今すぐWaveSpeedAIでInworld 1.5 Maxを試す——#1位のTTSモデルが生み出す違いを実感してください。