← 部落格

Inworld 1.5 Mini 現已登陸WaveSpeedAI

Inworld 1.5 Mini 提供高品質的文字轉語音合成,支援56種以上多語言語音、可調整語速,並輸出自然流暢的音訊。立即體驗

2 min read
Inworld Inworld.1.5 Mini Text To Speech
Inworld Inworld.1.5 Mini Text To Speech Inworld 1.5 Mini 提供高品質的文字轉語音合成,支援56種以上多語言語音、可調整語速,並輸出自然流暢的音訊...
Try it
Inworld 1.5 Mini 現已登陸WaveSpeedAI

Inworld 1.5 Mini 文字轉語音現已登陸WaveSpeedAI

語音正在成為AI應用程式的預設介面。從對話式智能代理到互動遊戲,將文字即時且經濟地轉換為自然語音的能力,早已不再是錦上添花的功能,而是基本要求。WaveSpeedAI 很高興宣布推出 Inworld 1.5 Mini——一款超快速、超實惠的文字轉語音模型,以每1,000字元僅 $0.005 的價格提供自然的多語言語音合成。

Inworld 1.5 Mini 由 Inworld AI 打造——這支團隊旗下的模型在 Artificial Analysis TTS 排行榜上榮登第一——為需要速度與規模、同時又不希望超出預算的開發者帶來生產級語音合成能力。

什麼是 Inworld 1.5 Mini?

Inworld 1.5 Mini 是 Inworld TTS-1.5 系列的輕量版本,專為對延遲敏感及高流量應用場景而設計。與同系列的 Inworld 1.5 Max 著重最高自然度和表現力不同,Mini 的優先考量是極速響應時間——實現低於130毫秒的P90首音延遲,比上一代模型快4倍。

儘管架構精簡,Mini 在品質上毫不妥協。TTS-1.5 世代相較於早期 Inworld 模型,表現力提升30%,字詞錯誤率降低40%。最終呈現的是一款聲音極為自然、且幾乎即時響應的模型——非常適合每一毫秒都至關重要的即時互動體驗。

主要功能

超低延遲

  • P90首音延遲低於130毫秒——是目前市面上最快的TTS模型之一
  • 比前代 Inworld 快4倍
  • 專為即時對話管線和互動應用最佳化

橫跨15種語言的65+多語言語音

Inworld 1.5 Mini 內建多元化語音庫,涵蓋:

  • 英語 — 25種不同語音,從專業旁白到富有表現力的角色配音
  • 中文 — 4種語音,包含沉穩、充滿活力及敘事風格
  • 日語、韓語 — 具備自然語調的母語語音
  • 歐洲語系 — 法語、德語、西班牙語、葡萄牙語、義大利語、荷蘭語、波蘭語、俄語
  • 南亞及中東 — 印地語、希伯來語、阿拉伯語

每種語音都有其獨特個性——從 Blake 深沉親切、適合有聲書的音調,到 Dominus 陰森的機械音質(完美演繹遊戲反派),再到 Luna 平靜舒緩的節奏(適合冥想內容)。

精細控制

  • 語速調整 — 加速用於公告播報,放慢用於戲劇性旁白
  • 溫度控制 — 較低數值帶來一致、可預期的輸出;較高數值則呈現更動態、富有表現力的演繹
  • 簡潔參數設定 — 只需文字、語音、語速和溫度,無需複雜配置

無可比擬的定價

每1,000字元 $0.005 的價格,Inworld 1.5 Mini 是市面上最實惠的TTS解決方案之一——在同等品質水準下,比競爭對手的模型實惠達25倍。字元數向上取整至最近的1,000,計費透明且可預期。

字元數費用
最多 1,000$0.005
最多 5,000$0.025
最多 10,000$0.050

實際應用場景

對話式AI與語音智能代理

Inworld 1.5 Mini 低於130毫秒的延遲,使其成為語音聊天機器人、客服智能代理及虛擬助理的首選。使用者可享受流暢自然的對話體驗,不再受到較慢TTS系統所造成的尷尬沉默困擾。多語言語音庫意味著您可以從第一天起就進行全球部署。

遊戲與互動娛樂

透過即時、富有表現力的語音合成,為NPC對白、遊戲旁白和角色配音注入活力。Hades(威嚴粗獷)、Pixie(音調高亢俏皮)、Edward(語速飛快且充滿街頭氣息)等語音,讓遊戲開發者擁有一套現成的角色陣容——原型開發或獨立製作無需配音演員。

大量內容生產

需要為電子學習平台、自動化新聞服務或無障礙功能層產生數千個音訊片段?Mini 的低成本與快速處理組合,讓批次音訊生成在大規模場景下具備經濟可行性。用於草稿製作和反覆修改,在需要最高品質的最終生產階段再切換至 Inworld 1.5 Max。

多語言內容交付

透過單一API端點,以15種語言創建音訊內容。無論是本地化應用程式、製作多語言播客,還是建立翻譯管線,Mini 都能以每種語言的母語級發音和語調完成所有工作。

無障礙功能

以實惠的方式將書面內容——文章、說明文件、通知——轉換為語音,讓您的產品對視障使用者或任何偏好聆聽而非閱讀的人都更易於使用。

在WaveSpeedAI上開始使用

在WaveSpeedAI上使用 Inworld 1.5 Mini 只需幾行程式碼:

import wavespeed

output = wavespeed.run(
    "inworld/inworld-1.5-mini/text-to-speech",
    {
        "text": "Welcome to WaveSpeedAI. The fastest way to bring AI to production.",
        "voice_id": "Olivia",
        "speaking_rate": 1,
        "temperature": 1,
    },
)

print(output["outputs"][0])  # 音訊URL

操作步驟

  1. 準備文字 — 輸入或貼上您想轉換為語音的內容
  2. 選擇語音 — 從橫跨15種語言的65+種語音預設中選擇(例如:Ashley 溫暖自然、Carter 充滿電台播報員的活力、Asuka 友善的日語音色)
  3. 調整表現 — 設定 speaking_rate 控制節奏,設定 temperature 控制表現力
  4. 生成 — 提交請求並取得可下載的音訊檔案

專業技巧

  • speaking_rate 保持在 1.0 左右以獲得自然節奏——戲劇性朗讀可調低,快速公告可調高
  • 較低的 temperature 產生更一致、可預期的輸出——適合自動化系統
  • 將長文本分割成符合邏輯的段落,以獲得更好的節奏和自然停頓
  • 務必讓語音語言與文字語言相符,以獲得最佳發音效果
  • 從 Mini 開始快速原型開發,最終生產音訊時再升級至 Inworld 1.5 Max

為什麼選擇WaveSpeedAI?

透過WaveSpeedAI運行 Inworld 1.5 Mini,您獲得的不只是模型存取權:

  • 無冷啟動 — 請求即時處理,零初始化延遲
  • 最佳效能 — 最佳化基礎架構提供一致的快速響應時間
  • 實惠定價 — 透明的按量計費,無隱藏費用
  • 簡單REST API — 透過直覺的推理端點整合至任何應用程式
  • 生產就緒 — 以高可用性為基礎,專為大規模可靠性而打造

結語

Inworld 1.5 Mini 恰好滿足了開發者長期以來的需求:一款速度足以應對即時應用、成本足以支撐大量生產、且足夠多元以涵蓋15種語言和65+種富有表現力語音的文字轉語音模型。憑藉在 Artificial Analysis 排行榜上榮登第一的TTS技術,以及WaveSpeedAI零冷啟動基礎架構的加持,這是為您的應用程式添加自然語音最實際的途徑。

無論您是在建立語音智能代理、生成遊戲對白、製作多語言內容,還是讓產品更具無障礙性,WaveSpeedAI上的 Inworld 1.5 Mini 都能以速度、品質和實惠的價格實現您的目標。

立即在WaveSpeedAI上試用 Inworld 1.5 Mini,以極低的成本開始使用生產級語音合成進行構建。