WaveSpeedAI Ace Step 1.5がWaveSpeedAIに登場

AI音楽制作の未来がここに：ACE-Step 1.5

音楽制作は長い間、訓練を受けたミュージシャン、高価なスタジオ、そして何時間にも及ぶ細かな作業が必要な領域でした。それが今日、変わります。WaveSpeedAI に ACE-Step 1.5 が登場したことをお知らせします。これは、シンプルなテキスト説明をフルレングスの楽曲に変換する AI 音楽生成モデルで、50以上の言語でのボーカルと歌詞にも対応しています。

カスタムBGMを求めるコンテンツクリエイター、アイデアをプロトタイプ化したいソングライター、オーディオ機能を活用したアプリケーションを構築する開発者など、ACE-Step 1.5 はプロ品質の音楽生成を1秒あたり数分の一セントという低コストで実現します。

ACE-Step 1.5 とは？

ACE-Step 1.5 は、2つのシンプルな入力から音楽を生成するテキスト→オーディオモデルです。スタイルタグ（ジャンル、ムード、楽器編成を記述するもの）と、オプションの構造化された歌詞（ボーカルパフォーマンスをガイドするもの）です。このモデルは高い音響品質で最大4分のトラックを生成でき、ローファイアンビエントのインストゥルメンタルから、ヴァース・コーラス・ブリッジを備えたフルポップソングまで幅広く対応します。

ACE-Step 1.5 が際立っているのは、品質・柔軟性・コストの組み合わせです。歌詞生成で50以上の言語をサポートし、[Verse]・[Chorus]・[Bridge] といったセクションマーカーによる複雑な曲構成にも対応。それでいて 1秒あたりわずか $0.0003 — 4分フルトラックでも $0.05 未満という驚きの低価格です。

主な機能

最大4分のトラック: 最大240秒のフルレングス楽曲を生成。複数のセクションとトランジションを持つ完全な音楽作品に十分な長さです。
タグベースのスタイル制御: steampunk, electro swing, jazz, piano, ticking clock や pop, female vocals, upbeat, guitar, 120bpm といったカンマ区切りのタグでサウンドを定義。ジャンル・楽器・ムード・テンポを自由に組み合わせられます。
構造化歌詞のサポート: [Verse]・[Chorus]・[Bridge]・[Outro] などの標準的な曲構成マーカーを使って歌詞を書くと、モデルがそれに合わせて音楽を構成します。
50以上の言語対応: 数十言語でボーカルを生成でき、グローバルなコンテンツ制作や多言語プロジェクトに最適です。
インストゥルメンタルモード: 歌詞フィールドを空のままにするとピュアなインストゥルメンタルトラックを生成 — BGMやサウンドスケープに最適です。
再現性のある結果: シード値を使用して同一の出力を再生成でき、繰り返し作業での一貫性を確保します。
柔軟な長さ制御: 短いジングルからフルレングスの楽曲まで、希望するトラックの長さを精密に指定できます。

実際のユースケース

コンテンツ制作とソーシャルメディア

YouTubeの動画、TikTokコンテンツ、ポッドキャスト、Instagramリールのためにオリジナル音楽を制作するには、従来はストックミュージックのライセンス取得か作曲家の起用が必要でした。ACE-Step 1.5 を使えば、コンテンツのムードやテンポに合わせたカスタムトラックを生成できます。明るい30秒のイントロが必要ですか？チュートリアル動画用の穏やかな2分のBGMが欲しいですか？タグで説明するだけで、数秒でオリジナル音楽が手に入ります。

ゲームとアプリ開発

ゲーム開発者やアプリ制作者は、ライセンスの煩わしさなしにダイナミックなサウンドトラック、メニュー音楽、アンビエントオーディオを生成できます。タグベースのシステムにより、異なるシーンやレベルにわたってテーマ的に一貫した音楽を簡単に作成できます — ダンジョン用のダークアンビエント、ボス撃破の勝利オーケストラ、メニュー用のリラクシングアコースティックなど。

音楽制作とソングライティング

ソングライターやプロデューサーは、ACE-Step 1.5 を高速プロトタイピングツールとして活用できます。歌詞を書き、タグでスタイルの方向性を選択すれば、数秒でフルアレンジを聴けます。スタジオ制作に踏み切る前に、ほぼゼロコストでアイデアを繰り返し試せます。生成オーディオ1分あたり2セント以下という価格で、実験が実質的に無料になります。

大量オーディオ生成

大量のオリジナル音楽が必要なビジネス — メディア企業、広告代理店、eラーニングプラットフォーム — は、何百もの独自トラックをコスト効率よく生成できます。API ファーストのアプローチにより、自動化されたコンテンツパイプラインへの音楽生成の統合も容易です。

多言語・グローバルプロジェクト

50以上の言語をサポートすることで、ACE-Step 1.5 は複数の市場や文化にまたがるプロジェクトに最適です。英語・日本語・スペイン語・韓国語で、それぞれ自然なボーカルで同じ楽曲コンセプトを生成できます。

WaveSpeedAI で始める

WaveSpeedAI での ACE-Step 1.5 の使い方はシンプルです。モデルページから音楽生成を始めるか、APIを通じてアプリケーションに直接統合できます。

WaveSpeed Python SDK を使ったクイックな例を示します：

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "tags": "example",
    "lyrics": "Waves rise softly under the morning light",
    "duration": 60,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ace-step-1.5", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

tags パラメータが唯一の必須フィールドです。ボーカルトラックには lyrics を追加し、duration でトラックの長さ（最大240秒）を制御し、再現性のある結果のためにオプションで seed を使用できます。

最良の結果を得るためのヒント：

タグを具体的に: タグが詳細であるほど、出力はより的確になります。ジャンル・楽器・ムード・テンポのタグを組み合わせて精密にコントロールしましょう。
構成マーカーを活用: [Verse]・[Chorus]・[Bridge] マーカーを使った歌詞は、構造のないテキストよりも音楽的に整合性のあるアレンジを生み出します。
短くから始めて延ばす: 正しいスタイルの方向性を素早く見つけるため、フルレングストラックを生成する前に30〜60秒のクリップでプロトタイプを作りましょう。
まずインストゥルメンタルを試す: 歌詞なしで生成して音楽スタイルを評価し、サウンドに満足してからボーカルを追加しましょう。