Présentation de WaveSpeedAI Heartmula Generate Music sur WaveSpeedAI

HeartMuLa est maintenant disponible sur WaveSpeedAI : transformez vos paroles en chansons complètes avec l’IA

Créer de la musique originale a longtemps été l’une des démarches créatives les plus chronophages — jusqu’à maintenant. WaveSpeedAI est ravi d’annoncer la disponibilité de HeartMuLa, un modèle de fondation musicale open source de pointe qui génère des chansons complètes et de haute qualité à partir de vos paroles et de vos tags de style. Que vous soyez un auteur-compositeur en train de prototyper des idées, un créateur de contenu à la recherche d’une bande-son personnalisée, ou un développeur construisant la prochaine application musicale, HeartMuLa met la production musicale de niveau professionnel à portée d’un simple appel API.

Qu’est-ce que HeartMuLa ?

HeartMuLa est une famille de modèles de fondation musicale open source construits sur une architecture sophistiquée à quatre composants : HeartCLAP pour l’alignement audio-texte, HeartTranscriptor pour la reconnaissance des paroles, HeartCodec pour la tokenisation musicale haute fidélité, et le modèle de langage HeartMuLa lui-même pour la génération de chansons. Ensemble, ces composants produisent des chansons complètes — voix, mélodies, harmonies et arrangements instrumentaux complets — à partir de simples paroles structurées et d’une poignée de tags de style.

Ce qui rend HeartMuLa remarquable, c’est la clarté de ses paroles. Dans les tests de référence, HeartMuLa atteint le taux d’erreur de phonèmes (PER) le plus bas dans chaque langue testée, surpassant les meilleurs modèles commerciaux, notamment Suno v5 et MiniMax Music 2.0. En anglais, HeartMuLa atteint un PER de seulement 0,09, et en chinois de 0,12 — ce qui signifie que chaque mot que vous écrivez ressort avec une clarté cristalline dans la chanson finale. Le modèle a été affiné avec l’Optimisation par Préférence Directe (DPO), une technique d’apprentissage par renforcement qui garantit un contrôle précis des styles, des tags et de la qualité musicale globale.

Pour la première fois, un système de génération musicale de qualité commerciale a été reproduit à l’échelle académique et publié en open source sous la licence Apache 2.0 — et il est désormais disponible sur WaveSpeedAI sans aucune configuration requise.

Fonctionnalités clés

Génération de chansons complètes : Produit des chansons entières avec voix, instrumentaux, intros, ponts et outros — pas seulement des boucles ou de courts extraits
Paroles multilingues : Prend en charge l’anglais, le chinois, le japonais, le coréen et l’espagnol, ce qui le rend idéal pour les créateurs ciblant des audiences mondiales
Composition structurée de chansons : Utilisez des marqueurs de section comme [Verse], [Chorus], [Bridge], [intro-short] et [outro-medium] pour contrôler précisément l’arrangement et le flux de votre chanson
Contrôle flexible du style : Définissez le genre, l’ambiance, le tempo, les instruments et les caractéristiques vocales grâce à de simples tags séparés par des virgules comme "r&b, smooth, male vocals, soulful, 85bpm"
Sections instrumentales : Ajoutez des intros, des outros et des pauses instrumentales avec des marqueurs de durée configurables — aucune parole requise pour ces sections
Clarté des paroles leader du secteur : Taux d’erreur de phonèmes le plus bas dans toutes les langues testées, garantissant que vos paroles sont chantées exactement telles qu’elles sont écrites

Cas d’utilisation concrets

Création musicale originale

Les auteurs-compositeurs et les musiciens peuvent donner vie à leurs paroles instantanément. Écrivez vos couplets et refrains, choisissez un style, et entendez une version entièrement produite de votre chanson en quelques secondes. C’est le chemin le plus rapide de l’idée à la démo.

Bandes-son pour le contenu

Les créateurs de vidéos, les podcasteurs et les producteurs de médias sociaux peuvent générer de la musique de fond personnalisée qui correspond parfaitement à leur contenu. Au lieu de fouiller dans des bibliothèques de musique libre de droits génériques, créez quelque chose d’unique pour chaque projet.

Production de contenu multilingue

Les marques et les créateurs servant des audiences internationales peuvent produire des chansons dans cinq langues à partir d’un seul modèle. Lancez une campagne marketing avec un titre pop japonais, une ballade espagnole et un hymne anglais — tous générés via la même API.

Production de démos et aide à la composition

Les auteurs-compositeurs professionnels peuvent utiliser HeartMuLa comme outil de prototypage rapide. Testez la façon dont les paroles sonnent selon différents genres et tempos avant de vous engager dans de coûteuses sessions en studio. Expérimentez avec les arrangements en réorganisant les marqueurs de section et en régénérant en quelques secondes.

Développement de jeux et d’applications

Les développeurs de jeux peuvent créer des thèmes musicaux originaux, de la musique de menu et des bandes-son de jeu avec des voix adaptées à la narration de leur jeu. Les développeurs d’applications peuvent intégrer la génération musicale directement dans leurs produits via l’API WaveSpeedAI.

Premiers pas sur WaveSpeedAI

Générer de la musique avec HeartMuLa sur WaveSpeedAI est simple. Tout ce dont vous avez besoin, ce sont des paroles — tout le reste est facultatif.

Utilisation de l’API

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/heartmula/generate-music",
    {
        "lyrics": """[intro-short]
[Verse]
Your voice like velvet, I'm never alone
The way you say my name, it pulls me in
A love like ours is more than skin
[Chorus]
Stay with me until the morning light
Hold me close and never let me go
[outro-short]""",
        "tags": "r&b, smooth, male vocals, soulful, slow jam, romantic, 85bpm"
    },
)

print(output["outputs"][0])

Rédiger vos paroles

Structurez vos paroles avec des marqueurs de section pour obtenir les meilleurs résultats :

[Verse], [Chorus], [Bridge] — Sections vocales nécessitant des paroles
[intro-short], [intro-medium] — Intros instrumentales (0–10s ou 10–20s)
[inst-short], [inst-medium] — Pauses instrumentales entre les sections
[outro-short], [outro-medium] — Fins instrumentales

Définir votre style

Combinez des tags pour décrire exactement le son que vous souhaitez :

"female, bright, pop, happy, piano, 130bpm" — Hymne pop entraînant
"male, dark, rock, guitar, drums, energetic" — Morceau de rock percutant
"piano, happy, wedding, synthesizer, romantic" — Chanson romantique pour mariage
"jazz, smooth, saxophone, soft, 90bpm" — Ambiance jazz de nuit

Conseils de pro :

Structurez bien vos paroles avec des marqueurs de section clairs pour obtenir la meilleure qualité d’arrangement
Combinez plusieurs tags de style pour des résultats plus précis — genre, ambiance, instruments, tempo et caractéristiques vocales fonctionnent tous ensemble
Utilisez [inst-short] ou [inst-medium] entre les sections vocales pour donner de l’espace à votre chanson
Définissez une valeur de seed spécifique pour reproduire des résultats identiques lorsque vous trouvez une génération que vous aimez

Pourquoi choisir WaveSpeedAI ?

Exécuter HeartMuLa sur WaveSpeedAI vous offre le meilleur des deux mondes — un modèle open source avec une infrastructure de qualité commerciale :

Pas de démarrage à froid : La génération de votre musique commence immédiatement, sans attendre que les instances se lancent
Inférence rapide : Une infrastructure optimisée livre vos chansons complètes rapidement afin que vous puissiez itérer et expérimenter librement
Tarification abordable : Générez des chansons complètes pour seulement 0,10 $ par chanson — une fraction de ce que facturent les plateformes de génération musicale par abonnement
API REST simple : Intégrez la génération musicale par IA dans vos applications avec une API simple qui ne nécessite ni expertise en apprentissage automatique ni gestion de GPU

Commencez à créer votre musique aujourd’hui

HeartMuLa représente une étape majeure dans la génération musicale par IA : un modèle open source qui rivalise avec les offres commerciales en termes de qualité, les surpasse en clarté des paroles et prend en charge la création de chansons véritablement multilingues. Combiné à l’infrastructure rapide et fiable de WaveSpeedAI, c’est le moyen le plus accessible de transformer vos mots en musique.

Que vous composiez pour un film, prototypiez un tube, créiez des bandes-son pour du contenu ou construisiez une application musicale, HeartMuLa sur WaveSpeedAI fournit des résultats professionnels à un prix qui ouvre des possibilités créatives pour tous.

Prêt à entendre vos paroles prendre vie ? Essayez HeartMuLa sur WaveSpeedAI dès aujourd’hui et commencez à générer des chansons complètes à partir de vos mots.