VibeVoice: Ein Open-Source Text-to-Speech Modell an vorderster Front

VibeVoice ist ein neuartiges Framework, das für die Erzeugung von ausdrucksstarker, langformatiger, mehrstimmiger konversationeller Audioausgabe, wie z.B. Podcasts, aus Text entwickelt wurde. Es adressiert bedeutende Herausforderungen traditioneller Text-to-Speech (TTS) Systeme, insbesondere in Bezug auf Skalierbarkeit, Sprecherkonsistenz und natürliche Gesprächsübergänge. Eine Kerninnovation von VibeVoice ist der Einsatz kontinuierlicher Sprachtokenizer (akustisch und semantisch), die mit einer extrem niedrigen Bildrate von 7,5 Hz arbeiten. Diese Tokenizer bewahren effizient die Audioqualität und steigern gleichzeitig die rechnerische Effizienz bei der Verarbeitung langer Sequenzen erheblich. VibeVoice verwendet ein Next-Token-Diffusionsframework, das ein Large Language Model (LLM) nutzt, um den Textkontext und den Dialogfluss zu verstehen, und einen Diffusionskopf zur Erzeugung von hochgradig detailreichen akustischen Informationen. Das Modell kann Sprache bis zu 90 Minuten Länge mit bis zu 4 unterschiedlichen Sprechern synthetisieren und übertrifft damit die typischen 1-2 Sprechergrenzen vieler bisheriger Modelle.

VibeVoice Framework
MOS Preference Results

2025-09-05: VibeVoice ist ein Open-Source-Forschungsframework, das darauf abzielt, die Zusammenarbeit in der Sprachsynthese-Community zu fördern. Nach der Veröffentlichung haben wir Fälle entdeckt, in denen das Werkzeug in einer Weise verwendet wurde, die nicht mit der angegebenen Absicht übereinstimmt. Da die verantwortungsvolle Nutzung von KI eines der Leitprinzipien von Microsoft ist, haben wir das Repository deaktiviert, bis wir sicher sind, dass eine außerordentliche Nutzung nicht mehr möglich ist.

Kontextbezogene Ausdrucksstärke

Spontane Emotion

Spontanes Singen

Podcast mit Hintergrundmusik

Mehrsprachig

Mandarin nach Englisch

Englisch nach Mandarin

Lange konversationelle Sprache

* Zeitstempel werden aus dem generierten Audio abgeleitet und können Fehler enthalten.