Stable Audio Open: Erzeugung von Audiosamples

Mit der Einführung von Stable Audio Open hat Stability AI ein Werkzeug geschaffen, mit dem du Audioclips, wie Drumbeats, Riffs und Umgebungsgeräusche erzeugen kannst. Sicherlich gibt es viele solcher Audiosamples im Internet, aber jetzt hast du die Möglichkeit mit deinem Text, diese individuell zu erzeugen.

(Letzte Aktualisierung der Seite: 13.07.25)

Foto

Möchtest du tiefer einsteigen? Hier findest du meine Bücher zum Thema KI:

ChatGPT in kleinen Schritten Buchcover

Anfänger: ChatGPT in kleinen Schritten

Du bist neu bei ChatGPT und KI? In diesem Buch lernst du die Grundlagen Schritt für Schritt.

📖 Kostenlos bei Amazon reinlesen

DU und die KI Buchcover

Fortgeschrittene:
DU und die KI

Du nutzt KI bereits? Lerne, bessere Prompts zu schreiben und KI gezielt im Alltag einzusetzen.

📖 Kostenlos bei Amazon reinlesen

Was ist Stable Audio Open?

Stable Audio Open ist ein Open-Source-Modell, das speziell für die Erstellung kurzer Audiosamples, Soundeffekte und Produktionselemente entwickelt wurde. Mit diesem Modell können Nutzerinnen und Nutzer bis zu 47 Sekunden lange Audioclips generieren. Wie gewohnt machst du das mit Hilfe eines Prompts, bzw. Texteingabe.

Das verwendete KI-Modell eignet sich besonders gut für die Erstellung von Drumbeats, Instrumentenriffs und Umgebungsgeräusche.

Es handelt sich hierbei um Open-Source. Du kannst das also lokal betreiben. Hierfür steht die Python-Bibliothek „stable-audio-tools“ zur Verfügung, die auf PyTorch basiert. Mit dieser Bibliothek kannst du eine eigene Oberfläche zur Generierung von Audio aus Text erstellen. Herunterladen kannst du das auf der ➥Seite von Huggingface. Dort findest du auch die Installationsanleitung.

So erstellst du einen Soundclip mit Stable Audio Open

Bei Huggingface kannst du Stable Audio Open einmal ausprobieren. Die Benutzeroberfläche ist wie immer einfach. Du gibst deinen Text ein, was erstellst werden soll und hast noch ein paar Regler, um das Ergebnis anzupassen. Den Prompt solltest du in englischer Sprache eingeben.

Screenshot: Stable Audio Open

Audioclips generieren mit Stable Audio Open (Huggingface)

Meine Ergebnisse, die ich erzielt habe, waren unterschiedlich. Zum Teil sehr schlecht und zum Teil brauchbar. Richtig gut war nichts. Bei deiner Texteingabe solltest du folgendes beachten, sonst erhältst du meistens etwas ganz anderes:

Du musst nicht, wie bei ChatGPT sagen, dass die KI dieses oder jenes tun soll. Also nicht „Generate oder Create“. Beschreibe einfach nur, was du haben willst, zum Beispiel: „Car traffic in the big city“. Bessere Ergebnisse erzielst du, wenn du nur eine Sache generieren lässt, beispielsweise „Bird singing in the forest“ oder „Piano music in a bar”. Später kannst du die Audiospuren ja zusammenführen.

Jetzt bist du sicherlich gespannt, was bei mir herausgekommen ist. Hier die zusammengesetzten Audiospuren (Vogelgezwitscher, Piano-Bar-Musik und Autos, die vorbeifahren):

Die Unterschiede zu Stable Audio 2.0 und mein Fazit

Während Stable Audio Open sich auf die Erzeugung kurzer Audiosamples konzentriert, bietet Stable Audio 2.0 eine umfassendere Lösung für die KI-Musik-Erstellung. Stable Audio 2.0 kann vollständige Musiktitel mit einer Länge von bis zu drei Minuten erzeugen. Darüber hinaus unterstützt es Audio-zu-Audio-Generierung, bei der du vorhandene Audiodateien hochladen und mithilfe von Textprompts in eine Vielzahl von Klängen verwandeln kannst. Mehr über Stable Audio erfährst du in meinem Beitrag: ➥ Stable Audio: KI-Musik kostenlos generieren.

Das Training von Stable Audio Open erfolgte auf Audiodaten von Freesound und dem Free Music Archive. Dies soll gewährleisten, dass die Rechte der Urheber respektiert werden.

Stable Audio Open ist ein Schritt in Richtung einer offenen und zugänglichen KI-Audioproduktion. Es bietet dir ein Werkzeug, um deine Audio-Projekte zu erweitern und neue Klänge hinzuzufügen.

Den Ansatz finde ich gut, allerdings ist die Qualität der generierten Audiodateien nicht sehr gut. Mal schauen, ob sich das noch ändern wird. Oder hast du andere Erfahrungen gemacht? Schreib es mir in die Kommentare. Ich würde mich freuen.

Häufige Fragen zu Stable Audio Open

Was ist Stable Audio Open?
Stable Audio Open ist ein Open-Source-Modell von Stability AI, das zur Erstellung kurzer Audiosamples, Soundeffekte und Produktionselemente entwickelt wurde.

Welche Arten von Audiosamples kann ich mit Stable Audio Open generieren?
Das Modell eignet sich besonders gut für die Erstellung von Drumbeats, Instrumentenriffs und Umgebungsgeräuschen.

Welche Unterschiede gibt es zwischen Stable Audio Open und Stable Audio 2.0?
Stable Audio Open konzentriert sich auf die Erzeugung kurzer Audiosamples, während Stable Audio 2.0 vollständige Musiktitel bis zu drei Minuten Länge generieren kann und auch Audio-zu-Audio-Generierung unterstützt.

Wie war die Qualität der generierten Audiodateien in den Tests?
Die Ergebnisse waren unterschiedlich: Einige Audioclips waren brauchbar, andere weniger. Insgesamt war die Qualität der generierten Dateien noch nicht optimal.

Auf welchen Audiodaten wurde Stable Audio Open trainiert?
Das Training erfolgte auf Audiodaten von Freesound und dem Free Music Archive, um die Rechte der Urheber zu respektieren.

Ist Stable Audio Open lokal nutzbar?
Ja, da es sich um ein Open-Source-Modell handelt, kannst du es lokal betreiben.

➥ Zurück zu den Blogbeiträgen

Neu: Dein KI-Start leicht gemacht
Du interessierst dich für Künstliche Intelligenz im Alltag? In meinem Buch findest du praxisnahe Erklärungen, Beispiele und sofort umsetzbare Tipps - ganz ohne Vorwissen.
➥ Jetzt reinlesen: kostenlose Leseprobe sichern (PDF Dokument zum Download) oder
➥ direkt bei Amazon anschauen

ki-im-alltag.de

LinkedIn Profil

ChatGPT Grundlagen

ChatGPT Funktionen

Chatbots

Bilder, Video, Musik

Allgemeines

Praxis:

(c) 2026 - ki-im-alltag.de