13. Januaur 2026
Wer sagt, dass man für lustige Videos teure Supercomputer braucht? Mit Grok, ElevenLabs – und einem Rechner, der schon zehn Jahre auf dem Buckel hat – geht das genauso! Ich erzähle, wie man sich durch verhaspelte KI-Sprecher kämpft, einfache Tricks anwendet und am Ende trotzdem ein satirisches Meisterwerk zaubert.

Ich habe einen etwa zweiminütigen Clip erstellt, bei dem ein Mann spricht. Die erste Schwierigkeit war, dass die einzelnen Einstellungen in Grok maximal sechs Sekunden lang sein dürfen. Wenn Grok dann versuchte, lippensynchron einen Menschen sprechen zu lassen, verhaspelte er sich ständig, sprach Wörter falsch aus oder halluzinierte Inhalte, fügte etwas vorne oder hinten an oder vertauschte Wörter. Einfache Sätze funktionierten manchmal, aber oft musste ich den Prompt bewusst anpassen, Wörter trennen oder anders schreiben, damit die Aussprache korrekt war. Man merkt deutlich, dass diese Funktion noch in den Anfängen steckt.
Das satirische Test-Video über die „Partei der Unterirdischen“
Ein noch größeres Problem trat auf, als ich einen Off-Sprecher haben wollte. Grok verstand den Prompt meistens, aber längere Texte ließen sich nicht in einem Stück erzeugen. Deshalb habe ich für die Version, die ich letztlich veröffentlicht habe, den Off-Sprecher über die Text-to-Speech-Plattform ElevenLabs erstellt. Das funktionierte einwandfrei: Ich konnte die Originalspur löschen und stattdessen die MP3-Datei von ElevenLabs problemlos einsetzen und anpassen.

Bill von Elevenlabs klingt wie ein Profi-Sprecher. Viele davon sind jetzt arbeitslos.
Ein kleiner Nachteil war, dass die Atmo dabei verloren ging und die Lautstärke etwas zu niedrig war. Mit OpenShot konnte ich die Lautstärke jedoch leicht anheben, und falls das nicht ausreicht, kann man die Datei jederzeit in Audacity weiter bearbeiten. Für zukünftige Projekte plane ich, Audacity von Anfang an zu nutzen, um die Audioqualität noch besser zu steuern.
Wenn ich mir den Schluss meines kleinen Videos so angucke, sieht man deutlich, wie einfach es heute ist: sechs Sekunden lange Clips von der KI aneinandergeklebt und ein professionell klingender Off-Sprecher drübergelegt. Wer ein bisschen texten kann, kann den Text noch selbst schreiben – muss er aber nicht, die KI erledigt das inzwischen auch. So entsteht ein Film, der ziemlich professionell wirkt.

In meinem fiktiven Video über die „Partei der Unterirdischen“ geht es darum, dass die gesamte Bevölkerung Europas in 1000 Meter Tiefe umgesiedelt werden soll – schließlich kann jederzeit ein Meteorit einschlagen, und es ist nur eine Frage der Zeit, wann so ein Unglück passiert. Die Partei schlägt vor, dass die Menschen dann in einem riesigen Tunnelsystem wohnen, während an der Oberfläche nur noch Luxusvillen existieren. Ich habe mal ausgerechnet, wie groß so ein System sein müsste: Bei 500 Millionen Menschen reicht schon eine unterirdische Fläche von ein paar tausend Quadratkilometern, auf mehreren Ebenen verteilt, um alle unterzubringen – das ist lächerlich klein im Vergleich zur echten EU. Und für die Oberflächenbewohner: Wenn die Häuser im Abstand von 100 Kilometern stehen und jeweils zwei Personen darin leben, kämen in Deutschland gerade mal 36 Häuser mit 72 Menschen, in der gesamten EU 423 Häuser mit 846 Menschen. Alles extrem überschaubar und total absurd – genau der Witz daran, dass nur eine winzige Minderheit in Luxus überlebt, während der Rest in engen Tunneln hockt.
Wenn man sich allerdings solche Ergebnisse auf YouTube ansieht, merkt man schnell: die Inhalte sind oft schlecht recherchiert. Es gibt eine Flut von Filmen, die komplett von der KI gemacht sind und die es ehrlich gesagt nicht wert sind, angeschaut zu werden. Alles wirkt irgendwie künstlich und fiktiv. Eine wirklich gute Dokumentation oder Reportage sieht anders aus: echte Interviews, vor Ort mit der Kamera, sorgfältig recherchiert. Den künstlichen Off-Sprecher akzeptiere ich, er klingt ja immerhin natürlich. Aber mir sind die Inhalte wichtiger als die Bilderflut, die nur mit Text zugeschüttet wurde.
Alles in allem habe ich dabei sehr viel gelernt, wie man mit KI Filme machen kann. Natürlich kenne ich noch längst nicht alle Möglichkeiten, aber allein durch das Experimentieren mit Grok habe ich viel über OpenShot und die Schnittsoftware gelernt. Jetzt kann ich schon eine Menge umsetzen, und es macht richtig Lust, noch mehr lustige, satirische Filmchen zu drehen. Man muss ja gar nicht mehr mit der Kamera rausgehen – Grok liefert die Bilder, und man kann sich dazu einen witzigen, satirischen Text überlegen. Vielleicht probiere ich demnächst ein anderes Wahlprogramm mit einer fiktiven Partei und einem schwülstigen Text aus. Auf jeden Fall macht es riesigen Spaß, und ich kann nur empfehlen, dass andere ebenfalls damit herumexperimentieren. Es ist wirklich unterhaltsam, und man lernt eine Menge dabei.
Ganz ehrlich: Diesen ganzen Text habe ich mir von ChatGPT schreiben lassen. Ich habe nicht einmal die Tastatur benutzt, sondern alles per Spracherkennung ins Mikrofon gestammelt – Faden verloren, gestottert, egal. Unter Linux mit Chrome klappt das einwandfrei. Ich glaube, ich bin inzwischen ein fauler Sack geworden. Aber hey, schätzt man ja, dass 70 % aller Texte schon KI-generiert sind – nur macht es kaum jemand so konsequent wie ich. Einfach reden, ChatGPT sortiert den roten Faden, und fertig ist der Artikel.