Technologie

Jak funguje hudba generovaná umělou inteligencí – a kdo vlastní autorská práva?

Nástroje pro tvorbu hudby pomocí umělé inteligence, jako jsou Suno a Udio, dokážou během několika sekund vygenerovat kompletní skladbu připravenou pro rádia z jediného textového zadání. Podívejte se, jak tato technologie funguje a proč se hudební průmysl hádá o to, kdo vlastní výsledný produkt.

R
Redakcia
Share
Jak funguje hudba generovaná umělou inteligencí – a kdo vlastní autorská práva?

Od textového zadání k hitu na žebříčku

Zadejte větu – „energický synth-pop z 80. let o noční jízdě autem“ – stiskněte generovat a během několika sekund máte kompletní skladbu: text, vokály, melodii, bicí a smíchaný master. Generátory hudby s umělou inteligencí, jako jsou Suno a Udio, z toho udělaly běžnou záležitost a jejich výstup je natolik sofistikovaný, že skladba vytvořená s pomocí umělé inteligence byla vyřazena ze švédské oficiální hitparády začátkem roku 2026 až poté, co dosáhla milionů legitimních streamů. Tato technologie už není žádnou novinkou. Pochopení toho, jak funguje – a jaké právní bitvy ji obklopují – je důležité pro každého, kdo poslouchá hudbu.

Technologie pod kapotou

Generování hudby pomocí umělé inteligence kombinuje dvě rodiny strojového učení, které přetvořily i další kreativní obory: transformátorové modely a difúzní modely.

Transformátory: Učení se hudebnímu jazyku

Transformátory – stejná architektura, která stojí za velkými jazykovými modely, jako je ChatGPT – jsou trénovány na rozsáhlých knihovnách audia a textu. Model se učí statistické vztahy: který akord má tendenci následovat který, jak se struktura sloky liší od refrénu, jak se konkrétní žánr vypořádává s rytmem a tempem. Když uživatel zadá textový pokyn, transformátor jej převede na numerické vložení, které řídí, jaké hudební sekvence model generuje dál, token po tokenu, podobně jako jazykový model předpovídá další slovo ve větě.

Difúze: Tvarování zvuku z šumu

Difúzní modely fungují jinak. Během tréninku se systém učí přidávat náhodný šum do skutečných audio nahrávek krok za krokem, dokud nezůstane jen statický šum – a poté se učí tento proces obrátit a rekonstruovat čistý zvuk. V době generování model začíná s čistým šumem a postupně jej „odšumuje“, veden textovým pokynem, dokud se neobjeví koherentní hudba. Nejnovější architektury, jako je AudioX, popsaná v článku z roku 2026 publikovaném v Scientific Reports, spojují oba přístupy do jediného Diffusion Transformer (DiT), který zpracovává text, audio a dokonce i video vstupy dohromady, což umožňuje bohatší a lépe kontrolovatelné výstupy.

Dát to dohromady

V praxi platformy jako Suno komprimují zvuk do kompaktních diskrétních tokenů, které může transformátor zpracovat, a poté dekomprimují generované tokeny zpět do slyšitelných vln. Texty jsou generovány samostatně a jejich rytmus je pravděpodobnostně sladěn s melodií, zatímco automatizované mixování vyvažuje vokály a instrumentaci. Výsledkem, jak uvedla WBUR ve svém profilu společnosti Suno se sídlem v Cambridge, je pipeline, která dokáže simulovat lidský proces skládání a produkce hudby end-to-end během několika sekund.

Co hudba s umělou inteligencí dokáže a co ne

Výzkum z Carnegie Mellon University publikovaný v lednu 2026 zjistil, že skladby generované umělou inteligencí používaly méně not a posluchači je hodnotili jako výrazně méně kreativní než skladby vytvořené lidmi. Umělá inteligence vyniká v generování kompetentních, žánrově konzistentních pozadí pro videa, hry a aplikace, ale stále bojuje s narativním obloukem a emocionálním překvapením, které definuje nezapomenutelné skládání písní. Převládající názor v oboru, jak to vyjádřili výzkumníci z CMU, není „AI nahrazuje umělce“, ale „AI posiluje umělce“ – zvládá technické produkční úkoly, aby se lidé mohli soustředit na kreativní vizi.

Autorskoprávní válka

Právní bitva o hudbu s umělou inteligencí je stejně významná jako samotná technologie. V roce 2024 podaly společnosti Universal Music Group, Sony Music Entertainment a Warner Music Group průlomové žaloby proti společnostem Suno a Udio, v nichž tvrdily, že platformy trénovaly své modely na nahrávkách chráněných autorskými právy bez povolení nebo platby. Klíčová právní otázka – zda se trénink na nelicencovaném materiálu považuje za „transformativní“ spravedlivé použití – zůstává u soudu nevyřešena.

Koncem roku 2025 se průmysl začal odklánět od pouhých soudních sporů k vyjednané koexistenci. Warner Music Group se dohodla se společností Udio a podepsala licenční smlouvu, která umělcům WMG umožňuje, aby jejich díla byla použita v nové předplatitelské službě Udio. Warner se také dohodl se společností Suno a požadoval, aby startup v roce 2026 spustil zcela nové, plně licencované modely. Universal Music Group dosáhla podobné dohody se společností Udio. Společnost Sony však nevyřešila ani jeden případ, čímž udržuje klíčové otázky autorských práv ve hře, uvádí Bloomberg Law.

Mezitím platformy pro streamování píší svá vlastní pravidla. Bandcamp v lednu 2026 zcela zakázal hudbu generovanou umělou inteligencí. Spotify a další vyžadují zveřejnění obsahu vytvořeného umělou inteligencí, ale v současné době jej povolují, ačkoli Digital Music News uvedl, že zásady se značně liší a stále se vyvíjejí.

Proč na tom záleží

Generování hudby pomocí umělé inteligence komprimuje to, co kdysi vyžadovalo studio, producenta a tisíce dolarů, do bezplatného webového nástroje. Pro nezávislé tvůrce, vývojáře her a inzerenty je to transformativní. Pro studiové hudebníky, skladatele a vokalisty, jejichž živobytí závisí na produkční práci, to představuje přímou ekonomickou hrozbu. Právní dohody z roku 2025 naznačují, že se průmysl posouvá směrem k licencovanému modelu sdílení licenčních poplatků – ale podmínky a to, kdo z toho bude mít prospěch, se stále vyjednávají. Odpověď určí, jak bude hudba vytvářena, distribuována a placena po celá desetiletí.

Tento článek je dostupný také v jiných jazycích:

Zůstaňte v obraze!

Sledujte nás na Facebooku a nic vám neunikne.

Sledujte nás na Facebooku

Související články