Stable Diffusion, Midjourney: Hogyan működik a mesterséges kreativitás?

Publikálva 2026. február 23. • Szerző: Michal Rybka

A mesterséges intelligencia új és meglepő formája a mesterséges kreativitás. Az utóbbi időben számos olyan program jelent meg, amelyek képesek szöveges bemenetek alapján képeket generálni. Maga a kreatív AI 2015-ben vált híressé, amikor a Google bemutatta a Deep Dream Generatort. Ez képes volt a bemeneti képet színes hallucinációvá feldobni – érdekes volt, de kissé egyoldalú.

Technológiai forradalom Az AI előnyei és hátrányai Mi lesz az emberekkel? Ember vs. AI konfliktusok Munka utáni világ Forradalomtól az evolúcióig

Az AI különös története Az AI alapformái Mindennapi AI Google Search: tanulás AI-val Képgenerálás AI-val Leigáz minket az AI? Jön a kvantumtél?

Ai fotózás a művészeti alkotásban. Midjourney segítségével készült. Készítette: Václav Závada.

Hogyan működik a mesterséges kreativitás? – TARTALOM

Mi az a látens diffúzió?
Hogyan működik a képgenerálás AI-val?
Új szakma van születőben: az AI művész

Mi az a látens diffúzió?

Az új kreatív programok a látens diffúzió modern koncepcióján alapulnak, amely egy olyan folyamat, amelyben a neurális hálózat egyre zajosabb bemeneteken tanul meg képeket felismerni, így szó szerint megtanulja látni az alakzatokat a káoszban. Maga az alkotás fordítva történik, vagyis tiszta zajból generálódik egy bemenet, amelyben az egyes iterációkban a hálózat felismeri az alakzatokat, és a véletlenszerű bemenetet azokkal az elemekkel helyettesíti, amelyeket lát benne. Ami ebben a folyamatban lenyűgöző, az a lehetőség, hogy pontosan így születnek az álmok – az alvó agy véletlenszerű aktivitását képekként és látomásokként értelmezi.

A látens diffúzió koncepcióként néhány évvel ezelőtt jött létre, de ma már vannak kereskedelmi platformok, mint a Midjourney, de van egy nyílt forráskódú eszköz is, a Stable Diffusion. Ezek két részre oszlanak – maga a neurális hálózat tanítása szuperszámítógépeken történik, ahol milliárdnyi bemenetet mutatnak neki, az eredményül kapott modell pedig otthoni számítógépeken is futtatható modern videókártyával és minimum 8 GB RAM kapacitással. Hasonló modelleket egyelőre otthoni számítógépeken tanítani nem lehet, számítási szempontból túl igényes.

Midjourney segítségével készült — Hogyan nézne ki a Midjourney, ha ember lenne? Közvetlenül a Midjourney-t kérdeztük meg – így ábrázolta önmagát.
*Eszköz: Midjourney. Készítette: Václav Závada*

Mennyire igényes egy új AI modell betanítása a Stable Diffusion számára?

Ahogy azt fentebb is említettük, otthoni számítógépeken mesterséges intelligenciát betanítani nem lehet. Elméletben ez nem igaz, természetesen lehet – csak az idő, amire szükséged lenne hozzá, több száz évben mérhető. És ez nem túlzás.

Hogy konkrétabbak legyünk. Egy NVIDIA DGX A100 szuperszámítógépen, amelynek 128 CPU magja, 55.296 magja van, és körülbelül 200.000 USD dollárért adják el, 79 ezer számítási órára van szükség a Stable Diffusion modell betanításához.

Egy NVIDIA DGX A100 szuperszámítógépnek tehát 9 évre lenne szüksége a modell betanításához. Szóval az elméletet félretéve, a valóságban otthoni számítógépeken egyelőre nem lehet modellt tanítani.

Hogyan működik a képgenerálás AI-val?

A képek generálása úgy történik, hogy a rendszer fogja a szöveges bemeneteket, amelyek megmondják neki, mit kellene látnia a zajban – és egy véletlenszerűen generált zajt is, amelyből elkezdi feldolgozni a képi eredményt. Mivel véletlenszerű mintából indul, az eredmény mindig egyedi kép, még ha hasonlíthatnak is egymásra a tartalmak és stílusok. A generálás iteratív, vagyis több kép keletkezik, amelyek közül a felhasználó kiválasztja azokat, amelyek tetszenek neki, és azokat dolgoztatja ki tovább. Tehát nem egy teljesen automatikus folyamatról van szó, amelyben az AI létrehozná a lehető legjobb képet, hanem inkább egy kreatív eszközről, amely javaslatokat tesz az egyes lehetőségekre, és az emberrel együtt formálja azokat.

Az ember az egyedi bemenetek szerzője, és ő választ a lehetséges kimenetek közül is, így a kreatív AI terméke emberi szerzői mű. Az AI mint olyan nem rendelkezik jogi személyiséggel, és nem lehet szerző, a törvény ma a kreatív AI produkcióját szoftvereszköz kimenetének tekinti – hasonlóan például az Adobe Photoshophoz. Bár folynak viták arról, hogy a szerző nem lehet-e maga a hálózat – nem, nem lehet, a törvény nem ismeri el az AI jogi személyiségét, és nagyon problémás lenne valami ilyesmit bevezetni. A jogi személyiség azt jelenti, hogy az AI-ra úgy tekintenének, mint emberre mind a jogok, mind a kötelezettségek szempontjából – és tekintettel arra, hogy a törvényeket emberek tervezték emberek számára, az AI jelenlegi jogrendszerbe való bevonása több kárt okozna, mint hasznot.

Szerzői jog vs AI művészet

A mesterséges intelligencia tehát nem lehet szerző a szerzői jogi törvény értelmében. Ha azonban a kimenet létrehozásához konkrét szerzőt használsz, vagy olyan referencia képet használsz, amelyet aztán mesterséges intelligencia segítségével módosítasz, akkor egy úgynevezett származékos szerzői műről van szó. Így elméletileg két helyzet állhat elő:

1. Ha olyan specifikus megadási módot (promptokat) használsz, amely meghatározó hatással van az eredményül kapott kép megjelenésére, esetleg saját referencia fotódat/képedet használod, akkor az AI kimenetét úgynevezett származékos szerzői műnek lehet tekinteni. Más szóval, egy ilyen kép a szerzői jogi törvény értelmében műként védelemben részesül.

2. Ha a képedet valaki más képére alapozod, esetleg átveszed az ő megadási módját, akkor az illető személy (elméletben) igényt tarthat a jogaira azzal az érvvel, hogy származékos szerzői műről van szó.

Kérdés, hogy a bíróságok milyen álláspontot foglalnának el ebben a kérdésben. Ezért a fenti szöveget ne vedd megkérdőjelezhetetlen igazságnak, hanem inkább véleménynek. Egyelőre ugyanis nem létezik semmilyen bírósági precedens, legalábbis errefelé. És ha létezik valamilyen objektív igazság, akkor az az, hogy a törvényt csak a bíróság értelmezheti, semmiképp sem az Alza.hu szerkesztője.

Új szakma van születőben: az AI művész

A kreatív AI ma valóban inkább egy eszköz, amely azonban nagyon gyorsan és hatékonyan képes vizuális tartalmat generálni. Új pozíció születik, az AI művész, aki az AI eszközökkel együttműködve képes tartalmat generálni az elképzelései szerint – ez egy hasonló szerep, mint például a keresési specialista, csak művészi átfogással.

Midjourney vs Stable Diffusion

A Midjourney és a Stable Diffusion kimenetének felületes összehasonlítása, amelyet itt a cikkben képek formájában találsz, félrevezető lehet. A Stable Diffusion kezelésében nincs akkora tapasztalatunk, és így nem tudjuk teljes mértékben kihasználni a benne rejlő potenciált, ami kétségtelenül óriási. A Midjourney-vel szemben ugyanis a saját számítógépeden fut, így bármilyen modellt letölthetsz, amely a választott műfajodra specializálódik. Ma már számos megbízható modellt találhatsz az interneten – néhány az animére, mások a katonai technikára specializálódnak.

Jelenleg azonban meg kell jegyeznünk, hogy a Stable Diffusion kimenete lényegesen kevésbé konzisztens. Számos általunk generált kép gyenge minőségű volt, míg a Midjourney-nél nem kellett különösebben erőlködnünk. A Stable Diffusion óriási potenciállal rendelkezik. Ugyanakkor mivel minden a saját hardvereden fut, nem kell foglalkoznod tilalmakkal és korlátozásokkal (ami egyben kissé ijesztő is), és ami a legfontosabb – ingyenes.

De ahhoz, hogy versenyképes kimenetet kapj belőle, nem elég a puszta szerencse, különböző modelleket kell letöltened, próbálkoznod, kísérletezned kell a különböző beállítások kombinációival és a kérésed megfogalmazásával. Érdekességképpen mellékelünk néhány képet is, amelyek nem kerültek be a cikkbe. Itt találod őket: Stable Difusion, Midjourney.

A kreatív intelligencia várhatóan gyorsan érvényesülni fog a kreatív írás és a filmkészítés területén is, így viszonylag gyorsan megjelennek az AI által készített filmek, és jó eséllyel az AI által írt és rendezett filmek is. Ez a kreatív szakmák végét jelenti – vagy demokratizálódásukat? Ezt még nem tudjuk – és azt sem tudjuk, hogy pontosan hol vannak a jelenlegi kreatív AI képességeinek határai. Jelenleg a mesterséges intelligencia napról napra fejlődik, és úgy tűnik, egyelőre még nem érte el a határait. Így megállapítható, hogy a látens diffúzión alapuló eszközök sokkoló előrelépést hoztak. Egyelőre azonban igaznak tekinthetjük azt az állítást, hogy minden hasonló technológiának megvannak a maga korlátai, de idővel jobb és hatékonyabb intelligencia váltja fel.

A közeli jövőben várhatóan normalizálódni fog a kreatív AI bevetése a mindennapi életben, ezzel együtt jó eséllyel egy szórakoztatóbb és játékosabb világ köszönhet ránk is, mert az a teljesítmény, amellyel a kreatív AI képes újabb és újabb tartalmat generálni, egyszerűen lenyűgöző. Ez a technológia már itt van – és nekünk hozzá kell szoknunk – és meg kell békélnünk azzal is, hogy a következő terület, ahol érvényesülni fog, teljesen más lehet, mint amit várunk.

Okosotthon Mesterséges intelligencia

Stable Diffusion, Midjourney: Hogyan működik a mesterséges kreativitás?

Hogyan működik a mesterséges kreativitás? – TARTALOM

Mi az a látens diffúzió?

Hogyan működik a képgenerálás AI-val?

Új szakma van születőben: az AI művész

Try our cookies