Testējam mākslīgā intelekta attēlu ģenerēšanas rīkus

- - No Comments on Testējam mākslīgā intelekta attēlu ģenerēšanas rīkus

Radošo industriju pārstāvji un satura radītāji regulāri saskaras ar problēmu, ka dizainam vai saturam nepieciešams atbilstošs attēls. Parasti attēli tiek meklēti foto bankās, piemēram, Shutterstock vai Unsplash, taču pēdējo dažu gadu laikā strauji progresējuši rīki, kas ar mākslīgā intelekta palīdzību uzģenerē nepieciešamo attēlu. Standartā tas notiek ar text-to-image metodi, jebšu tekstuāli aprakstot vēlamo rezultātu. 

Svarīgi ir maksimāli izsmeļoši aprakstīt savu vajadzību, turklāt daži rīki ļauj augšupielādēt references jeb parauga attēlu, pēc kā mākslīgajam intelektam vadīties. Katrs izstrādātājs slavē savu rīku kā pašu labāko, tāpēc nolēmu populārākos attēlu ģenerēšanas rīkus salīdzināt, izmantojot piemēru no dzīves. Domāju, ka tas varētu būt daudziem aktuāli. Pie darba!

Kritēriji

References bilde

Par references bildi izmantošu augstāk redzamo attēlu ar sievieti mežā, kas tur rokā mīksto rotaļlietu – lapsu (acīgākie lasītāji pamanīs, ka sieviete attēlā ir Tuta no LMT Viedtelevīzijas seriāla “Tutas lietas”). Iedomāsimies, ka man nepieciešams uzģenerēt pēc noskaņas un satura līdzīgu bildi, kas tomēr būtu nedaudz atšķirīga – respektīvi, jauna sieviete ar rotaļlietu-lapsu mežā, rudenī. Ievēroju šādus principus:

  • visiem rīkiem atslēgvārdi (jeb prompt) bija “young woman in forest, holding toy fox, autumn
  • Ja izstrādātājs piedāvāja šādu iespēju, tad ielādēju savu references bildi
  • Ja bija iespējams norādīt attēla proporcijas (aspect ratio), norādīju 16:9
  • Pēc iespējas izmantoju attēlu ģenerēšanas rīku bezmaksas versijas
  • Notestēju 10 populārākos rīkus, ko man ieteica Google Gemini (plus vēl dažus pēc savas izvēles)

DALL•E 3

Kas tas ir? OpenAI izstrādātais Dall•E 3 tiek uzskatīts par vienu no labākajiem attēlu ģenerēšanas rīkiem. Tas ir integrēts ChatGPT Plus abonementā un diemžēl šobrīd pieejams tikai maksas versijā. Taču ir vairāki veidi, kā izmēģināt DALL•E 3 bez maksas, izmantojot kredītu sistēmu, piemēram, flowgpt.com vai dalle3.org, ko izmantoju šajā testā.

Cena: 20$/mēn., pieejamas testa versijas par kredītiem

DALLE•3 izveidotais attēls

Rezultāts: Kopumā rezultāts nav slikts – ir mežs, rudens, noskaņa, lapsa ir attēlota ļoti veiksmīgi. No otras puses sievietei nez kāpēc galvā cepure ar lapsas ausīm, kā arī seja izskatās samākslota. Droši vien, ģenerējot bildi vairākas reizes, izdotos tik pie labāka rezultāta.

Atzīme: 8/10

Midjourney

Kas tas ir? Midjourney ir attēlu ģenerēšanas rīks, ko izstrādā neliela komanda 11 cilvēku sastāvā. Attēlu ģenerēšana ir nedaudz sarežģītāka, nekā citiem izstrādātājiem – process notiek Discord serverī, čata formā. Rīks uzģenerē 4 attēlus, ko iespējams tālāk modificēt, palielināt, uzlabot. Ļoti daudz var panākt ar dažādiem atslēgvārdiem un parametriem. Rīkam nav bezmaksas versijas.

Cena: no 10$/mēn., par to pieejams 3,3h servera laika, kas rezultējas apmēram 100 bildēs

Midjourney izveidotais attēls

Rezultāts: Attēls sanācis pārsteidzoši labs – izmantojot references bildi, Midjourney uzģenerēja precīzi to, kas prasīts. Priekšplāns ir fokusā, sieviete ir noslēpumaina un dabiska. No orģinālās bildes pat ir saglabāta vējjaka un šalle. Varbūt neliels mīnuss par gaismēnām ap galvu un, rūpīgi ieskatoties, kaut kas nav līdz galam labi ar lapsiņas ķermeni. 

Atzīme: 9/10

Stable Diffusion

Kas tas ir? Kompānijas Stability AI izstrādātais rīks no citiem atšķiras ar to, ka galveno versiju iespējams uzinstalēt uz sava Windows datora un ģenerēt bildes, izmantojot videokarti (nepieciešamas gan zināmas priekšzināšanas). Pieejama arī Stable Diffusion online versija, ko izmantoju es.

Cena: bezmaksas, online versijas ir par maksu (kredītu sistēma)

Stable Diffusion versija

Rezultāts: Nav slikti, tomēr var redzēt, ka mākslīgais intelekts īsti nav ticis galā ar lapsu (izskatās pēc dzīvas lapsas), kā arī sievietes seja man liekas mākslīga. Pieņemu, ka ar lejupielādējamo rīka versiju rezultāts būtu krietni labāks, pie izdevības to notestēšu.

Atzīme: 7/10

Adobe Firefly

Kas tas ir? Firefly ir Adobes attēlu ģenerēšanas rīks, kas izstrādāts uz Adobe Sensei mākslīgā intelekta platformas. Tas ir pieejams kopā ar Creative Cloud abonementu (lielākoties radošo industriju pārstāvjiem jau ir šis abonements). Rīks pieejams gan integrācijā ar Adobes aplikācijām, gan kā online ģenerators. 

Cena: 36,29 €/mēn. (Adobe Creative Cloud abonements)

Firefly versija

Rezultāts: Pieklājīga bilde – var redzēt, ka mākslīgais intelekts paņēmis koku no references bildes, sievietes seja un apģērbs izskatās dabiski, lapsa arī izskatās pēc rotaļlietas (lai gan palielas). 

Atzīme: 8/10

Image Creator from Microsoft Designer

Kas tas ir? Uz DALLE•2 platformas balstīts Microsoft izstrādāts bezmaksas rīks, primāri paredzēts satura veidotājiem.

Cena: bezmaksas

Image Creator versija

Rezultāts: Formāli uzdevums ir izpildīts, taču ir vairākas sīkas nianses, kas nodod mākslīgā intelekta klātbūtni. Sievietes seja ir pārāk gluda, kā 3D modelim. Lapsa mani īsti nepārliecina, kā arī attēlam pieejama tikai 1:1 proporcija.

Atzīme: 6/10

ImageFX by Google

Kas tas ir? Googles pašas izstrādātais MĪ attēlu ģenerators ImageFX šobrīd pieejams vien dažās valstīs (Latvija nav to skaitā). Tomēr ar VPN palīdzību man izdevās izmēģināt šo rīku. Izstrādājs sola izsmalcinātu attēlu kvalitāti, ko nodrošina Google DeepMind jaunais Imagen 2 modelis. 

Cena: bezmaksas

Image FX versija

Rezultāts: Pat vairākas reizes ģenerējot, labs rezultāts nesanāca. Vai nu lapsa bija dzīva, vai pārspīlēts tuvplāns, savukārt šajā bildē kaut kas nav labi ar sievietes acīm, rotaļlieta ir briesmīga un kas tas tāds tur zemē? Attēla proporcija arī ir fiksēta 1:1 izmēros. Vilšanās.

Atzīme: 4/10

DreamStudio by Stability AI

Kas tas ir? Vēl viens Stability AI produkts, kas cenšas konkurēt ar DALLE ar zemāku cenu. Glīts web interfeiss, iespējams ielādēt references bildi.

Cena: kredītu sistēma, cena atkarīga no attēla sarežģītības, izšķirtspējas u.c.

Dream Studio attēla versija

Rezultāts: Rīks veiksmīgi attēlojis mežu, noskaņu. Ne tik labi veicies ar sievietes seju un rotaļlietu – te acīmredzami kaut kas nav kārtībā. Pēc sajūtām šis ir mēģinājums doties Midjourney virzienā, taču neveiksmīgs.

Atzīme: 4/10

Adobe Photoshop (Beta) 

Kas tas ir? Jaunākajā Photoshop Beta versijā pieejams attēlu ģenerēšanas rīka Firefly Image 3 modelis. Iespējams ielādēt references bildi un uzstādīt dažādus parametrus. Papildus bonuss ir “Generative Fill” funkcija, kas var dabiski paplašināt bildi uz visām pusēm, aizstāt objektus attēlā ar citiem un tamlīdzīgi.

Cena: 26,43 €/mēn (Adobe Photoshop abonements)

Photoshop (Beta) izveidotā versija

Rezultāts: Kopumā Photoshop ir labi ticis galā ar uzdevumu – sievietes seja izskatās dabiska, apģērbs un mežs ir līdzīgs references bildei. Tomēr kaut kas nav labi ar lapsu – pat, ģenerējot vairākas reizes, lapsai katru reizi bija kāds neglīts defekts. No otras puses, šis rīks bija vienīgais, kas rotaļlietu pielika nedaudz priekšā sejai – tā kā paraugā.

Atzīme: 7/10

Fooocus

Kas tas ir? Stable Diffusion rīku parastam lietotājam ir tehniski sarežģīti uzstādīt, tāpēc Fooocus to ir vienkāršojis un padarījis pieejamu ikvienam tiešsaistē, izmantojot Automatic1111 web-UI grafisko lietotāja saskarni. Bez maksas pieejamas pamata funkcijas; lai piekļūtu advancētākām lietam, nāksies abonēt.

Cena: bezmaksas, 12 $/mēn. par papildus funkcijām

Fooocus versija par sievieti un rotaļlietu

Rezultāts: Uzģenerējot vairākus attēlus, lapsa lielākoties izskatījās dzīva un bija zināmas problēmas ar sievietes seju. Šajā labākajā attēlā lapsa ir izdevusies, meitenes seja izskatās diezgan dabiska (lai gan āda par gludu). Taču kaut kas nav labi ar sievietes pirkstiem, kā arī no meža nekas daudz nav redzams.

Atzīme: 7/10

Rīki, ko vēl izmēģināju, bet kas neiekļuva sarakstā:

Verdikts

Varam secināt, ka, pat ar references bildes palīdzību, mākslīgajam intelektam bija grūtības attēlot rotaļlietu – lapsu. Lapsa tika uzģenerēta vai nu dzīva, vai pārāk liela, vai ar dīvainībām, pat draudīga. Tas pats jāsaka par sievietes seju – daļa rīku netika galā nemaz, radot defektīvas un nepatīkamas sejas, citiem rīkiem sejas āda bija par gludu un atgādināja multiplikācijas filmu. Vislabāk mākslīgais intelekts tika galā ar meža un sievietes apģērba atveidojumu. Atliek secināt, ka tam labāk padodas nedzīvu lietu ģenerēšana.

Kas tad ir uzvarētājs? Nebūs liels pārsteigums, ka tas ir par radošās industrijas standartu kļuvušais Midjourney rīks! Jau ar pirmo piegājienu tas uzģenerēja četras vizuāli pievilcīgas bildes, kam piemīt tāda kā noslēpumainība. Tas paņēmis visu galveno informāciju no references bildes un uzģenerējis kaut ko pavisam citu. Parunājoties ar reklāmas industrijas pārstāvjiem, uzzināju, ka līdzīgus rezultātus var sasniegt ar Stable Diffusion uz datora uzinstalēto versiju, bet tur attēlu ģenerēšanas process ir daudz laikietilpīgāks (Midjourney gadījumā tās ir aptuveni 30 sekundes).

Mums ir uzvarētājs! Četras bildes, ko Midjourney uzģenerēja ar pirmo mēģinājumu

Vilties lika lielo tehnoloģiju milžu Google un Microsoft iespētais – nudien biju gaidījis labākus rezultātus. Tāpat lielā ažiotāža ap DALLE•3 attēlu ģenerētāju ļāva gaidīt ko labāku. Tomēr esmu pārliecināts, ka jau tuvākajā laikā šie lielo kompāniju rīki tiks uzlaboti, un mūs sagaida patīkami pārsteigumi.

Dalīties ar rakstu: