Desvendando a geração de imagens com IA: pesquisa prática com as principais ferramentas

Mosaicos de imagens geradas no Midjourney.

Por que estudar Inteligência Artificial?

Desde outubro de 2022 um frenesi tomou conta da Internet com notícias sobre inteligências artificiais que criavam imagens do jeito que a gente pudesse imaginar e descrever em um texto. Uma parte de mim levantou a sobrancelha desconfiando de tudo e se sentindo até um pouco ameaçada, mas a outra parte estava doida pra testar o que parecia ser uma ótima solução para questões de pesquisa iconográfica que os bancos de imagem tradicionais não resolvem.

Lembro bem de um momento em que precisei ilustrar uma imagem para rede social com a figura de um Papai Noel negro. Foram horas de pesquisa até achar algo que desse pra usar ou remixar. Se uma inteligência artificial gerasse isso pra mim, economizaria horas de navegação e frustração com os resultados que os maiores bancos de imagem da Internet oferecem.

A curiosidade e a vontade de aprender foram maiores que a desconfiança e lá estava eu testando loucamente cada uma das ferramentas que vi em notícias, fóruns e nos grupos de mensagens dos quais faço parte. A primeira que fui atrás foi a bem falada DALL-E. Dei com a cara na porta porque na época ela oferecia uma edição beta fechada. Deixei pra lá e fui bater em outra porta.

Cheguei então ao Stable Diffusion que é aberto, gratuito e oferece no website uma área chamada de playground onde podemos gerar imagens sem criar conta. Foi o meu primeiro teste oficial e a imagem gerada você pode ver a seguir. O prompt utilizado para a primeira foi: androgynous aikido person with wings. Eu não sabia muito bem o que pedir e usei elementos de um texto que meu irmão estava escrevendo e eu precisava ilustrar. Ele curtiu os resultados.

 

Primeira imagem gerada no playground do Stable Diffusion.

 

Eu não estava muito satisfeita porque as imagens possuíam resolução muito baixa. O tamanho máximo era 512x512 pixels e pra mim isso é muito pouco. Se eu quisesse remixar ou ilustrar algo teria problemas.

Segui minha jornada de pesquisas e esbarrei na empresa Writesonic que se vende como a melhor solução em AI para tudo. Uma das ferramentas da empresa é a Photosonic.ai que também gera imagens a partir de uma descrição textual. Nessa eu não me demorei muito porque são pouquíssimos créditos para a versão gratuita. Mas, ainda consegui gerar algumas imagens até bem criativas. O primeiro prompt foi Unicorn walking through empty city streets. E o segundo algo como: bird on top of an accordion in arid soil. Veja a seguir.

 

Imagens geradas no photosonic.ai.

 

Abandonei pela pouca quantidade de créditos gratuitos e também porque a ferramenta não salva as criações na sua conta, além de adicionar marca d'água aos resultados. Acho bem esquisito não informar como gera e se as imagens são remixadas de outras e ainda assim fazer questão de assinar a criação.

A pesquisa estava apenas começando e na busca por mais opções mais amigáveis esbarrei no DreamStudio da Stability AI que usa a tecnologia do Stable Diffusion. A interface já era bem mais amigável pra mim. Lembrou um editor de imagens como o Lightroom ou o Photoshop. A quantidade de créditos gratuitos é boa e diz que você consegue gerar aproximadamente 300 imagens. O número pode variar porque há vários tamanhos e formatos disponíveis. Quanto maior a qualidade, mais créditos irá consumir. Voltei aos prompts sobre Aikido e gerei a imagem a seguir a partir do prompt androgynous aikido person walking on the moon.


Imagem gerada no Dreamstudio.

No DreamStudio eu investi um certo tempo, mas ainda estava insatisfeita por conta das várias imagens altamente distorcidas que ele gerava. Para conseguir uma imagem mediana, muitas tentativas eram necessárias. A imagem a seguir me custou muitos créditos e tentativas.

Imagem gerada no Dreamstudio.

Múltiplos testes no Dreamstudio.

 

Foi quando me senti preparada para testar o Midjourney. As redes sociais já estavam repletas de projetos excelentes como o Carnavais Artificiais aqui no Brasil ou a Andrei Kovalev's Midjourney Styles Library que é uma curadoria das melhores criações na ferramenta organizada pelo artista visual Andrei Kovalev.

Tive resistência de mergulhar no Midjourney porque ele usa a plataforma do Discord que é um espaço para conversas com canais e salas de discussão, muito usado por gamers e programadores, que eu acho muito frenético. Mas, fui com resistência mesmo e não me arrependi.

A interface não é tão amigável, mas o ambiente é excelente para aprender. Como trata-se de uma sala de chat, você vai vendo os prompts e os resultados de todo mundo que tá criando dentro da sala em que você está. Isso facilita muito a aprendizagem quando combinado aos guias presentes no site. 


Tela de um dos muitos canais do Midjourney no Discord.

Então decidi voltar mais uma vez aos prompts sobre Aikido. Com esse aqui an androgynous person wearing aikido clothes looking to a mirror in an open field at night. The background is a starry sky with planets and shooting stars obtive o primeiro resultado que você vê a seguir. Já com esse outro aqui an androgynous person practicing martial arts in an open field at night. The background is a starry sky with planets and shooting stars obtive a segunda imagem.


1.

2.

O jogo virou e virou muito! Como amo colagem (aliás, sigam meu perfil @colagemdakarla no Instagram) decidi testar como a inteligência artificial do Midjourney criaria colagens para mim. Preparei esse prompt Conceptual image about media literacy that shows diverse people and media e obtive os resultados a seguir:


Primeiro quarteto de colagens produzidas no Midjourney.

Percebi que o Midjourney claramente tem dificuldades para desenhar olhos e mãos, assim como quase todas as pessoas que estão aprendendo a desenhar. Notei algumas distorções incômodas e percebi que precisaria de mais horas de teste para obter resultados melhores.

Tentei muitas e muitas vezes! Muitos resultados foram gerados com mãos, pés e olhos bastante distorcidos. Como esse texto já está gigante, vou evitar mostrar tudo. Decidi que iria fazer uma pesquisa um pouco mais elaborada em relação às inteligências artificiais que geram imagem a partir de texto; inclusive deixando os testes com as ferramentas Freeway e Runway para essa nova rodada de pesquisa.

A nova rodada de pesquisa

Desenhei um fluxo para que a pesquisa não ficasse tão pulverizada e eu pudesse mapear os passos e escrever conclusões mais pertinentes. Assim, listei as ferramentas a seguir, que seriam utilizadas durante a jornada.

Midjourney: a resolução das imagens é de 1024 pixels. Tem a vantagem de funcionar como uma espécie de fórum onde você consegue ver como e o que as outras pessoas estão gerando. Não tem plataforma própria e não é tão simples para começar a criar porque requer conta no Discord e um certo letramento com a ferramenta. Tem guias e informações que orientam a produção. Permite que você suba suas próprias imagens e misture a outras para criar. Você tem direito a 25 criações gratuitas. Depois disso é preciso assinar e pagar a partir de 8 dólares por mês. https://www.midjourney.com/home/

Dall-E: tem plataforma própria para geração de imagens e você cria dentro dela. Não dá pra ver a criação dos coleguinhas, o que deixa o job mais difícil. Os resultados não são tão criativos como os do Midjouney, mas são ok. Também gera variações. Agora tá aberto, você cria sua conta e tem 50 créditos para criar. Tem prazo para usar os créditos. A resolução das imagens é de 1024 pixels. https://labs.openai.com/

DreamStudio: tem plataforma própria para geração de imagens e você cria dentro dela. A carinha é boa, parece um editor de imagens. Não dá pra ver a criação dos coleguinhas, o que deixa o job mais difícil. Também gera variações. Você tem uma lista de créditos que varia de acordo com as configurações da imagem. Quanto maior a qualidade, mais crédito gasta. A resolução pode chegar até 1024 pixels. https://beta.dreamstudio.ai/dream

Stable Diffusion txt2img: tem plataforma própria para geração de imagens e você cria dentro dela. Você gera apenas uma imagem por vez. A resolução é de 512 pixels, o que é um valor baixo.  É gratuito, você pode gerar quantas vezes quiser. Tem opção para incrementar o prompt informando elementos que você não deseja que a imagem apresente. Aqui eu deixo um destaque para os métodos de sampling. O que me gerou melhores resultados foi o DPM++ 2M Karras. https://stablediffusion.fr/txt2img

Freeway: tem plataforma própria para geração de imagens e você cria dentro dela. Permite que você suba suas próprias imagens e misture a outras para criar. Você cria sua conta e tem 35 créditos. Gera três imagens com estilos diferentes como Conceptual Art, Renaissance Art, Sand Sculpture, Cyberpunk etc. As imagens são criativas e a resolução é de 1024 pixels. Ao clicar na imagem gerada é possível fazer vários tipos de edições, inclusive testar novos estilos a partir de uma galeria. https://freewayml.com/

Runway: faz bem mais que gerar imagens a partir de texto, mas optei por me concentrar nesse ponto específico. São 25 gerações gratuitas. Tem plataforma própria para geração de imagens e você cria dentro dela. Ao criar sua conta você vai para uma área que funciona como um estúdio de criação. A resolução do resultado gratuito é baixa, 512 pixels, porém as imagens são criativas e interessantes. https://runwayml.com/

Com as ferramentas definidas, era hora de pensar o caminho. A ideia foi pensar em um prompt e solicitar que as seis inteligências artificiais listadas gerassem imagens com base nesse mesmo prompt para comparar e analisar os resultados, listando apontamentos e aprendizados.

O prompt

O prompt que escrevi foi high contrast surreal collage about artificial intelligence and techonology, realistc, 4k. Traduzi para o português para comparar os resultados colagem surreal de alto contraste sobre inteligência artificial e tecnologia, realista, 4k. Já que é pra testar, vamos perguntar à inteligência artificial como ela imagina a si mesma. Eis a seguir os resultados.

As imagens geradas com prompt em inglês


Midjourney: high contrast surreal collage about artificial intelligence and technology, realistic, 4k.

Quarteto de colagens produzidas no Midjourney.

 

 

Dall-E: high contrast surreal collage about artificial intelligence and technology, realistic, 4k.

Quarteto de colagens produzidas no DALL-E.

 


DreamStudio: high contrast surreal collage about artificial intelligence and technology, realistic, 4k.

Quarteto de colagens produzidas no DreamStudio.


Stable Diffusion txt2img: high contrast surreal collage about artificial intelligence and technology, realistic, 4k.

Quarteto de colagens produzidas no Stable Diffusion.


Freeway: high contrast surreal collage about artificial intelligence and technology, realistic, 4k.

Quarteto de colagens produzidas no Freeway.


Runway: high contrast surreal collage about artificial intelligence and technology, realistic, 4k.

Quarteto de colagens produzidas no Runway.


As imagens geradas com prompt em português


Midjourney: colagem surreal de alto contraste sobre inteligência artificial e tecnologia, realista, 4k.

Quarteto de colagens produzidas no Midjourney.


Dall-E: colagem surreal de alto contraste sobre inteligência artificial e tecnologia, realista, 4k.

Quarteto de colagens produzidas no DALL-E.

DreamStudio: colagem surreal de alto contraste sobre inteligência artificial e tecnologia, realista, 4k.

Quarteto de colagens produzidas no DreamStudio.


Stable Diffusion txt2img: colagem surreal de alto contraste sobre inteligência artificial e tecnologia, realista, 4k.
 

Quarteto de colagens produzidas no Stable Diffusion.

Freeway: colagem surreal de alto contraste sobre inteligência artificial e tecnologia, realista, 4k.

Quarteto de colagens produzidas no Freeway.


Runway: colagem surreal de alto contraste sobre inteligência artificial e tecnologia, realista, 4k.

Quarteto de colagens produzidas no Runway.

O que sigo aprendendo


Investi entre 4h e 8h de estudo para cada uma dessas ferramentas. Isso me garantiu uma série de aprendizados que ainda estão em curso, principalmente no Midjourney que é um ambiente ativo 24h e onde você pesquisa e aprende mesmo sem gerar imagens. Aliás, vale mencionar que consumi os créditos gratuitos da ferramenta em menos de 4h.

De tudo que entendi até aqui, elenquei alguns pontos que considero importantes na lista a seguir:

  1. A resolução da imagem e o número de gerações são os principais critérios para cobrança de assinatura. Para gerar sem limites e com resolução alta é necessário assinar algum serviço.
  2. O Midjourney, na minha opinião, tem a melhor capacidade criativa porque parece ter foco em estética e estilos artísticos. Porém, apresenta distorções em mãos e olhos nas imagens que retratam pessoas. Parece que desenhar mãos e olhos é difícil até mesmo para as inteligências artificiais!
  3. Funciona inserir o prompt em português, mas os resultados são diferentes e mais distorcidos dos que os obtidos com prompt em inglês. A exceção foi o Midjourney que mandou muito bem nas duas línguas.
  4. Só pensei em escrever os prompts em português depois de gerar tudo em inglês. O Midjourney me surpreendeu ainda mais, parecendo funcionar melhor com o prompt escrito em português. Farei mais testes para confirmar essa hipótese.
  5. O DALL-E que é da OpenAI, mesmo lab do ChatGPT, não me apresentou resultados tão bons e parece ter um apego muito grande à máscaras.
  6. É necessário ter conhecimento de estilos, composição, iluminação, formatos e outras características relacionadas a produção de imagens. Quanto mais você souber, melhor será o seu prompt. É natural que artistas visuais produzam melhores imagens porque esses elementos (tags) farão parte dos seus prompts.
  7. Cada ferramenta oferece guias com informações sobre como escrever seus prompts e gerar melhores resultados. Ler cada detalhe faz muita diferença.
  8. Existe pouca ou nenhuma informação relativa a como as imagens são geradas ou a possíveis fontes de imagens existentes usadas para compor. Em muitos casos parecem recortes e distorções de imagens que já existem na web. Há ferramentas que afirmam criar do zero… Vamos aguardar pra ver no que tudo isso vai dar.
  9. A inteligência artificial não é uma entidade que conversa com você. Não existe raciocínio e ela não faz nada sozinha. Talvez o termo "inteligência" tenha sido cuidadosamente pensado para causar a impressão de que existe ali uma espécie de persona. Não parece ser o caso. Pra mim a IA como se apresenta hoje é um recurso, assim como é um pincel ou uma câmera fotográfica. Ela só tem muito mais tecnologia embarcada. O que é natural para os avanços que alcançamos nessa área até hoje.
  10. Fiquei com duas perguntas, ainda sem resposta, martelando a minha cabeça: existe arte sem artista? De quem seria a autoria de uma imagem gerada por AI?


Agora gostaria de ouvir a sua opinião caso queira comparar os resultados ou gerar os seus próprios em um fluxo semelhante.

Até os próximos testes.

Karla Vidal

Comentários

  1. Amei seu texto, Karla. Realmente essas novas ferramentas são fantásticas e precisamos explorar e realizar estudos e discussões sobre elas, mas vieram pra ficar!

    ResponderExcluir
    Respostas
    1. Obrigada, Peter! Fico feliz que tenha gostado. São muitas coisas pra refletir ao mesmo tempo. Por aqui eu sempre acho melhor colocar a mão na massa antes de analisar. Sempre funciona!

      Excluir
  2. Excelente pesquisa, Karla! Semana passada também passei um bom tempo gastando meus créditos no Midjourney e achei incrível poder aprender com os resultados dos outros usuários. A maioria das imagens era surpreendente e me deixou com aquele pé atrás de "de onde vem e pra onde vai isso".
    Mas também percebi que quanto mais o usuário entende de estética, pontos de vista e artes visuais, melhor são as imagens geradas.

    Enfim, parabéns pelo relato completíssimo e vamos acompanhando para entender como isso vai influenciar nos nossos futuros ☺️

    ResponderExcluir
    Respostas
    1. Tudo é crédito agora, né? Que loucura! Mas, bora gastar os créditos enquanto ainda são gratuitos. Só assim pra sentir de verdade os incômodos e as maravilhas dessas ferramentas. Obrigada pela leitura!

      Excluir
  3. Karlinha... o que posso dizer? Wow! Que pesquisa mega incrível. Tbm tenho gastado algum tempo explorando o tema, mas sua forma de estruturar a exploração me deu vários clics. Obrigada! Engraçado que chegamos a algumas conclusões semelhantes: esbarrando aqui e ali nas questões dos créditos e da resolução: quanto mais específicos os prompts melhor, e no caso de arte, conhecer de composição, iluminação, formatos, etc ajuda montes; no caso principalmente de adaptação "Ela" se pauta muito, aparente, por máscaras [Dall-E, apesar de ser do ChatGPX, decepciona neste quesito]; mãos e olhos [expressões] parecer ser mesmo um problemas para "Ela" [não só criando, mas tbm adaptando]; e por fim... estou com a mesma pergunta martelando em minha cabeça: de quem seria a autoria, não só de uma imagem, mas de qualquer conteúdo gerado por "Ela"? E completando o que vc pergunta sobre se "existe arte sem artista", acho até que precisaremos da um passito atrás e voltar na discussão [estudada inclusive por Harvard] do que seria arte, nesse novo contexto, né mess?

    Adorei!! Obrigada pelo pontapé inicial pra mim. Vai me ajudar montes nessa nova jornada de exploração!

    ResponderExcluir
    Respostas
    1. É isso mesmo, Soraia. A gente ainda estuda muito sobre o que é arte e o que é inteligência. Talvez nem tenhamos entendido ainda e já estamos com toda essa tecnologia ao nosso alcance. Acho que o mais importante é estar com mente e coração abertos para debater e colocar as nossas dúvidas sobre a mesa.

      Excluir

Postar um comentário

Que tal comentar?

Postagens mais visitadas