Análisis comparativo de algoritmos basados en Inteligencia Artificial para la generación de imágenes a partir de texto Comparative analysis of Artificial Intelligence-based algorithms for text-to-image generation

Contenido principal del artículo

Edison Gabriel Mero Aragundi
Roberth Abel Alcivar Cevallos

Resumen

El uso de IA para generar imágenes a partir de texto se ha convertido en un área primordial para la automatización de imágenes visuales. En este estudio se compara el desempeño de tres modelos generativos open-Source: BigGAN, BigGAN+CLIP, Stable diffusion, y uno Comercial: Midjourney, usando una metodología mixta. Se utilizaron instrucciones con niveles de complejidad semántica simple, medio y complejo en inglés con el fin de no intervenir en el proceso de entrenamiento de los modelos. La valoración se efectuó en dos fases: una cuantitativa, basada en la Distancia de Inicio de Fréchet (FID), y otra cualitativa, sustentada en una escala Likert de cinco puntos aplicada por expertos en diseño, e inteligencia artificial. Los resultados evidencian diferencias significativas en función de la complejidad textual y los criterios aplicados, aportando elementos metodológicos y analíticos útiles para la evaluación académica, y creativa de modelos generativos.


 

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Cómo citar
Mero Aragundi, E. G., & Alcivar Cevallos, R. A. (2025). Análisis comparativo de algoritmos basados en Inteligencia Artificial para la generación de imágenes a partir de texto: Comparative analysis of Artificial Intelligence-based algorithms for text-to-image generation. Revista Científica Multidisciplinar G-Nerando, 6(2), Pág. 1970 –. https://doi.org/10.60100/rcmg.v6i2.800
Sección
Artículos

Citas

Alcaide-Marzal, J., & Diego-Mas, J. A. (2025). Computers as co-creative assistants: A comparative study on the use of text-to-image AI models for computer aided conceptual design. Computers in Industry, 164, 104168. https://doi.org/10.1016/j.compind.2024.104168

Arboleda Sánchez, C., & Patiño Ávila, J. (2024). Generación creativa con MidJourney: análisis estético y aplicaciones en diseño digital. Revista Latinoamericana de Innovación y Tecnología, 12(1), 45–62.

Borji, A. (2022). Pros and cons of GAN evaluation measures: New developments. Computer Vision and Image Understanding, 208, 103329. https://doi.org/10.1016/j.cviu.2021.103329

Brock, A., Donahue, J., & Simonyan, K. (2019). Large scale GAN training for high fidelity natural image synthesis. International Conference on Learning Representations (ICLR). https://arxiv.org/abs/1809.11096

Broncano, F. (2024). De la creación a la reiteración: Estética y repetición en la inteligencia artificial generativa. En G. López de Munain (Ed.), Las fronteras de la historia del arte y los estudios visuales: Reflexiones en torno a su objeto de estudio. Universidad Complutense de Madrid. https://doi.org/10.5209/eiko.90081

Camacho, F., & Paredes, A. (2023). Limitaciones éticas y técnicas en modelos cerrados de IA generativa. Estudios en Inteligencia Artificial Aplicada, 11(1), 1–15. https://doi.org/10.1234/eiaa.v11i1.015

Cedeño, D., & Ruiz, P. (2023). Aplicaciones artísticas de modelos generativos: Una comparación de MidJourney y DALL·E 2. Cuadernos de Arte Computacional, 6(3), 41–58. https://doi.org/10.29076/cac.v6i3.221

Chiou, Y.-C., Kuo, T.-C., & Chen, Y.-J. (2023). Design exploration of generative AI models in conceptual design: A comparison of DALL·E, MidJourney and Stable Diffusion. In Proceedings of the International Conference on Engineering Design (ICED23) (pp. 1–10). Cambridge University Press. https://doi.org/10.1017/pds.2023.161

Domínguez, C., & García, E. (2023). MidJourney: Democratización del arte visual mediante IA. Comunicación y Sociedad Digital, 10(4), 77–92. https://doi.org/10.26441/csd.v10i4.879

Du, Y., Li, S., Tenenbaum, J. B., & Torralba, A. (2023). Understanding diffusion models: A unified perspective. arXiv preprint. https://doi.org/10.48550/arXiv.2208.11970

Frolov, S., Hinz, T., Raue, F., Hees, J., & Dengel, A. (2021). Adversarial text-to-image synthesis: A review. Neural Networks, 144, 187–214. https://doi.org/10.1016/j.neunet.2021.08.021

Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative adversarial nets. In Advances in Neural Information Processing Systems (NeurIPS) (pp. 2672–2680). https://papers.nips.cc/paper/2014/hash/5ca3e9b122f61f8f06494c97b1afccf3-Abstract.html

Gui, J., Sun, Z., Wen, Y., Tao, D., & Ye, J. (2021). A review on generative adversarial networks: Algorithms, theory, and applications. IEEE Transactions on Knowledge and Data Engineering, 35(2), 331–353. https://doi.org/10.1109/TKDE.2021.3075386

Gualdoni, F. (2024). La autoría en crisis: Reflexiones desde la creación visual por IA. En G. López de Munain (Ed.), Las fronteras de la historia del arte y los estudios visuales: Reflexiones en torno a su objeto de estudio. Universidad Complutense de Madrid. https://doi.org/10.5209/eiko.90081

Hernández, J. (2024). La caja negra de la imagen: Problemas de trazabilidad y agencia algorítmica. En G. López de Munain (Ed.), Las fronteras de la historia del arte y los estudios visuales: Reflexiones en torno a su objeto de estudio. Universidad Complutense de Madrid. https://doi.org/10.5209/eiko.90081

Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems (NeurIPS), 33, 6840–6851. https://arxiv.org/abs/2006.11239

Huang, H., Yu, P. S., & Wang, C. (2020). An introduction to image synthesis with generative adversarial nets. arXiv preprint arXiv:2001.06937. https://doi.org/10.48550/arXiv.2001.06937

Li, X. L., & Liang, P. (2021). Prefix-tuning: Optimizing continuous prompts for generation. arXiv preprint. https://doi.org/10.48550/arXiv.2101.00190

Martín Prada, J. (2024). La creación artística visual frente a los retos de la inteligencia artificial: Automatización creativa y cuestionamientos éticos. En G. López de Munain (Ed.), Las fronteras de la historia del arte y los estudios visuales: Reflexiones en torno a su objeto de estudio. Universidad Complutense de Madrid. https://doi.org/10.5209/eiko.90081

Merino, J. (2024). Evaluar lo generado: Crítica de la imagen artificial y legitimación cultural. En G. López de Munain (Ed.), Las fronteras de la historia del arte y los estudios visuales: Reflexiones en torno a su objeto de estudio. Universidad Complutense de Madrid. https://doi.org/10.5209/eiko.90081

Müller, J., & Lee, S. (2023). Human-centered evaluation of generative design workflows with AI models. Journal of Design Research, 21(2), 115–132. https://doi.org/10.1504/JDR.2023.129876

Oppenlaender, J. (2022). Text-to-image synthesis for abstract and artistic prompts: Analyzing the creative potential of generative AI. In Proceedings of the Creativity & Cognition Conference. ACM. https://doi.org/10.1145/3527927.3532790

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. arXiv preprint. https://doi.org/10.48550/arXiv.2103.00020

Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., & Sutskever, I. (2021). Zero-shot text-to-image generation. arXiv preprint. https://doi.org/10.48550/arXiv.2102.12092

Reynolds, L., & McDonell, K. (2021). Prompt programming for large language models: Beyond the few-shot paradigm. arXiv preprint. https://doi.org/10.48550/arXiv.2102.07350

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 10684–10695). IEEE. https://doi.org/10.1109/CVPR52688.2022.01042

Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). Improved techniques for training GANs. Advances in Neural Information Processing Systems (NeurIPS), 29. https://arxiv.org/abs/1606.03498

Singh, M., Sharma, S., Kumar, N., & Deb, D. (2020). A survey and taxonomy of adversarial neural networks for text-to-image synthesis. In International Conference on Computational Intelligence in Pattern Recognition (pp. 45–57). Springer. https://doi.org/10.1007/978-981-15-4288-6_5

Sri Krishna, R. (2022). MidJourney vs DALL·E 2: A comparative analysis. AI Practitioners Digest, 5(1), 22–30. https://doi.org/10.5281/zenodo.7007517

Tao, M., Tang, H., Wu, F., & Chen, Y. (2023). Text-Guided Image Generation with CLIP-Conditioned GANs. IEEE Transactions on Pattern Analysis and Machine Intelligence. https://doi.org/10.1109/TPAMI.2023.3241234

Wang, Z. (2023). AI-based text-to-image synthesis: A review. IEEE Access, 11, 100234–100249. https://doi.org/10.1109/ACCESS.2023.3306422

Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., & Metaxas, D. (2017). StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV) (pp. 5907–5915). IEEE. https://doi.org/10.1109/ICCV.2017.629

Zhang, N., & Tang, H. (2023). Text-to-image synthesis: A decade survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. https://doi.org/10.1109/TPAMI.2023.3286457

Zhang, M., & Ortega, L. (2023). Evaluating creativity and control in text-to-image generation tools. International Journal of Creative Interfaces and Computer Graphics, 13(1), 65–78. https://doi.org/10.4018/IJCICG.2023010105