Stable Diffusion이란?

2024. 4. 8. 17:41AI/LLM

728x90
반응형

Stable Diffusion이란?

1. 텍스트로 이미지를 만들어주는 생성형 인공 지능 모델입니다. 

2. "Stable"은 Stability AI의 이름을 딴 것으로 보입니다.
ChatGPT는 "모델이 생성하는 이미지의 질과 안정성을 의미한다"고 했지만 그 근거를 찾을 수 없었습니다.
"Diffusion"은 Diffusion Model이라는 이미지 생성 모델의 이름에서 따온것으로 보입니다. (확실하지 않습니다)

3. 스테이블 디퓨전은 컴퓨팅 리소스를 대폭 줄여 GPU가 장착된 개인의 데스크탑이나 노트북에서도 실행할 수 있게 만든것이 특징입니다.

4. Stable Diffusion은 오픈소스이며, 사용하여 서비스를 할 경우 Stable AI에서 만든 오픈소스 머신러닝 전용 라이선스를 따라야 합니다.

 

Stable Diffusion Architecture

 

stability.ai 에서

최신 텍스트-이미지 변환 모델인 Stable Diffusion 3은 다중 주제 프롬프트의 향상된 처리, 뛰어난 이미지 품질, 철자 정확도를 통해 큰 도약을 이루었습니다. 현재 초기 프리뷰 버전인 이 모델은 800M에서 8B 매개변수에 이르는 다양한 구성으로 제공되며, 핵심 가치에 부합하고 다양한 하드웨어 구성에 대한 액세스를 대중화합니다.

Stable Diffusion 3, our latest text-to-image model, marks a significant leap forward with enhanced handling of multi-subject prompts, superior image quality, and spelling accuracy. Currently in early preview, this model is available in various configurations ranging from 800M to 8B parameters, aligning with our core values and democratizing access for a wide range hardware configurations.

https://stability.ai/stable-image

 

 

 

aws가 정리한 글에서

What is Stable Diffusion?

스테이블 디퓨전은 텍스트와 이미지 프롬프트에서 독특한 실사 이미지를 생성하는 생성형 인공 지능(생성형 AI) 모델입니다. 2022년에 처음 출시되었습니다. 이미지 외에도 이 모델을 사용하여 동영상과 애니메이션을 만들 수도 있습니다. 이 모델은 확산 기술을 기반으로 하며 잠재 공간을 사용합니다. 따라서 처리 요구 사항이 크게 줄어들고 GPU가 장착된 데스크톱이나 노트북에서 모델을 실행할 수 있습니다. 안정적 확산은 전이 학습을 통해 최소 5개의 이미지로 특정 요구 사항을 충족하도록 미세 조정할 수 있습니다.

스테이블 디퓨전은 허용된 라이선스만 있으면 누구나 사용할 수 있습니다. 이 점이 이전 버전과 차별화된 점입니다.

Stable Diffusion is a generative artificial intelligence (generative AI) model that produces unique photorealistic images from text and image prompts. It originally launched in 2022. Besides images, you can also use the model to create videos and animations. The model is based on diffusion technology and uses latent space. This significantly reduces processing requirements, and you can run the model on desktops or laptops equipped with GPUs. Stable Diffusion can be fine-tuned to meet your specific needs with as little as five images through transfer learning.

Stable Diffusion is available to everyone under a permissive license. This differentiates Stable Diffusion from its predecessors.

https://aws.amazon.com/what-is/stable-diffusion/

 

Stable Diffusion이란?- Stable Diffusion AI 설명 - AWS

Stable Diffusion은 텍스트-이미지 모델 생성이 눈에 띄게 향상되었음을 나타냅니다. 광범위하게 사용할 수 있으며 다른 많은 TTS(Text-to-Image) 모델보다 훨씬 적은 처리 능력을 필요로 합니다. 이 기능

aws.amazon.com

 

 

나무위키에서

Stability AI에서 오픈소스 라이선스로 배포한 text-to-image 인공지능 모델이다. 2022년 8월 22일 출시했다. 대다수의 이미지 인공지능들은 온라인에서만 서비스하는데, 스테이블 디퓨전은 개인의 PC로 실행 즉 '로컬 환경'으로 설치 및 실행 할수있는게 큰 차이점이다.

https://namu.wiki/w/Stable%20Diffusion

 

Stable Diffusion

Stability AI 에서 오픈소스 라이선스로 배포한 text-to-image 인공지능 모델이다. 2022년

namu.wiki

 

 

ChatGPT에서

Q. stable diffusion이 뭐야? AI는 잘 모르는 3년차 개발자라고 생각하고 답해줘

A. (ChatGPT)
Stable Diffusion은 인공지능(AI)을 기반으로 한 이미지 생성 모델 중 하나입니다. 이 기술은 사용자가 텍스트를 입력하면 그 텍스트를 기반으로 이미지를 생성할 수 있게 해주는데요, 다시 말해서, 당신이 "해질녘 바다의 모습"이라고 텍스트로 입력하면, Stable Diffusion은 그 설명을 바탕으로 해질녘 바다의 이미지를 만들어냅니다.

이 모델은 대규모의 이미지와 텍스트 데이터를 학습하여, 텍스트 설명에 맞는 이미지를 "상상"할 수 있도록 설계되었습니다. 여기서 "Stable"은 모델이 생성하는 이미지의 질과 안정성을 의미하며, "Diffusion"은 이 모델이 사용하는 특정한 수학적 기법을 가리킵니다. 이 기법은 이미지를 점차적으로 수정하고 개선해가며 최종 이미지를 생성하는 과정을 거칩니다.

Stable Diffusion은 오픈소스로 제공되기 때문에, 누구나 자유롭게 사용하거나 연구 목적으로 변형할 수 있습니다. 이로 인해, 많은 개발자와 연구자들이 이 모델을 기반으로 새로운 응용 프로그램을 만들거나, 이미지 생성 기술을 다양한 분야에 적용하는 데 활용하고 있습니다.

특히, 이 기술은 디지털 아트, 게임 개발, 광고 콘텐츠 생성 등 시각적 콘텐츠가 중요한 분야에서 유용하게 사용될 수 있습니다. 예를 들어, 개발자가 게임 내에서 다양한 배경을 빠르게 제작하거나, 디자이너가 아이디어 스케치를 신속하게 시각화하는 데 Stable Diffusion을 활용할 수 있죠.

AI 분야에 대해 잘 모르더라도, Stable Diffusion과 같은 도구는 상대적으로 접근하기 쉬운 편이며, 창의적인 아이디어를 실현하는 데 큰 도움을 줄 수 있습니다. 또한, 이런 도구들은 기술적 배경 지식이 부족한 사용자도 쉽게 사용할 수 있도록 설계되었기 때문에, AI 분야에 대한 깊은 이해 없이도 충분히 활용할 수 있습니다.

 

 

Stable Diffusion Research Paper

https://arxiv.org/pdf/2403.03206.pdf

 

Diffusion Model에 대해 한글로 잘 설명된 페이지

https://ffighting.net/deep-learning-paper-review/diffusion-model/diffusion-model-basic/

 

라이센스 정책

https://github.com/CompVis/stable-diffusion/blob/main/LICENSE

 

stable-diffusion/LICENSE at main · CompVis/stable-diffusion

A latent text-to-image diffusion model. Contribute to CompVis/stable-diffusion development by creating an account on GitHub.

github.com

 

'AI > LLM' 카테고리의 다른 글

LLM으로 알아보는 RAG  (0) 2024.04.14
쿠버네티스가 AI, ML, LLM를 위한 플랫폼인 이유  (0) 2023.09.06
LLMOps란?  (0) 2023.08.30
MLOps, DataOps, AIOps란?  (0) 2023.08.27