[wd_asp elements='search' id=9]

이미지 AI 용어, 계보 정리

해당 글은 아카라이브라는 사이트에서 구했습니다


이미지 AI 용어

출처: https://arca.live/b/aiart/60345255?target=all&keyword=%EC%A0%95%EB%A6%AC&p=1

NAI = Novel AI : 구독해야만 쓸수있는 정품

NyAI = 중국AI : NAI 사이트의 유출본으로 만든 해적판사이트

Webui = 유출본 = 통팩

SD = Stable Diffusion

WD = Waifu Diffusion

유출된 자료를 통해 로컬(본인컴), 코랩(구글대여서비스)로 깃허브에 올라온 툴을 이용해 구동


이미지 AI 계보

출처:https://arca.live/b/aiart/60369121?target=all&keyword=%EA%B3%84%EB%B3%B4&p=1

먼저 요약하자면 현재까지 공개적으로 사용할 수 있는 그림 AI는 총 세 종류임.

달리2, 미드저니, 스테이블 디퓨전.

이 중 스테이블 디퓨전은 오픈소스라 세계 모든 유저들이 자기 맘대로 학습시키고 튜닝시킬 수 있어서 수많은 파생모델이 나왔음.

갤에서 이야기 나오는 건 기본적으로 그 파생 모델들 이야기라 보면 됨.

Dall-e2

작년 1월엔가 아보카도 의자를 그려주는 AI입니다!라고 첫 선을 보인뒤 올해 초에 메일로 지원자 받아서 OpenAI에서 선공개한 그림 AI.

퀄리티를 보장하는 그림 AI로써는 최초이긴한데 사용하기는 좀 애매. 

장점: 1024×1024라는 높은 화질을 기본보장, 인페인팅과 아웃페인팅 같은 여러 유용한 기능들, 수채화/디지털아트/유화를 섞어 둔 듯한 묘한 그림체와 환상적인 색감, 롤 일러같은 반실사풍 일러 뽑을 때 유용, 커버하는 이미지의 범위가 넓음.

단점: 검열(19금, 폭력적 요소 등 안됨), img2img안됨(열화된 기능만 있음), 기본적으로 나오는 그림이 구린 경우가 많아 몇 십번의 노가다를 해야됨, 셔터스톡 무료이미지 같은 이미지들만 나옴.

Midjourney

미드저니 디스코드 채널에서 사용할 수 있는 그림 생성 AI, 학습 데이터셋을 한정시켰는지 사진/일러스트 등 폭 넓은 달리보다 나오는 그림과 색감이 통일되어 있음. 

장점: 범용성은 떨어지지만 풍경/인물 일러에 한에서는 기깔나는 결과물을 줌. 얼마전에 AI가 그린 그림이 대회에서 우승했다 한 것도 미드저니를 통해 뽑은 것. 현질 시 디스코드 DM으로 사용할 수도 있기 때문에 편함.

단점: 게임 일러스트 같은 것 밖에 못 뽑음. 그 외의 용도로 사용하는 것은 사실상 포기해야 됨.

Stable Diffusion

달리 나오고 나서 몇달 뒤 달리의 대항마로 등장한 AI. 달리랑 비슷하게 사전 사용자들을 지원자로 받아서 디스코드 서버에서 테스트할 수 있게 해줬었음. 당시 사용자들의 반응은 검열이 없는 AI라면서 누군가가 야짤 만들어서 반짝 화제가 된 정도였음. 하지만 SD의 진가는 오픈소스였다는 것. 처음엔 AI 커뮤니티 쪽에서 코랩 버전올리거나 학습방법, 새로 만든 신기능을 공유하는 정도였으나 노블AI에서 공개한 모델이 대박을 터뜨렸음. 이게 바로 AI그림 챈에서 돌려데는 노블 디퓨전임. 그 이전까진 어딘가 애매한 퀄리티로 아는 사람들 사이에서나 얘기 나오는 정도였는데 노블AI는 출시되고 나서 그림쟁이들이 절규할 정도의 퀄리티를 뽑아내고 그림 쪽에서는 특이점이 왔다는 얘기가 나오게 할 정도로 센세이션을 일으킴. 스테이블 디퓨전 파생형들을 몇개 정리하자면

1. Waifu Diffusion

어떤 양키가 SD 기반으로 단보루 씹덕 그림들을 대량으로 학습시켜 만든 씹덕그림 특화 모델. 약칭 WD

여러가지 툴과 테크닉을 이용하면 실제 일러에 비할만한 퀄도 낼 수 있었으나 안타깝게도 얼마 뒤 노블 디퓨전이 나오는 바람에 묻혀버림.

2, Latent Diffusion

SD 공식 디코의 19금 검열에 반발해서 만들어진 디스코드 서버 Unstable diffusin의 누군가가 야짤 특화로 학습시켰다고 배포한 모델.

이 외에도 가우르 구라 생성 모델 등 여러가지 자체 학습시킨 모델들이 있었지만 안타깝게 노블 디퓨전이 나오는 바람에…

3. Novel Diffusion

챈에서 얘기가 나오는 모델이기도 하고 여러 사건과 음해에 시달리기도 한 그 모델.

원래 AI가 소설 써주는 사이트였던 노블 AI에서 SD기반으로 지들이 자체학습시켜 만든 모델인데 어째 배보다 배꼽이 커져버림.

복잡하게 세팅할 필요없이 일반인도 사이트 들어가서 원하는 키워드만 딱 쳐도 장당 10원으로 개 쩌는 일러를 뽑아주기에 씹덕 그림계에 혁명과 파란을 일으켰다. 트위터 그림쟁이 쪽에서 img2img기능을 이용해 노블 디퓨전은 픽시브 일러를 도용해와 조합하는 짜깁기 프로그램이라고 선동을 벌였고 금세 구라가 들통났으나 안타깝게도 여전히 많은 사람들이 선동질을 하고 있음.

하지만 외면하기에는 그 퀄리티와 과실이 너무 달콤하기 때문에 결국 타협하고 이용 중이다.

나온지 일주일도 안됐는데 포챈의 누군가가 해킹으로 유출시킨 모델을 뿌려버리는 바람에 무료버전/짱깨들이 만든 짭 사이트 등도 나도는 중. SD가 오픈소스였기에 노블 디퓨전이 탄생한 것처럼 이제 유출 모델 덕에 씹뜯맛이 가능한 게 혁명이다. 

가끔 자기 그림체를 학습시켜서 양산하거나 캐릭터를 학습시켰음 좋겠다 하는 사람들이 있는데 이제 그게 가능함.

근데 잘 모르는 사람들이 있는 것 같아서 관련 키워드를 정리해보겠음. 관련 정보는 영어로 찾아야 잘나옴.

colab: 구글에서 제공하는 무료 파이썬 클라우딩 서비스. 집 컴이 구려도 구글의 GPU를 빌려서 대신 돌릴 수 있게 해주는 사이트로, 웬만한 SD의 부가기능들은 코랩버전으로 양키들이 만들어 놓은 걸 클릭 몇 번으로 이용할 수 있어서 편함. 대부분의 기능은 코랩으로 돌린다 생각하자.

webUI: gradio를 기반으로 웹 유저 인터페이스를 만들어 사람들이 사용하기 쉽게 한 버전. 그냥 스테이블 쓸라면 명령어 치고 해야되는데 ui하나에 txt2img, img2img, inpainting, outpainting, 화질 개선, 얼굴 보정 등을 통합해 놔서 되게 편해졌다. 버전은 깃허브에 automatic111이란 사람이 올린 게 제일 유명함. 추가로 이건 인터페이스고 유출된 노블 디퓨전은 모델이다. 때문에 여기에 노블 디퓨전 모델을 끼워서 사용하는 것도 가능함

inpainting: 맘에 안드는 부분만 지우고 AI에게 다시 생성하라고 할 수 있는 기능. 어딘가 아쉬운 부분이 있어서 통으로 다시 뽑을 필요없이 그 부분만 지우고 다시 만들라 하면 된다! 응용하면 포토샵처럼 이용하는 것도 가능한 기능.

outpainting: 이미지 바깥부분에 이어서 이미지를 생성하는 기능. 대가리만 나오거나 상반신에서 짤린 이미지가 생성되었을 때 이걸로 생성이 안된부분을 생성할 수 있다. 달리에서 유용한 팁으로 대가리 생성=>아웃페인팅으로 그 외 몸부분 생성하는 식으로 대가리 잘뽑는 팁이 있었음. 그냥 잘 뽑는 노블 디퓨전에 와선 상관이 없어짐.

textual inversion: “원하는 사물”이나 “원하는 그림스타일”을 SD에 학습하게 해주는 기능. 만약 노블AI에 원하는 캐릭터가 없다해도 모델이 유출되었으니 이제 이 기능으로 구현시키는 게 가능하다.

dreambooth:  textual inversion을 기반으로 만들어낸 상위 호환격 기능.  textual inversion은 부가 파일을 만들어내는데 이건 그냥 모델 자체에 이미지를 학습시켜 버림. 원래 구글에서 만들었다고 발표만한 기능이었는데 공개안하고 꽁꽁 싸매는 와중에 어느 능력자가 SD에 구현해버렸다. 실제로 해보려면 높은 Vram 용량이 필요하기에 코랩에선 불가능하고 따로 컴퓨팅 파워를 빌려주는 서비스를 이용해야 됨. 사용해본 결과로 이건 SD의 모든 기능들 중 가장 혁명적인 기능임. 유출된 노블 디퓨전 모델과 만나면 개쩔듯?

4. Imagine

구글에서 개발중인 AI. 위의 세 개는 공개가 되었지만 얘네는 얼마나 개쩌는 걸 숨기고 있는지 비공개임.

AI학습에 있어서 중요한 건 데이터인데 구글은 검색엔진이란 특성 상 어마어마한 데이터량을 가지고 있을 것이라 생각.

아마 공개가 된다면 위 세 개 모델들은 따위로 만들어 버리는 AI가 될 거라고 생각함.

가끔 깔짝이로 공개한 것 중 하나가 드림부스였고 그것만해도 어마어마한 기능이었음.

다들 의식하지 못하는 거지만 지금 핫한 노블AI는 아마추어 개발자 세 명이서 공개된 오픈소스를 씹덕 데이타로 학습시킬 것일 뿐임.

이미 기존에 존재하던 것들을 조합하고 가공했을 뿐이라는 거.

물론 실제로도 대단하지만 아직 공개되지 않거나 대중화되지 않은 부분에 비하면 새발의 피일 것이란 뜻이다.

이세돌과 대국을 두었던 알파고가 현재와선 퇴물이 다된만큼 노블 디퓨전도 언젠간 더 좋은 모델에게 밀리거나/아니면 지금은 따위로 만드는 발전을 일으킬 거임.

결론은 노블 디퓨전은 아직도 시작일 뿐이고 아마 두 달도 안되어서 또 개쩌는 무언가가 나올 것 같다.

지금 그림에 특이점이 왔다 뭐다 하기엔 아직 시작일 뿐임.


출처 : https://arca.live/b/aiart/60365679?target=all&keyword=%EB%93%9C%EB%A6%BC%EB%B6%80%EC%8A%A4&p=1

스테이블 디퓨전 기본

Stable Diffusion: 노이즈에서 이미지를 생성하는 기법

모델 (.ckpt): 위의 방법에서 사용되는 값이 훈련되어 들어있는 파일.. WaifuDiffusion, SDv1.4, 유출본 등이 있음. 

유출본: 후술될 NAI 에서 사용되는 모델이 유출된것

VAE 파일: 모델에 추가적으로 적용되는 값같음. 잘 모름 ㅎ. Web UI 기준, 적용할 모델명과 동일하게 적고, 확장자만 .vae.pt 바꾸면 됨.

YAML 파일: 위와 동일, 잘 모름 ㅎㅎ.. 위랑 똑같이 적용할 모델명과 똑같이 적고 확장자만 .yaml

스테이블 디퓨전 구동관련

Novel AI, NAI: 스테이블 디퓨전을 이용해서 이미지를 생성하는 웹사이트.  유료. Text2Img, Img2Img 등 있는거같음. 

Stable Diffusion UI: cmdr2 라는 사람이 만든 프로그램으로, 아래와 비슷한듯한데 좀 오래된듯 하다.

Web UI: Automatic1111이라는 개발자가 스테이블 디퓨전을 쉽게 사용할수 있도록 만든 웹 뷰어.  Text2Img, Img2Img, Inpainting, 모델 합성, 텍스츄얼 인버젼(textual inversion) 생성 등, 이 외에도 여러가지 기능들이 많이 있음. 예로 들자면 Web UI는 닌텐도 스위치, 모델(유출본 등..)은 안에 넣고 돌리는 게임 소프트웨어.

Google Colab, 콜랩:  GPU를 제공해서 인공지능 관련 프로젝트 등을 사용할 수 있도록 만든 구글 사이트. 여러 플랜이 있지만 무료티어도 있음.  Web UI를 넣어서 구동시킬 수 있음.

스테이블 디퓨전 추가 훈련/파인튜닝

Textual Inversion 텍스츄얼 인버전: 일종의 파인튜닝, 찾아보니까 노이즈 생성방법을 수정해서 원하는 스타일의 노이즈가 생성되도록 돕는거같음. 오브젝트보단 스타일 생성에 최적화 되어있다고 들음.

Dreambooth 드림부스: 모델 훈련. 오브젝트나 인물을 트레이닝하는데 최적화되어있는듯 함. 10월 6일쯔음? 기준으로 최소 24GB 필요했음. 

스테이블 디퓨전 추가 사용방법

Prompt 프롬트: 스테이블 디퓨전을 하기위해 넣는 값. 원하는 그림에 관한걸 적으면 됨.

Negative Prompt 네거티브: 위와 반대로 원하지 않는걸 적는곳.

(),[],{} 문법: () -프롬트에 들어간 문장의 중요도를 높임. [] – 프롬트의 들어간 문장의 중요도를 낮춤. {} – NAI 웹사이트 전용, 프롬트에 들어간 문장의 중요도를 높이지만, ()보단 덜 들어감 – 출처 https://rentry.org/sdg_FAQ

유출본 이라는 이름이 webui를 대체하기엔 Automatic1111이 열심히 쓴 코드에 너무 안좋은 이미지를 넣는거같아서 씁니다.

“이미지 AI 용어, 계보 정리”의 1개의 댓글

  1. 핑백: AI 그림 제작 통합 WEB UI 0.64.4v 설치하기 - 촬스의 컴퓨터 이야기

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Scroll to Top