-
Stable Diffusion의 학습기법 Dreambooth,Textual Inversion,LoRA 개념과 원리 알아보기
들어가며 LoRA를 비롯한 Stable Diffusion 모델의 학습기법(fine-tuning)에 대해 톺아본다 우리는 이미 Dreambooth 및 Textual inversion과 같은 학습 기법이 있다. 그렇다면 LoRA의 가장 큰 장점은 무엇일까? LoRA는 파일 크기는 작지만 효과적으로 모델의 스타일을 변경할 수 있다. Dreambooth | 대용량 모델 파일(2~7GB) 생성, 강력하다. 최소 12GB VRAM이 필요. Textual Inversion | 작은 용량의 모델(약 100KB) 생성, 많은 작업을 수행하지 않는다 LoRA | 파일 크기 (2-200MB) 정도이며 그 능력이 괜찮다. 최소 8GB VRAM이 필요 👀 학습기법(fine-tuning)이란? 기존 학습 모델(pre train..
-
(1) colab 환경 스테이블 디퓨전(stable diffusion) 실행기
들어가며 나는 m1 pro 유저다.. 이 글은 앞으로 stable diffusion을 쓰게 될 유저라면 무조건 window 구매를 권장하며 시작한다 오늘의 최종 목표는 코랩 환경에서 LORA를 제작하는 것이며 1차로 코랩을 통해 스테이블 디퓨전 환경에 먼저 접속한다. 더보기 본래 구매 용도와 달리 맥북은 그 이상의 스펙을 강요받는 스테이블 디퓨전으로 고통받았다 nvidia가 없기에 xformers도 지원되지 않는 것은 당연하며, 윈도우에서는 분명 10초 정도 걸렸던 작업이 m1에서는 심한 발열과 함께 기본 1-3분을 소요하여 설움이 있었다. 그리고 작년 말..스테이블 디퓨전 버전 업데이트 문제로 추측되는데, 드디어 아래와 같은 에러로 시작하여 해결할수록 에러에 에러를 달고 끝내 장렬히 휴면기에 들어갔다..
-
Instruction-tuning의 개념(a.k.a FLAN)
들어가며 프롬프트를 통한 튜닝이 모델이 가진 데이터를 탐색하는데 주로 사용되었는데, 이제는 데이터가 없는, 즉 unseen task에 대해 추론을 잘하는 것이 인공지능의 똑똑함을 보여주는 하나의 지표가 될 것이다. 예시로, instruction-tuning은 데이터가 없는 개념에 대해서도 학습과정에서 설정된 instruction에 따라 똑똑하게 유추하여 답을 제안하는 튜닝 방법이다. 오늘은 instruction-tuning에 대해 톺아본다. Fine-tuning / Prompt-learning / Instruction-tuning의 차이 세 가지 모두 사전 학습된 모델을 새로운 작업에 적용하기 위한 기술이다 Fine-tuning : 이미 학습된 모델을 가져와서 추가 데이터를 사용하여 다시 학습 시키는 과..
-
RUNWAY(GEN-2) 리뷰 : 최고의 영상AI 자리를 지킬 수 있을까
들어가며 지난번 PIKA(beta)와 비교를 위해 Runway로 같은 영상을 제작했다. PIKA의 정식 버전과 비교하고 싶지만 2주가 되가도록 대기명단에서 초대를 기다려야한다. 검색해보니 한달 동안 기다리는 사람도 있는 걸 보아, 정식 출시가 1월쯤 된다고 하니 그 때를 기다려본다 각설하고, Runway는 이미 유명한 영상 AI 툴이다. Bard에게 질문했을 때도 영상 AI 중에서 가장 뛰어난 툴 중 하나로 Runway를 꼽았다. 재밌게도, Runway의 video to video 기능은 실사 비디오를 넣었을 때 그림체를 바꾼 결과물을 생성할 수 있는 재미있는 기능이 있다. 이를 통해 애니메이션이나 만화풍의 영상을 쉽게 만드는 것이 가능하다. 더불어, Runway는 text to speech, 소음 제거..
-
HCI 감성의 인공지능 : 우리와 함께 감정을 공유할 수 있을까?
영화 Her의 인공지능 사만다 영화 "Her"에서의 사만다는 주인공과의 관계에서 감정적인 상호작용을 통해 사랑과 친밀감을 형성하는 인공지능이다. 이와 마찬가지로 LLM은 인간과 자연어로 대화하며 감정과 의미를 이해하는 능력을 갖추고 있다. 사만다는 음성 인식과 대화를 통해 소통하고, LLM은 텍스트 기반으로 사용자의 질문이나 요청에 응답한다. 자연어 이해와 생성 능력을 통해 인간과 유사한 수준의 언어 처리를 수행하는 인공지능이 우리의 친구가 될 수 있을까? LLM / NLP / ML..? 무슨 의미일까 LLM이란 무엇인가? Large Language Model, 대형 AI 언어모델. 많은 양의 텍스트 데이터를 사용하여 학습하고 NLP 작업을 처리하는데 수행된다. 자연어는 인간이 일상적으로 사용하는 언어를..
-
AI 영상의 최신 기술, PIKA를 경험하다: 나의 솔직한 사용 후기
서론 최근 X에 image to video로 변환하는 AI의 비교를 다루는 트윗이 올라왔다 stable video diffusion, runway, pika가 비교군이었고 인물 외형과 주위 사물의 큰 일그러짐 없이 결과물을 제공하는 pika가 제일 안정적으로 보였다. https://x.com/anukaakash/status/1728268289678467295?s=20 pika 1.0 정식버전은 신청했지만 아직 초대링크가 메일로 오지 않아 대기 중에 있다. 따라서 디스코드의 베타버전으로 먼저 체험해 보았다 PIKA(beta) 사용법 디스코드 아이디가 있어서 'Explore Discoverble Severs' -> 'pika'를 검색하여 접속했다 오른쪽에 있는 베이지 배경 검은 토끼가 pika 서버의 썸네일..