본문 바로가기
Tech

스냅퓨전: 2초만에 텍스트로 이미지를 만들 수 있는 놀라운 인공지능 기술

by 생각소년 2023. 6. 19.

스냅퓨전

스냅퓨전이란 무엇인가?

스냅퓨전(SnapFusion)은 텍스트 입력만으로 다양한 이미지를 생성할 수 있는 인공지능(AI) 기술입니다. 스테이블 디퓨전(StyleGAN2-ADA)과 유사한 원리로 작동하지만, 스마트폰에서도 2초 만에 이미지를 생성할 수 있도록 최적화된 버전입니다.

 

스냅퓨전은 미국 노스이스턴 대학 및 스냅챗 개발사 스냅(Snap) 공동 연구팀이 개발하였으며, 2023년 6월 14일에 공개되었습니다.

 

스냅퓨전의 특징과 장점은 무엇인가?

스냅퓨전의 가장 큰 특징은 텍스트 입력만으로 다양한 이미지를 생성할 수 있다는 점입니다.

 

예를 들어, '개 머리 그림’이라고 입력하면 서버로 전송되어 몇 초 후에 개 머리 이미지가 표시됩니다. 이어 '유화 버전’이라고 입력하면 유화 기법으로 변경된 이미지가 빠르게 생성됩니다.

 

이 과정을 반복하면 완전히 다른 개 이미지가 생성됩니다. 스냅퓨전의 가장 큰 장점은 속도와 접근성입니다. 스테이블 디퓨전은 고사양 GPU가 장착된 기계가 필요하고, 1분 24초가 걸리는 반면, 스냅퓨전은 1.84초 만에 이미지를 생성할 수 있습니다.

 

또한 스마트폰에서도 사용할 수 있으므로 언제 어디서나 쉽게 이미지를 생성할 수 있습니다.

 

스냅퓨전의 활용 방안은 무엇인가?

스냅퓨전은 텍스트로 이미지를 생성하는 강력한 모델을 제공하여 콘텐츠 제작을 대중화하는 것이 연구팀의 목표입니다. 따라서 스냅퓨전은 다양한 분야에서 활용될 수 있습니다.

 

예를 들어, SNS에서는 스냅퓨전을 이용하여 자신의 취향에 맞는 프로필 사진이나 배경화면을 만들 수 있습니다. 또한 웹툰이나 애니메이션에서는 스냅퓨전을 이용하여 캐릭터나 배경을 디자인할 수 있습니다.

 

게임에서는 스냅퓨전을 이용하여 아이템이나 몬스터를 생성할 수 있습니다. 교육에서는 스냅퓨전을 이용하여 학습 자료나 시각화 도구를 만들 수 있습니다. 예술에서는 스냅퓨전을 이용하여 창의적인 작품을 만들 수 있습니다.

 

스냅퓨전의 한계와 개선 방향은 무엇인가?

스냅퓨전은 텍스트 입력만으로 이미지를 생성하는 강력한 모델이지만, 완벽하지는 않습니다.

 

스냅퓨전은 텍스트 입력에 따라 이미지를 생성하므로, 텍스트 입력이 모호하거나 복잡하면 원하는 이미지가 생성되지 않을 수 있습니다. 또한 스냅퓨전은 이미지의 품질이나 해상도가 낮을 수 있으므로, 고화질이나 고정밀도의 이미지가 필요한 경우에는 적합하지 않을 수 있습니다.

 

스냅퓨전의 한계를 극복하고 개선하기 위해서는 다음과 같은 방법이 있습니다.

 

  • 텍스트 입력을 명확하고 구체적으로 하는 것입니다. 예를 들어, '개 머리 그림’보다는 '갈색 털과 귀여운 눈을 가진 개 머리 그림’이라고 입력하는 것이 좋습니다.
  • 텍스트 입력을 단순하고 간결하게 하는 것입니다. 예를 들어, '유화 버전’보다는 '유화’라고 입력하는 것이 좋습니다.
  • 텍스트 입력을 여러 번 바꿔보면서 원하는 이미지가 생성되는지 확인하는 것입니다. 예를 들어, '개 머리 그림’이라고 입력하면 원하는 이미지가 생성되지 않으면, '강아지 머리 그림’이나 ‘멍멍이 머리 그림’ 등으로 바꿔보는 것입니다.

댓글