본문 바로가기
Tech

DALL-E(달리)의 놀라운 세계: AI가 보여주는 새로운 시각

by 생각소년 2023. 4. 8.

DALL-E 홈페이지 이미지
벌써 버전2까지 나왔어요.

DALL-E(달리)란?

DALL-E(달리)는 OpenAI에서 공개한 텍스트에서 이미지를 생성할 수 있는 AI 모델입니다.

 

DALL-E는 12억 개의 파라미터를 가진 GPT-3의 변형으로, 텍스트-이미지 쌍의 데이터셋을 이용해 학습되었습니다.

 

DALL-E는 자연어로 표현할 수 있는 다양한 개념들을 이미지로 그려낼 수 있으며, 동물이나 물체에 인간적인 특징을 부여하거나, 관련 없는 개념들을 현실적으로 결합하거나, 텍스트를 렌더링 하거나, 기존의 이미지에 변형을 가하는 등의 능력을 보여줍니다.

 

DALL-E(달리)의 작동원리

DALL-E는 텍스트와 이미지를 하나의 데이터 스트림으로 받아서 최대 1280개의 토큰으로 구성된 시퀀스를 생성하는 트랜스포머 언어 모델입니다.

 

각 이미지 캡션은 최대 256개의 BPE-인코딩 된 토큰으로 표현되고, 각 이미지는 1024개의 토큰으로 표현됩니다.

 

이미지는 학습 중에 256x256 해상도로 전처리되며, 이산 VAE를 이용해 32x32 그리드의 이산 잠재 코드로 압축됩니다.

 

이러한 학습 방식은 DALL-E가 이미지를 처음부터 생성하는 것뿐만 아니라, 기존의 이미지에서 오른쪽 아래로 확장되는 임의의 직사각형 영역을 텍스트 프롬프트와 일관되게 재생성할 수 있게 해 줍니다.

 

DALL-E(달리)가 할 수 있는 것들

DALL-E는 자연어로 주어진 설명에 따라 다양한 이미지를 생성할 수 있습니다.

 

예를 들어, "아보카도 모양의 안락의자"라고 입력하면, 아보카도와 안락의자의 개념을 결합한 여러 가지 이미지를 보여줍니다.

 

또한, "정확히 같은 고양이를 위에는 사진으로, 아래는 스케치로"라고 입력하면, 고양이의 사진과 스케치를 일치시킨 이미지를 생성합니다.

An armchair in the shape of an avocado으로 생성한 이미지
An armchair in the shape of an avocado으로 생성한 이미지

 

DALL-E(달리)의 한계와 도전

DALL-E는 인상적인 결과를 보여주기도 하지만, 완벽하지는 않습니다.

 

때로는 텍스트 프롬프트와 맞지 않거나 현실과 다른 이미지를 생성하기도 합니다.

 

또한, DALL-E가 생성하는 이미지에는 저작권이나 윤리적인 문제가 발생할 수 있습니다.

 

예를 들어, DALL-E가 실제 사람들의 얼굴이나 상표 등을 포함한 이미지가 생성이 될 수도 있습니다.

 

DALL-E(달리)의 안전성과 책임

DALL-E는 연구 프로젝트로 시작되었으나, 2022년 7월부터 베타 서비스로 공개되었습니다.

 

OpenAI는 DALL-E의 안전성과 책임을 중요하게 생각하고 있으며, 다음과 같은 조치들을 취하고 있습니다.

 

  • 유해한 이미지 생성 방지

DALL-E가 폭력적이거나 혐오적이거나 성적인 이미지를 생성하지 못하도록 하기 위해, 학습 데이터에서 가장 노골적인 내용을 제거하여 DALL-E가 이러한 개념들에 노출되지 않도록 하였습니다.

 

또한, 고급 기술을 사용하여 실제 개인들의 얼굴(공개 인사 포함)을 사실적으로 생성하는 것을 방지하였습니다.

 

  • 오용 방지

OpenAI의 콘텐츠 정책은 사용자가 폭력적이거나 성적이거나 정치적인 내용 등을 생성하지 못하도록 하고 있습니다.

 

텍스트 프롬프트나 이미지 업로드가 정책에 위반될 수 있다고 판단되면 이미지를 생성하지 않습니다.

 

또한, 자동화된 시스템과 인간의 모니터링 시스템을 통해 오용을 막고 있습니다.

 

  • 단계적 배포

실제 사용에서 배우는 것은 책임감 있는 AI 개발과 배포의 중요한 부분입니다.

 

OpenAI는 신뢰할 수 있는 사용자들에게 먼저 DALL-E를 미리 보기로 제공하였습니다.

 

기술의 능력과 한계, 그리고 안전 시스템에 대한 신뢰도를 높이면서, 점차 사용자를 늘려가며 2022년 7월에 베타 서비스로 공개하였습니다.

댓글