
DALL-E(달리)란?
DALL-E(달리)는 OpenAI에서 공개한 텍스트에서 이미지를 생성할 수 있는 AI 모델입니다.
DALL-E는 12억 개의 파라미터를 가진 GPT-3의 변형으로, 텍스트-이미지 쌍의 데이터셋을 이용해 학습되었습니다.
DALL-E는 자연어로 표현할 수 있는 다양한 개념들을 이미지로 그려낼 수 있으며, 동물이나 물체에 인간적인 특징을 부여하거나, 관련 없는 개념들을 현실적으로 결합하거나, 텍스트를 렌더링 하거나, 기존의 이미지에 변형을 가하는 등의 능력을 보여줍니다.
DALL-E(달리)의 작동원리
DALL-E는 텍스트와 이미지를 하나의 데이터 스트림으로 받아서 최대 1280개의 토큰으로 구성된 시퀀스를 생성하는 트랜스포머 언어 모델입니다.
각 이미지 캡션은 최대 256개의 BPE-인코딩 된 토큰으로 표현되고, 각 이미지는 1024개의 토큰으로 표현됩니다.
이미지는 학습 중에 256x256 해상도로 전처리되며, 이산 VAE를 이용해 32x32 그리드의 이산 잠재 코드로 압축됩니다.
이러한 학습 방식은 DALL-E가 이미지를 처음부터 생성하는 것뿐만 아니라, 기존의 이미지에서 오른쪽 아래로 확장되는 임의의 직사각형 영역을 텍스트 프롬프트와 일관되게 재생성할 수 있게 해 줍니다.
DALL-E(달리)가 할 수 있는 것들
DALL-E는 자연어로 주어진 설명에 따라 다양한 이미지를 생성할 수 있습니다.
예를 들어, "아보카도 모양의 안락의자"라고 입력하면, 아보카도와 안락의자의 개념을 결합한 여러 가지 이미지를 보여줍니다.
또한, "정확히 같은 고양이를 위에는 사진으로, 아래는 스케치로"라고 입력하면, 고양이의 사진과 스케치를 일치시킨 이미지를 생성합니다.

DALL-E(달리)의 한계와 도전
DALL-E는 인상적인 결과를 보여주기도 하지만, 완벽하지는 않습니다.
때로는 텍스트 프롬프트와 맞지 않거나 현실과 다른 이미지를 생성하기도 합니다.
또한, DALL-E가 생성하는 이미지에는 저작권이나 윤리적인 문제가 발생할 수 있습니다.
예를 들어, DALL-E가 실제 사람들의 얼굴이나 상표 등을 포함한 이미지가 생성이 될 수도 있습니다.
DALL-E(달리)의 안전성과 책임
DALL-E는 연구 프로젝트로 시작되었으나, 2022년 7월부터 베타 서비스로 공개되었습니다.
OpenAI는 DALL-E의 안전성과 책임을 중요하게 생각하고 있으며, 다음과 같은 조치들을 취하고 있습니다.
- 유해한 이미지 생성 방지
DALL-E가 폭력적이거나 혐오적이거나 성적인 이미지를 생성하지 못하도록 하기 위해, 학습 데이터에서 가장 노골적인 내용을 제거하여 DALL-E가 이러한 개념들에 노출되지 않도록 하였습니다.
또한, 고급 기술을 사용하여 실제 개인들의 얼굴(공개 인사 포함)을 사실적으로 생성하는 것을 방지하였습니다.
- 오용 방지
OpenAI의 콘텐츠 정책은 사용자가 폭력적이거나 성적이거나 정치적인 내용 등을 생성하지 못하도록 하고 있습니다.
텍스트 프롬프트나 이미지 업로드가 정책에 위반될 수 있다고 판단되면 이미지를 생성하지 않습니다.
또한, 자동화된 시스템과 인간의 모니터링 시스템을 통해 오용을 막고 있습니다.
- 단계적 배포
실제 사용에서 배우는 것은 책임감 있는 AI 개발과 배포의 중요한 부분입니다.
OpenAI는 신뢰할 수 있는 사용자들에게 먼저 DALL-E를 미리 보기로 제공하였습니다.
기술의 능력과 한계, 그리고 안전 시스템에 대한 신뢰도를 높이면서, 점차 사용자를 늘려가며 2022년 7월에 베타 서비스로 공개하였습니다.
'Tech' 카테고리의 다른 글
MS 코파일럿(Copilot) 직장인들의 부조종수가 되다. (0) | 2023.04.11 |
---|---|
AI개발을 멈춰야 하는가? 일론 머스크와 오픈AI의 대립 (0) | 2023.04.10 |
챗GPT 플러그인: 진보된 챗봇의 미래 (0) | 2023.04.07 |
비트코인과 금의 역할과 상관관계 (0) | 2023.04.06 |
자율주행차량의 눈이라 불리는 라이다와 레이더는 어떻게 다를까? (0) | 2023.04.05 |
댓글