안녕하세요. 생각소년입니다.
애플은 지난 10월, 코넬 대학과 함께 새로운 멀티모달 LLM인 Ferret을 공개했습니다. Ferret 은 이미지의 특정 영역을 쿼리로 사용하고, 그 영역에 있는 요소를 인식하고, 사용자의 질문에 대답하는 놀라운 기능을 가지고 있습니다.
이 글에서는 Ferret의 특징과 장점을 포함한 모든 것을 알아보겠습니다.
Ferret의 특징과 장점
Ferret 은 다른 LLM들과 달리, 언어와 이미지를 동시에 이해하고 분석할 수 있는 멀티모달 LLM입니다. Ferret 은 이미지의 어떤 모양의 영역이든 쿼리로 사용할 수 있으며, 그 영역에 있는 요소를 정확하게 인식하고, 그 요소를 쿼리의 일부로 사용할 수 있습니다.
예를 들어, 이미지에서 동물을 표시하고 "이 동물은 무엇인가요?"라고 물으면, Ferret 은 동물의 종류와 이미지의 다른 요소들을 고려하여 답변할 수 있습니다.
Ferret 은 다음과 같은 세 가지 주요 기여를 하였습니다
Ferret 모델
하이브리드 영역 표현과 공간적인 비주얼 샘플러를 통해, 멀티모달 LLM에서 세밀하고 개방형 어휘의 참조와 그라운딩을 가능하게 하였습니다.
GRIT 데이터셋(~1.1M)
대규모, 계층적, 강건한 그라운드-앤드-레퍼 인스트럭션 튜닝 데이터셋을 제공하였습니다.
Ferret -Bench
참조/그라운딩, 의미, 지식, 추론을 동시에 요구하는 멀티모달 평가 벤치마크를 구축하였습니다.
Ferret 은 GitHub에서 오픈소스로 공개되었으며, 비상업적인 연구 목적으로만 사용할 수 있습니다. Ferret 은 LLaMA, Vicuna, GPT-4와 같은 다른 모델들의 라이선스에 따라 제한됩니다.
Ferret 이 다른 LLM들과 어떻게 다른가요?
Ferret 은 다른 LLM들과 비교하여 다음과 같은 차별점을 가지고 있습니다.
1. 이미지의 특정 영역을 쿼리로 사용할 수 있습니다.
다른 LLM들은 주로 텍스트만 쿼리로 사용하거나, 이미지 전체를 쿼리로 사용합니다.
이에 반해 Ferret 은 이미지의 어떤 모양의 영역이든 쿼리로 사용할 수 있으며, 그 영역에 있는 요소를 정확하게 인식하고, 그 요소를 쿼리의 일부로 사용할 수 있습니다.
2. 하이브리드 영역 표현과 공간적인 비주얼 샘플러를 사용합니다.
다른 LLM들은 주로 고정된 영역 표현과 비주얼 어텐션 메커니즘을 사용합니다.
반면 Ferret 은 하이브리드 영역 표현을 통해 이미지의 세밀한 부분과 전체적인 부분을 모두 표현할 수 있습니다. 또한 공간적인 비주얼 샘플러를 통해 이미지의 특정 영역을 적응적으로 선택하고, 그 영역의 특징을 추출할 수 있습니다.
3. GRIT 데이터셋과 Ferret -Bench를 제공합니다.
다른 LLM들은 주로 기존의 데이터셋과 벤치마크를 사용합니다.
하지만 Ferret 은 GRIT 데이터셋을 통해 멀티모달 LLM에서 세밀하고 개방형 어휘의 참조와 그라운딩을 튜닝할 수 있습니다. 또한 Ferret -Bench를 통해 참조/그라운딩, 의미, 지식, 추론을 동시에 요구하는 멀티모달 평가 벤치마크를 제공합니다.
이러한 차별점으로 인해 Ferret 은 다른 LLM들보다 더욱 정교하고 다양한 멀티모달 작업을 수행할 수 있습니다.
애플이 왜 Ferret을 공개했을까?
애플은 보통 자신의 AI 연구를 비밀스럽게 진행하는 회사로 알려져 있습니다. 그런데 왜 이번에는 Ferret을 공개했을까요? 이에 대한 정확한 답변은 애플만이 알 수 있겠지만, 몇 가지 가능한 이유를 생각해 볼 수 있습니다.
1. 애플은 자신의 AI 연구에 대한 인식을 개선하고, AI 커뮤니티와의 협력을 강화하고자 했을 수 있습니다.
Ferret 은 애플의 AI 연구 능력과 품질을 보여주는 좋은 예시이며, 다른 연구자들과의 공유와 피드백을 통해 더욱 발전할 수 있습니다.
2. 애플은 자신의 AI 인프라를 확장하고, 다른 모델들과의 경쟁력을 갖추고자 했을 수 있습니다.
Ferret 은 ChatGPT와 같은 다른 LLM들과 비교할 수 있는 성능을 보여주었으며, 오픈소스로 공개함으로써, 애플이 보유한 AI 서버의 규모와 상관없이, 다른 연구자들과의 협력을 통해 더욱 향상시킬 수 있습니다.
3. 애플은 자신의 AI 제품과 서비스에 Ferret을 적용하고자 했을 수 있습니다.
Ferret 은 이미지와 언어를 결합하는 멀티모달 LLM으로, 애플의 사진, 카메라, 시리, 메시지 등의 앱과 기능에 유용하게 사용될 수 있습니다.
예를 들어, 사용자가 사진 앱에서 특정 사물이나 사람을 찾고자 할 때, Ferret을 통해 쉽게 검색하고, 시리에게 물어보고, 메시지로 공유할 수 있습니다.
Ferret 은 애플의 멀티모달 LLM 연구의 새로운 도전과 성과를 보여주는 모델입니다. Ferret을 통해, 우리는 이미지와 언어를 더욱 효과적으로 이해하고, 분석하고, 활용할 수 있게 되었습니다. Ferret의 미래에 대해 기대해 보세요.
'Tech' 카테고리의 다른 글
코드 라마 70B가 다른 코드 생성 AI보다 뛰어난 이유는? (0) | 2024.02.04 |
---|---|
GPT 스토어, 인공지능의 미래를 엿보다 (2) | 2024.01.14 |
인공지능의 핵심 기술인 대형 언어 모델(LLM)에 대한 모든 것 (1) | 2023.12.29 |
Imagen 2: 구글의 텍스트-이미지 혁명 (0) | 2023.12.20 |
인텔, 차세대 AI 칩 ‘가우디3’ 공개…엔비디아와 AMD와의 경쟁 예고 (0) | 2023.12.18 |
댓글