본문 바로가기
Tech

애플이 선보인 놀라운 성능의 멀티모달LLM Ferret의 모든 것

by 생각소년 2024. 1. 4.

안녕하세요. 생각소년입니다.

 

애플은 지난 10월, 코넬 대학과 함께 새로운 멀티모달 LLM인 Ferret을 공개했습니다. Ferret 은 이미지의 특정 영역을 쿼리로 사용하고, 그 영역에 있는 요소를 인식하고, 사용자의 질문에 대답하는 놀라운 기능을 가지고 있습니다.

 

이 글에서는 Ferret의 특징과 장점을 포함한 모든 것을 알아보겠습니다.

 

애플 Ferret

 

Ferret의 특징과 장점

Ferret 은 다른 LLM들과 달리, 언어와 이미지를 동시에 이해하고 분석할 수 있는 멀티모달 LLM입니다. Ferret 은 이미지의 어떤 모양의 영역이든 쿼리로 사용할 수 있으며, 그 영역에 있는 요소를 정확하게 인식하고, 그 요소를 쿼리의 일부로 사용할 수 있습니다.

 

예를 들어, 이미지에서 동물을 표시하고 "이 동물은 무엇인가요?"라고 물으면, Ferret 은 동물의 종류와 이미지의 다른 요소들을 고려하여 답변할 수 있습니다.

 

Ferret 은 다음과 같은 세 가지 주요 기여를 하였습니다

 

Ferret 모델

하이브리드 영역 표현과 공간적인 비주얼 샘플러를 통해, 멀티모달 LLM에서 세밀하고 개방형 어휘의 참조와 그라운딩을 가능하게 하였습니다.

 

GRIT 데이터셋(~1.1M)

대규모, 계층적, 강건한 그라운드-앤드-레퍼 인스트럭션 튜닝 데이터셋을 제공하였습니다.

 

Ferret -Bench

참조/그라운딩, 의미, 지식, 추론을 동시에 요구하는 멀티모달 평가 벤치마크를 구축하였습니다.

 

Ferret 은 GitHub에서 오픈소스로 공개되었으며, 비상업적인 연구 목적으로만 사용할 수 있습니다. Ferret 은 LLaMA, Vicuna, GPT-4와 같은 다른 모델들의 라이선스에 따라 제한됩니다.

 

Ferret 이 다른 LLM들과 어떻게 다른가요?

Ferret 은 다른 LLM들과 비교하여 다음과 같은 차별점을 가지고 있습니다.

 

1. 이미지의 특정 영역을 쿼리로 사용할 수 있습니다.

다른 LLM들은 주로 텍스트만 쿼리로 사용하거나, 이미지 전체를 쿼리로 사용합니다.

 

이에 반해 Ferret 은 이미지의 어떤 모양의 영역이든 쿼리로 사용할 수 있으며, 그 영역에 있는 요소를 정확하게 인식하고, 그 요소를 쿼리의 일부로 사용할 수 있습니다.

 

2. 하이브리드 영역 표현과 공간적인 비주얼 샘플러를 사용합니다.

다른 LLM들은 주로 고정된 영역 표현과 비주얼 어텐션 메커니즘을 사용합니다.

 

반면 Ferret 은 하이브리드 영역 표현을 통해 이미지의 세밀한 부분과 전체적인 부분을 모두 표현할 수 있습니다. 또한 공간적인 비주얼 샘플러를 통해 이미지의 특정 영역을 적응적으로 선택하고, 그 영역의 특징을 추출할 수 있습니다.

 

3. GRIT 데이터셋과 Ferret -Bench를 제공합니다.

다른 LLM들은 주로 기존의 데이터셋과 벤치마크를 사용합니다.

 

하지만 Ferret 은 GRIT 데이터셋을 통해 멀티모달 LLM에서 세밀하고 개방형 어휘의 참조와 그라운딩을 튜닝할 수 있습니다. 또한 Ferret -Bench를 통해 참조/그라운딩, 의미, 지식, 추론을 동시에 요구하는 멀티모달 평가 벤치마크를 제공합니다.

 

이러한 차별점으로 인해 Ferret 은 다른 LLM들보다 더욱 정교하고 다양한 멀티모달 작업을 수행할 수 있습니다.

 

애플이 왜 Ferret을 공개했을까?

애플은 보통 자신의 AI 연구를 비밀스럽게 진행하는 회사로 알려져 있습니다. 그런데 왜 이번에는 Ferret을 공개했을까요? 이에 대한 정확한 답변은 애플만이 알 수 있겠지만, 몇 가지 가능한 이유를 생각해 볼 수 있습니다.

 

1. 애플은 자신의 AI 연구에 대한 인식을 개선하고, AI 커뮤니티와의 협력을 강화하고자 했을 수 있습니다.

Ferret 은 애플의 AI 연구 능력과 품질을 보여주는 좋은 예시이며, 다른 연구자들과의 공유와 피드백을 통해 더욱 발전할 수 있습니다.

 

2. 애플은 자신의 AI 인프라를 확장하고, 다른 모델들과의 경쟁력을 갖추고자 했을 수 있습니다.

Ferret 은 ChatGPT와 같은 다른 LLM들과 비교할 수 있는 성능을 보여주었으며, 오픈소스로 공개함으로써, 애플이 보유한 AI 서버의 규모와 상관없이, 다른 연구자들과의 협력을 통해 더욱 향상시킬 수 있습니다.

 

3. 애플은 자신의 AI 제품과 서비스에 Ferret을 적용하고자 했을 수 있습니다.

Ferret 은 이미지와 언어를 결합하는 멀티모달 LLM으로, 애플의 사진, 카메라, 시리, 메시지 등의 앱과 기능에 유용하게 사용될 수 있습니다.

 

예를 들어, 사용자가 사진 앱에서 특정 사물이나 사람을 찾고자 할 때, Ferret을 통해 쉽게 검색하고, 시리에게 물어보고, 메시지로 공유할 수 있습니다.

 

Ferret 은 애플의 멀티모달 LLM 연구의 새로운 도전과 성과를 보여주는 모델입니다. Ferret을 통해, 우리는 이미지와 언어를 더욱 효과적으로 이해하고, 분석하고, 활용할 수 있게 되었습니다. Ferret의 미래에 대해 기대해 보세요.

댓글