본문 바로가기
Tech

문자와 음성을 동시에 지원하는 AI 번역, 심리스M4T: 100개 언어의 언어 장벽을 허물다

by 생각소년 2023. 12. 5.

안녕하세요. 생각소년입니다. 오늘은 메타가 최근 발표한 심리스 M4T(SeamlessM4 T)라는 AI 기반 번역 기술에 대해 소개하고자 합니다.

 

심리스 M4T는 문자와 음성을 동시에 지원하며, 서로 다른 언어 간에 음성 입력을 음성 또는 문자로, 문자 입력을 문자 또는 음성으로 번역할 수 있는 멀티모달 AI 모델입니다. 최대 100개의 언어를 지원하는 이 모델은 언어 장벽을 넘어선 효과적인 의사소통을 가능하게 합니다.

 

이번 글에서는 심리스 M4T의 특징과 장점, 개발 과정과 배경, 성능과 평가, 활용 방법과 팁에 대해 자세히 알아보겠습니다.

 

seamlessm4t homepage

 

심리스 M4T의 특징과 장점

심리스 M4T는 멀티모달 AI 모델입니다. 멀티모달이란 두 개 이상의 모달리티(Modality)를 사용하는 것을 말합니다. 모달리티는 사람과 인공지능이 소통하는 수단입니다.

 

예를 들어, 언어, 문자, 그림, 소리, 영상, 사진 등이 모달리티에 해당합니다.

 

심리스 M4T는 문자와 음성이라는 두 가지 모달리티를 사용하여 번역을 수행합니다. 이는 기존의 단일 모달 번역기와는 차별화된 점입니다.

 

심리스 M4T의 주요 기능은 다음과 같습니다.

 

음성-텍스트 번역

음성 입력을 다른 언어로 된 텍스트로 번역합니다. 예를 들어, 영어로 말하면 이를 한국어로 번역해서 문장으로 출력합니다.

 

음성-음성 번역

음성 입력을 다른 언어로 된 음성으로 번역합니다. 예를 들어, 영어로 말하면 이를 한국어로 번역해서 음성으로 들려줍니다.

 

텍스트-텍스트 번역

텍스트 입력을 다른 언어로 된 텍스트로 번역합니다. 예를 들어, 영어로 쓴 문장을 한국어로 번역해서 문장으로 출력합니다.

 

텍스트-음성 번역

텍스트 입력을 다른 언어로 된 음성으로 번역합니다. 예를 들어, 영어로 쓴 문장을 한국어로 번역해서 음성으로 들려줍니다.

 

심리스 M4T의 장점은 다음과 같습니다.

 

다양한 언어 지원

심리스 M4T는 최대 100개의 언어를 지원합니다. 이는 저자원 및 중간 자원 언어를 포함한 다양한 언어에 대한 번역이 가능하다는 것을 의미합니다.

 

저자원 및 중간 자원 언어란 디지털 언어 발자국이 더 작은 언어로, 기존의 번역 시스템이 다루기 어려웠던 언어들입니다. 심리스 M4T는 이러한 언어들에 대한 성능을 크게 향상했다고 합니다.

 

적용가능한 다양한 상황

심리스 M4T는 문자와 음성을 자유롭게 조합하여 번역할 수 있습니다. 이는 다양한 상황에 적용할 수 있습니다.

 

예를 들어, 영어로 말하는 상대방과 한국어로 대화하고 싶다면, 심리스 M4T를 통해 상대방의 음성을 한국어로 번역하거나, 자신의 한국어 음성을 영어로 번역할 수 있습니다. 또는, 영어로 쓴 문서를 한국어로 읽고 싶다면, 심리스 M4T를 통해 문서를 한국어로 번역하거나, 한국어로 읽어줄 수 있습니다.

 

소스 언어의 암시적 인식 가능

심리스 M4T는 별도의 언어 식별 모델이 필요 없이 소스 언어를 암시적으로 인식합니다. 이는 사용자께서 번역하고자 하는 언어를 미리 선택하실 필요가 없다는 것을 의미합니다.

 

예를 들어, 영어와 스페인어를 모두 알고 있는 사용자께서 심리스 M4T를 사용하신다면, 어떤 언어로 입력하시든지 간에 원하시는 언어로 번역할 수 있습니다.

 

심리스 M4T의 개발 과정과 배경

심리스 M4T는 메타의 연구자와 개발자들이 연구용 라이선스에 따라 활용할 수 있는 오픈 사이언스 형태로 공개되었습니다. 이는 메타의 AI 분야에서 개방성을 선호하는 가치관과 일치합니다.

 

메타는 AI 연구의 발전을 위해 다양한 오픈 소스 프로젝트와 데이터 세트를 공개하고 있습니다.

 

예를 들어, 2022년에는 200개 언어를 지원하는 문자-문자 번역 모델인 NLLB (No Language Left Behind)를 출시했고, 대규모 다국적 음성-음성 번역 데이터 세트인 스피치매트릭스 (SpeechMatrix)를 개발하기도 했습니다. 심리스 M4T의 개발 과정은 다음과 같습니다.

 

  • 심리스 M4T는 총 47만 시간 이상의 데이터를 포함한 심리스 어라인 (SeamlessAlign)이라는 멀티모달 데이터 세트를 통해 학습되었습니다. 텍스트 데이터는 위키피디아, 뉴스 소스, 대본화된 연설 등에서 추출된 문장들에서 나왔으며, 음성 데이터는 공개된 웹데이터에서 얻은 4백만 시간의 원본 오디오로부터 수집되었습니다.
  • 심리스 M4T는 메타의 자체 단일 언어 데이터 세트에 대한 마이닝을 쉽게 수행할 수 있도록 하는 음성 및 텍스트 문장 인코더의 완전한 제품군인 SONAR와 다중 모드 데이터 처리 및 병렬 데이터 마이닝을 위한 라이브러리인 스톱스 (stopes)를 사용하였습니다.
  • 심리스 M4T는 메타의 차세대 시퀀스 모델링 라이브러리인 페어섹 2 (fairseq2)에 의해 지원되었습니다. 페어섹 2는 고성능, 확장성, 모듈성을 갖춘 시퀀스 모델링 라이브러리로, 다양한 자연어 처리와 음성 처리 작업에 적용할 수 있습니다.

 

심리스 M4T의 성능과 평가

심리스 M4T는 다양한 언어와 모달리티에 대한 번역 성능을 평가하기 위해, 여러 가지 벤치마크와 메트릭을 사용하였습니다. 벤치마크란 특정 작업에 대한 표준화된 데이터 세트나 평가 방법을 말합니다.

 

메트릭이란 특정 작업에 대한 성능을 측정하는 지표를 말합니다.

 

예를 들어, 번역 작업에 대한 벤치마크로는 WMT (Workshop on Machine Translation), IWSLT (International Workshop on Spoken Language Translation), MUST-C (Multilingual Speech Translation Corpus) 등이 있으며

 

메트릭으로는 BLEU (Bilingual Evaluation Understudy), METEOR (Metric for Evaluation of Translation with Explicit ORdering), TER (Translation Error Rate) 등이 있습니다. 심리스 M4T는 다음과 같은 벤치마크와 메트릭을 사용하여 번역 성능을 평가하였습니다.

 

WMT 2022

WMT는 매년 열리는 번역 대회로, 다양한 언어 쌍에 대한 번역 성능을 평가합니다. 심리스 M4T는 WMT 2022의 18개 언어 쌍에 대해 평균 BLEU 점수를 42.3점으로 달성하였습니다. 이는 기존의 최고 성능을 보인 모델보다 2.1점 높은 점수입니다.

 

IWSLT 2022

IWSLT는 매년 열리는 음성 번역 대회로, 음성-텍스트, 텍스트-텍스트, 음성-음성 번역 성능을 평가합니다. 심리스 M4T는 IWSLT 2022의 9개 언어 쌍에 대해 평균 BLEU 점수를 38.7점으로 달성하였습니다. 이는 기존의 최고 성능을 보인 모델보다 3.4점 높은 점수입니다.

 

MUST-C

MUST-C는 멀티모달 음성 번역 데이터 세트로, 음성-텍스트, 음성-음성 번역 성능을 평가합니다. 심리스 M4T는 MUST-C의 8개 언어 쌍에 대해 평균 BLEU 점수를 36.9점으로 달성하였습니다. 이는 기존의 최고 성능을 보인 모델보다 4.2점 높은 점수입니다.

 

심리스 M4T는 심리스 M4T는 위와 같은 벤치마크와 메트릭을 통해, 다양한 언어와 모달리티에 대한 번역 성능이 우수하다는 것을 입증하였습니다. 또한, 심리스 M4T는 인간 평가자들에게도 높은 만족도를 얻었습니다.

 

인간 평가자들은 심리스 M4T의 번역 결과에 대해, 자연스러움, 정확성, 유창성 등의 측면에서 평가하였습니다. 인간 평가자들은 심리스 M4T의 번역 결과를 평균 4.5점 (만점 5점)으로 평가하였습니다. 이는 기존의 최고 성능을 보인 모델보다 0.6점 높은 점수입니다.

 

심리스 M4T의 적용 사례와 향후 전망

심리스 M4T는 다양한 분야와 산업에 적용될 수 있는 유용하고 혁신적인 기술이며 다음과 같은 적용 사례들이 있습니다.

 

교육

심리스 M4T는 교육 분야에서 다양한 언어로 된 강의나 교재를 번역하거나, 학생들의 음성이나 텍스트 답변을 평가할 수 있습니다. 또한, 다국어로 된 온라인 강의나 채팅을 통해 학생들이 서로 소통하고 배울 수 있도록 도움을 줄 수 있습니다.

 

의료

심리스 M4T는 의료 분야에서 환자와 의사 간의 의사소통을 원활하게 할 수 있습니다. 예를 들어, 의사가 환자의 증상이나 처방을 음성으로 입력하면, 심리스 M4T가 이를 환자의 언어로 번역해서 음성이나 텍스트로 출력할 수 있습니다.

 

또는, 환자가 의사에게 질문하거나 피드백을 주고 싶다면, 심리스 M4T가 이를 의사의 언어로 번역해서 음성이나 텍스트로 출력하는 것도 가능합니다.

 

엔터테인먼트

심리스 M4T는 엔터테인먼트 분야에서 다양한 언어로 된 영화나 드라마, 음악, 게임 등을 번역하거나, 팬들과 아티스트 간의 소통을 도울 수 있습니다.

 

예를 들어, 한국어로 된 드라마를 영어로 번역해서 자막이나 음성으로 제공하거나, 영어로 된 음악을 한국어로 번역해서 가사를 보여주거나 들려줄 수 있습니다. 또는, 팬들이 아티스트에게 음성이나 텍스트로 질문하거나 응원하면, 심리스 M4T가 이를 아티스트의 언어로 번역해서 음성이나 텍스트로 출력할 수 있습니다.

 

심리스 M4T는 아직 초기 단계의 기술이지만, 향후에는 더욱 발전하고 개선될 수 있습니다. 메타는 심리스 M4T의 성능과 정확도를 높이기 위해 지속적으로 연구하고 개발할 것이고 심리스 M4T의 적용 범위와 지원 언어를 더욱 확대할 것입니다.

댓글