MIT와 NVIDIA의 연구원들은 HART를 만들었습니다. HART는 자기회귀 및 확산 모델을 결합하여 현재 방법보다 최대 9배 더 빠르게 고품질 이미지를 생성하는 새로운 AI 도구입니다. 이 획기적인 발전은 자율 주행 자동차 및 비디오 게임 디자인을 포함한 다양한 산업에 중대한 영향을 미칩니다.
MIT와 NVIDIA의 연구원들은 두 가지 인기 있는 생성 AI 모델의 가장 좋은 속성을 병합하여 고품질 이미지를 빠르게 생성하는 혁신적인 인공 지능 도구를 공개했습니다. HART(Hybrid Autoregressive Transformer)라고 불리는 이 혁신적인 접근 방식은 품질을 희생하지 않고 이미지 생성을 가속화하여 AI 기술에 상당한 진전을 이룰 것을 약속합니다.
빠르고 사실적인 이미지 생성에 대한 수요가 증가하고 있으며, 특히 자율주행차 훈련과 같은 분야에서는 시뮬레이션이 안전을 강화하기 위해 실제 세계의 복잡성을 반영해야 합니다. 기존의 확산 모델은 자세하고 사실적인 이미지를 생성하는 것으로 유명하지만 종종 너무 느리고 리소스가 많이 필요합니다. 자기 회귀 모델은 빠르지만 이미지 품질이 떨어져 부정확한 사진을 생성하는 경향이 있습니다.
당시 MIT의 박사후과정 학생이었고 현재 Google DeepMind의 GenAI 조직의 연구 과학자인 하오티안 탕과 칭화대학교의 학부생인 예청 우가 이끄는 팀, MIT 전기공학 및 컴퓨터과학과의 준교수이자 MIT-IBM Watson AI 랩의 일원이며 NVIDIA와 NVIDIA의 저명한 과학자인 수석 저자인 송 한이 이러한 격차를 메우기 위해 HART를 개발했습니다.
HART는 자기회귀 모델의 속도와 확산 모델의 개선 기능을 활용하여 최첨단 확산 모델보다 최대 9배 더 빠르게 동등하거나 더 뛰어난 품질의 이미지를 생성할 수 있습니다.
이 프로세스에는 이미지의 전체 구조를 빠르게 포착하는 자기 회귀 모델과 세부 사항을 미세 조정하는 확산 모델이 포함됩니다. 이 2단계 프로세스는 계산 요구 사항을 크게 줄여 HART가 노트북 및 스마트폰과 같은 일상적인 기기에서 효율적으로 실행될 수 있도록 합니다.
"풍경을 그리는 경우 캔버스 전체를 한 번만 그리면 그다지 좋아 보이지 않을 수 있습니다. 하지만 큰 그림을 그린 다음 작은 붓놀림으로 이미지를 다듬으면 그림이 훨씬 좋아 보일 수 있습니다. 이것이 HART의 기본 아이디어입니다." Tang은 보도자료에서 이렇게 말했습니다.
HART의 잠재적인 응용 분야는 로봇을 복잡한 실제 작업에 훈련시키는 것부터 디자이너가 몰입형 비디오 게임 환경을 만드는 것을 돕는 것까지 광범위합니다. 이 하이브리드 모델의 효율성과 적응성은 새로운 비전 언어 생성 모델과의 통합에도 적합하여 더욱 정교한 AI 상호 작용을 위한 길을 열어줍니다.
LLM(대규모 언어 모델)은 텍스트와 시각적 콘텐츠를 모두 이해하고 생성할 수 있는 멀티모달 시스템을 포함한 다양한 AI 모델을 위한 다재다능한 인터페이스 역할을 합니다.
"LLM은 멀티모달 모델과 추론이 가능한 모델과 같은 모든 종류의 모델에 적합한 인터페이스입니다. 이는 지능을 새로운 영역으로 끌어올리는 방법입니다. 효율적인 이미지 생성 모델은 많은 가능성을 열어줄 것입니다." 한이 덧붙였습니다.
앞으로 연구자들은 HART의 기능을 비디오 생성 및 오디오 예측으로 확장하여 확장 가능하고 일반화 가능한 프레임워크를 활용하는 것을 목표로 합니다. 그들의 궁극적인 목표는 HART 아키텍처 위에 고급 비전 언어 모델을 구축하여 AI가 달성할 수 있는 경계를 넓히는 것입니다.
이 연구는 MIT-IBM Watson AI 연구실, MIT 및 Amazon Science Hub, MIT AI 하드웨어 프로그램, 국가과학재단의 자금 지원을 받았으며, NVIDIA가 GPU 인프라를 제공했습니다.
출처: 기술 매사추세츠 공과 대학