더지엠뉴스 김평화 기자 | 중국 인공지능 기업 미니맥스가 멀티모달 대형모델을 기반으로 글로벌 AI 플랫폼 시장에서 빠르게 존재감을 확대하고 있다. 설립 3년 만에 200개국 이상에서 수억 명 사용자를 확보하며 범용 인공지능 기술 경쟁의 핵심 기업으로 떠올랐다.
7일 KIC중국에 따르면 이 기업은 텍스트·음성·영상·음악까지 통합하는 범용 인공지능 기술을 기반으로 글로벌 AI 생태계 구축을 추진하고 있다.
미니맥스(稀宇科技, MiniMax)는 2022년 초 설립된 범용 인공지능 연구개발 기업으로 AGI 구현을 목표로 대형 멀티모달 모델을 지속적으로 개발해왔다. 이 회사는 MiniMax M2.1, Hailuo 2.3, Speech 2.6, Music 2.0 등 다양한 범용 AI 모델을 자체 구축했으며 텍스트·음성·이미지·영상·음악 데이터를 동시에 이해하고 생성하는 멀티모달 능력을 갖춘 것이 특징이다.
이를 기반으로 MiniMax Agent, 하이뤄 AI, MiniMax Audio, 싱예 등 여러 AI 네이티브 제품을 출시했고 기업과 개발자를 위한 개방형 플랫폼도 운영하고 있다. 미니맥스는 이러한 기술을 통해 생산성 향상과 AI 서비스 확대를 동시에 추진한다는 방향을 제시하고 있다. 현재 미니맥스의 멀티모달 모델과 AI 제품은 200개국 이상에서 서비스되고 있으며 개인 사용자는 2억1200만 명을 넘어섰다.
또한 100개국 이상에서 13만 명 이상의 기업 고객과 개발자가 이 플랫폼을 활용하고 있다. 미니맥스의 핵심 모델 가운데 하나인 MiniMax M2.5는 복잡한 작업을 세분화하고 에이전트 기반 업무를 빠르게 수행하도록 설계된 모델이다. SWE-Bench Verified 테스트에서는 이전 모델 M2.1보다 작업 처리 속도가 37% 향상된 것으로 나타났다.
비용 측면에서도 효율성을 강조하고 있다. 초당 100토큰 출력 기준으로 1시간 구동 비용은 약 1달러(약 1370원) 수준이며 초당 50토큰 기준으로는 0.3달러(약 410원) 정도로 알려졌다. 회사 설명에 따르면 1만 달러(약 1370만 원) 규모로 에이전트 4개를 1년간 운영할 수 있는 비용 구조를 갖췄다.
음성 모델 MiniMax Speech 2.6은 2025년 10월 공개된 최신 모델로 음성 생성 지연 시간이 250밀리초 미만으로 줄어든 것이 특징이다. 또한 Fluent LoRA 기능을 통해 특정 음색을 재현하면서 자연스럽고 유창한 음성을 생성할 수 있도록 설계됐다.
영상 생성 모델 Hailuo 2.3은 인물 동작과 미세한 표정 표현 능력이 크게 개선된 모델이다. 애니메이션, 수묵화 등 다양한 화풍을 구현할 수 있으며 물리적으로 자연스러운 움직임을 구현하는 기능이 강화됐다. 동작 명령에 대한 반응 정확도가 높아져 생성 영상의 완성도 역시 향상된 것으로 알려졌다.
음악 생성 모델 MiniMax Music 2.5는 곡의 구조를 문단 단위로 제어하는 기능과 실제에 가까운 음향 재현 기술을 갖춘 모델이다. Intro, Bridge, Hook 등 14가지 음악 구조 태그를 지원하며 중국어 가요, 랩, 중·영 혼합 장르까지 제작할 수 있다. 또한 보컬 합성, 스타일 모델링, 믹싱 기술을 개선해 자연스러운 전환음과 듀엣 음성을 구현할 수 있으며 100종 이상의 악기 음색 라이브러리도 제공된다.
이 모델은 API 형태로 공개돼 영화·드라마 음악 제작, 게임 오디오 제작, 전문 녹음 등 다양한 산업 분야에서 활용되고 있다. 미니맥스의 주요 서비스 중 하나인 MiniMax Agent는 자연어 명령만으로 다양한 업무를 수행하는 AI 에이전트 애플리케이션이다. 이 시스템은 하나의 작업 환경에서 계획 수립과 추론 과정을 거쳐 코드 작성, 리서치, 문서 작성, 프레젠테이션 제작 등 복합 업무를 수행하도록 설계됐다.
하이뤄 AI는 이미지와 영상 생성 기능을 제공하는 시각 생성 플랫폼이다. 웹과 모바일 환경에서 실시간으로 고품질 이미지와 영상을 생성할 수 있으며 사용자 확산을 통해 글로벌 생성형 AI 플랫폼 중 하나로 자리 잡았다. MiniMax 음성 서비스는 텍스트 입력을 기반으로 고품질 음성을 생성하는 오디오 생성 도구다.
웹 환경에서 상호작용형 음성 합성을 지원하며 자연스러운 음성 콘텐츠 제작을 지원한다. Talkie와 싱예는 AI 기반 멀티모달 상호작용 플랫폼이다. Talkie는 글로벌 시장용 서비스이며 싱예는 중국 내수 시장용 서비스로 운영된다. 이 플랫폼에서는 사용자가 AI 에이전트나 가상 캐릭터와 대화를 나누며 다양한 방식의 상호작용을 진행할 수 있다. 한국어, 중국어, 영어 등 다국어 환경에서 서비스가 제공되고 있으며 글로벌 AI 서비스 플랫폼 확장을 위한 기반으로 활용되고 있다.
KIC중국(글로벌혁신센터·김종문 센터장)은 2016년 6월 중국 베이징 중관촌에 설립된 한국 과학기술정보통신부 산하 비영리기관이다.
한국 창업기업과 혁신기업의 중국시장 개척을 지원하는 것이 주요 업무다. 또 중국 진출의 정확한 로드맵을 제공하고 플랫폼 역할도 한다.







