메인 콘텐츠로 건너뛰기AWS Startups

보는 것의 중요성: AWS에서 AI 비디오 인텔리전스를 개척하는 Twelve Labs

이 콘텐츠는 어떠셨나요?

시각은 대부분의 인간에게 지배적인 감각이며 주변 세계를 해석하는 방식에 지대한 영향을 미칩니다. 우리가 주변에서 인지하는 것, 주변에 대해 배우고 생각하고 탐색하는 방식은 모두 시각에 의해 크게 좌우됩니다. 하지만 완벽한 시력을 갖춘 사람이라도 특정 순간에 시각 피질로 처리할 수 있는 정보의 양에는 한계가 있습니다. 다행스럽게도 기술은 생물학적으로 가능한 수준을 넘어설 수 있습니다.

Twelve Labs는 생성형 AI로 방대한 양의 비디오 데이터를 처리하여 차세대 비디오 인텔리전스를 제공하는 스타트업입니다. 빠르게 성장 중인 이 회사는 AWS에서 멀티모달 AI 모델을 훈련하고 그 규모를 확장하고 있습니다. 인간처럼 시각 데이터를 해석하는 이 멀티모달 AI 모델은 혁신적인 기술과 검증된 전문 지식을 기반으로 시각 데이터를 대규모로 처리합니다.

대국적 아이디어를 현실로

Twelve Labs는 AI 기반 비디오 인텔리전스에 주력하는 한국의 스타트업입니다. 2020년에 이재성 씨가 공동 창립했으며 서울과 샌프란시스코에 사무실을 두고 있습니다. 이재성 CEO는 “Twelve Labs는 기업과 개발자를 위한 비디오 파운데이션 모델을 구축하는 AI 연구 및 제품 회사입니다.”라면서 “인간은 말하거나 쓰는 법을 배우기 전에 감각 입력 데이터와 상호 작용하면서 세상의 다양한 측면을 알아가는데, 모델을 구축할 때에도 이 방법이 더 좋다고 생각합니다.”라고 말합니다.

Twelve Labs는 주로 텍스트나 이미지를 중점으로 AI 시장이 급성장하던 시기에 설립되었습니다. “창립 당시에는 멀티모달에 대한 논의가 별로 없었고 심지어 '파운데이션 모델'이라는 용어조차 사용되지 않았습니다. 연구소와 기업에서는 언어를 이해함으로써 인텔리전스 문제를 해결하려는 추세를 보였습니다. 하지만 우리에게는 비디오를 다룰 기회가 있었습니다. 솔직히 이 기회는 아주 어려운 도전이었는데, 그때부터 지각 추론을 연구하기 시작했습니다.”

이재성 CEO는 “주력 영역은 전통적인 비디오 이해 문제에 대한 것입니다. 대규모 아카이브에 걸친 의미 체계 검색, 분류, 비디오 채팅, 심지어 비디오 에이전트와 검색 증강 생성(RAG) 같은 것들이죠.”라면서 “비디오 데이터가 많아서 정말 빠르게 검색해야 한다면 Twelve Labs의 API를 사용해 몇 분 안에 처리할 수 있습니다.”라고 말합니다. 현재 NFL과 같은 영향력 있는 브랜드를 포함하여 3만 명 이상의 개발자와 회사가 Twelve Labs 모델을 사용하고 있습니다.

프레임별 인사이트 생성

Twelve Labs는 Marengo와 Pegasus라는 두 가지 모델을 제공합니다. 이재성 CEO는 “Marengo는 풍부한 멀티모달 비디오 임베딩을 생성하는 용도로 만들어졌습니다. 이미지, 오디오, 비디오, 텍스트 등 모든 검색을 지원할 수 있죠.”라고 말합니다. “Pegasus는 비디오 언어 모델입니다. 이 모델은 사용자 프롬프트와 Marengo가 생성하는 임베딩을 결합하여 사용자의 질문에 답하고 보고서를 생성하는 등의 작업을 수행할 수 있습니다.”

“비디오에 더 적합한 아키텍처 모델에 대해 새로운 연구를 하고 있습니다. 텍스트와 이미지 임베딩 모델은 무수히 많지만 비디오는 완전히 다릅니다. 이것은 연구 측면이지만 핵심 엔지니어링 작업이 아직 남아 있습니다.”라고 말합니다.

다행인 점은 AI 스타트업의 경우 중대한 기술적 문제를 해결하는 데 익숙하고 Twelve Labs도 다르지 않다는 것입니다. 이재성 CEO는 “사실상 전 세계 데이터의 80%가 비디오인데, 처음에 훈련하고 인덱싱하고 이해하는 데 100제타바이트가 넘는 비디오 콘텐츠가 사용되었습니다.”라면서 “문제는 이 엄청난 규모에 있습니다.”라고 말합니다. Twelve Labs는 AWS와 함께 목표를 달성하는 데 필요한 기술과 전문 지식을 활용하여 이러한 문제를 극복하고 있습니다.

혁신적인 기술로 지각 추론을 강화

Twelve Labs는 Amazon SageMaker HyperPod를 사용하여 모델을 더 효율적으로 훈련하고 규모 조정합니다. 기업에서는 SageMaker HyperPod를 사용하여 FM을 몇 주 또는 몇 달 동안 훈련하는 동시에 클러스터 상태를 적극적으로 모니터링하고 노드 및 작업 복원력을 자동화합니다. 결함이 있는 노드를 감지해 자동으로 교체하고 모델 훈련을 재개합니다. 따라서 훈련 시간이 최대 40%까지 줄어듭니다.

이재성 CEO는 “이러한 모델을 구축할 때 가장 어려운 점 중 하나는 수백 개의 GPU에서 수만 개의 CPU에 이르는 놀라운 규모의 강력한 시스템을 사용한다는 것입니다.”라면서 “이러한 시스템은 정말 잘 구축되어 있고 견고하지만 하드웨어와 노드 장애가 많습니다.”라고 말합니다.

덧붙여 “당사는 SageMaker HyperPod 팀과 긴밀하게 협력하고 있습니다. AWS가 구축한 복원력과 분산형 훈련 인프라를 활용하여 GPU를 가동하고 모델을 최대한 빨리 훈련하고 출시할 수 있습니다.”라면서 “SageMaker HyperPod의 복원력, 즉 데드 노드를 수정하고 기본적으로 고성능 컴퓨팅을 아웃소싱하는 기능은 정말 매력적이었습니다.”라고 말합니다.

Twelve Labs 팀은 클라우드 기반 비디오 트랜스코딩에 AWS Elemental MediaConvert도 활용하기 때문에 비디오 처리 인프라를 유지 관리할 필요가 없습니다. 이재성 CEO는 “AWS Elemental MediaConvert 스트리밍 인프라를 사용하면 주력 분야에 집중할 수 있습니다.”라고 말합니다.

Twelve Labs는 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스인 Amazon Simple Storage Service(Amazon S3)와도 긴밀하게 통합됩니다. 이재성 CEO는 “고객들은 Twelve Labs와 S3 워크플로가 원활하게 통합된다는 점을 정말 좋아합니다”라면서 “대부분의 데이터를 S3에 저장하는 경우 비디오 데이터를 원활하게 가져와서 인덱싱하고 임베드하고 원활하게 검색할 수 있습니다.”라고 말합니다.

성장에 초점을 맞추기

AWS는 스타트업에 클라우드 크레딧, 기술 지원, 비즈니스 멘토링을 제공하는 주력 프로그램인 AWS Activate를 통해 Twelve Labs의 성장을 도왔습니다. AWS Startups 팀은 스타트업을 운영하는 데 따르는 어려움을 이해할 뿐만 아니라 그 여정을 거쳤고 다른 이들을 지원한 경험이 있는 창립자, 빌더, 선구자로 구성되어 있습니다. 이 프로그램은 사용 사례에 적합한 AWS 서비스를 찾아주고 초기 개념 증명에 필요한 자금을 지원하는 등의 혜택을 제공합니다.

AWS Activate의 핵심은 시장 진출 전략을 개발하고 신규 고객에 대한 노출을 늘리도록 스타트업을 지원하는 것입니다. 이러한 과정의 일환으로 Twelve Labs는 AWS Marketplace에 합류했습니다. AWS Marketplace는 전 세계 고객 기반에 비디오 인텔리전스 서비스를 원활하게 제공할 수 있도록 회사의 제품을 엄선하여 소개하는 디지털 스토어입니다. 이제 모든 규모의 기업이 AWS Marketplace에서 Twelve Labs의 제품을 빠르게 찾고 체험하고 구매하고 배포하고 관리할 수 있습니다.

인간처럼 세상을 보는 AI

앞으로도 Twelve Labs는 AWS와 계속 협력하여 AI 기반 비디오 인텔리전스의 새로운 지평을 열 것입니다. 이재성 CEO는 “AWS와 협력하게 된 가장 매력적인 이유는 페타바이트(심지어 엑사바이트) 상당의 비디오 데이터를 다루는 고객의 마음을 잘 안다는 것입니다.”라고 말합니다.

그러면서 “AWS는 멀티모달 AI 문제를 해결하고 비디오의 접근성을 높일 수 있는 컴퓨팅 파워와 지원을 제공했습니다. 앞으로 몇 년 동안 혁신을 지속하고 전 세계로 확장하면서 유익한 협력이 이루어지기를 기대합니다.”라고 말합니다. “생성형 AI를 사용하여 비디오를 이해하고 제작할 때의 한계를 넓히는 동시에 모델 훈련을 가속화하고 전 세계 수천 명의 개발자에게 솔루션을 안전하게 제공하고 컴퓨팅 비용을 제어할 수 있습니다.”

3년간의 전략적 협력 계약(SCA)의 일환으로 이 회사는 현재 AWS와 협력하여 모델 훈련 기능을 더욱 향상시키고 의료 및 제조와 같은 새로운 산업에 모델을 배포하고 있습니다. 이재성 CEO는 “우리는 미래의 모든 AI 에이전트, 즉 인간처럼 세상을 봐야 하는 에이전트의 시각 피질이 되고자 합니다.”라고 말합니다.

이 콘텐츠는 어떠셨나요?