メインコンテンツにスキップAWS Startups

見ることは理解すること: Twelve Labs が AWS 上で AI 動画インテリジェンスを開拓する

このコンテンツはいかがでしたか?

視覚はほとんどの人間にとって支配的な感覚であり、私たちが周囲の世界をどのように解釈するのかに大きな影響を及ぼします。私たちが知覚し、学習し、考え、周りの物事に対応する方法は、すべて視覚によって大きく左右されます。しかし、完璧な視力を持つ人でさえ、その視覚野が特定の瞬間に処理できる情報量には限界があります。幸いなことに、テクノロジーは生物学が提供するものを超えることができます。

Twelve Labs は、膨大な量の動画データを処理する生成 AI を活用し、次世代の動画インテリジェンスで顧客をサポートする、急成長中のスタートアップです。革新的なテクノロジーと実績のある専門知識によって可能になった規模で、人間と同じように視覚データを解釈できるマルチモーダル AI モデルを AWS 上でトレーニングおよびスケールしています。

大きな構想を行動に移す

Twelve Labs は、AI を活用した動画インテリジェンスに注力する韓国のスタートアップです。同社は 2020 年に Jae Lee 氏によって共同設立され、ソウルとサンフランシスコにオフィスを構えています。「Twelve Labs は、企業やデベロッパー向けの動画基盤モデルを構築する AI 研究および製品企業です」と Lee 氏は述べています。「私たちは話したり、書いたりする方法を学ぶ前から、対象と関わることで感覚的な入力データを通じて世界の多くの異なる側面に関する情報を集めています。そして、当社では、モデルを構築するうえで、それがより良い方法であると考えています」。

Twelve Labs は、急成長を遂げていた AI 市場が主にテキストや画像に焦点を当てていた時代に設立されました。「会社を設立した当時、人々の間でマルチモーダルが話題になることはほとんどなく、『基盤モデル』という言葉も用いられていませんでした。当社は、研究所や企業が言語理解を通じてインテリジェンスに取り組もうとしている傾向を目にしていました。しかし、その後、動画への取り組みに機会 (そして、率直に言って、非常に困難な課題) を見出しました。当社が知覚推論の取り組みを開始したのは、まさにこの時点でした」。

「当社が重点的に取り組んでいる領域は、大規模なアーカイブ全体におけるセマンティック検索、分類、動画チャットなどの従来の動画理解の問題、さらには動画エージェントや検索拡張生成 (RAG) です」と Lee 氏は述べています。「大量の動画データがあり、非常に迅速に検索する必要がある場合、Twelve Labs の API を使用することで、それを数分で完了できます」。現在、NFL などの影響力のあるブランドを含む 30,000 を超えるデベロッパーや企業が Twelve Labs のモデルを使用しています。

フレームごとにインサイトを生成する

Twelve Labs は、Marengo と Pegasus という 2 つのモデルを提供します。「Marengo は、画像、音声、動画、テキストといった検索を強化できるようにする、リッチなマルチモーダル動画埋め込みを生成することに特化しています」と Lee 氏は述べています。「Pegasus は当社の動画言語モデルであり、ユーザーの質問への回答や、レポートの生成などを行うために、ユーザーのプロンプトと、Marengo が生成する埋め込み情報を組み合わせることができます」。

「当社は、動画により適したアーキテクチャモデルに関する多くの斬新な研究を行っています。テキストや画像の埋め込みモデルはたくさんありますが、動画はまったく別のものです。これは研究面の話ですが、完了する必要がある泥臭いエンジニアリング作業はまだ残っています」と Lee 氏は述べています。

幸いなことに、AI スタートアップは大きな技術的課題に取り組むことに慣れており、Twelve Labs も例外ではありません。「世界のデータの実質的に 80% は動画で、これは 100 ゼタバイトを超える動画コンテンツに相当します。当社はまずこれらをトレーニングに使用し、インデックス作成と理解にも使用しています」と Lee 氏は述べています。「ここでの課題は、その規模の大きさです」。 Twelve Labs は AWS と連携し、目標達成に必要なテクノロジーと専門知識を活用して、この課題の克服に取り組んでいます。

革新的なテクノロジーで知覚推論を強化する

Twelve Labs は Amazon SageMaker HyperPod を利用して、モデルのトレーニングとスケールをより効率的に行っています。企業は SageMaker HyperPod を利用して、クラスターヘルスをアクティブにモニタリングし、自動化されたノードやジョブの回復力を活用しながら、数週間から数か月間にわたって FM をトレーニングしています。障害のあるノードが検出されると、自動的に置き換えられ、モデルのトレーニングが再開されるため、トレーニング時間を最大 40% 節約できます。

「これらのモデルの構築で最も困難なことの 1 つは、数百の GPU から数万の CPU に至る、信じられないほどの規模で非常に強力なマシンを使用しているということです」と Lee 氏は述べています。「これらのマシンは非常によく構築されており、堅牢ですが、ハードウェアやノードの障害が数多く発生します」。

「当社は SageMaker HyperPod チームと緊密に連携しています。AWS が構築した回復力と分散トレーニングインフラストラクチャを活用しているため、当社は GPU を起動し、モデルを可能な限り早急にトレーニングして、提供できます」と Lee 氏は述べています。「SageMaker HyperPod の回復力、そして、デッドノードを修復し、基本的にハイパフォーマンスコンピューティングをアウトソーシングできることは、当社にとって非常に魅力的でした」。

また、Twelve Labs のチームは、クラウドベースの動画トランスコーディングに AWS Elemental MediaConvert を利用しています。これにより、動画処理インフラストラクチャを維持する必要がなくなります。「AWS Elemental MediaConvert ストリーミングインフラストラクチャのおかげで、当社は本当に得意なことに注力できます」と Lee 氏は述べています。

Twelve Labs は、業界をリードするスケーラビリティ、データの可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスである Amazon Simple Storage Service (Amazon S3) との緊密な統合も提供しています。「当社のお客様には、Twelve Labs と S3 ワークフローのシームレスな統合について、大変ご満足いただいています」と Lee 氏は述べています。「データの大部分を S3 に保存していただければ、当社は、動画データのプル、インデックス作成、埋め込み、フリクションレスの検索をシームレスに実現できます」。

成長に焦点を当てる

また、AWS は、スタートアップのためにクラウドクレジット、テクニカルサポート、ビジネスメンターシップを提供するフラッグシッププログラムである AWS Activate を通じて、Twelve Labs の成長を後押ししてきました。AWS Startups チームは、スタートアップ経営の課題を理解するだけでなく、実際にスタートアップを経験し、そのジャーニーを通じて他者をサポートしてきた経験を持つ創業者、ビルダー、先見の明を持つ人々で構成されています。これには、ユースケースに適した AWS サービスを見つけることや、初期の概念実証への資金提供などが含まれます。

AWS Activate の重要な部分は、スタートアップが市場進出戦略を策定し、新規顧客に対する露出を拡大するのをサポートすることです。そのプロセスの一環として、Twelve Labs は AWS Marketplace に参加しました。AWS Marketplace は、同社の動画インテリジェンスサービスをグローバルな顧客ベースにシームレスに提供することを可能にする、厳選された製品やサービスを取り揃えているデジタルストアフロントです。今日では、あらゆる規模の企業が AWS Marketplace を利用して、Twelve Labs の製品を迅速に検索、試用、購入、デプロイ、管理できます。

私たちのように世界を見る AI

Twelve Labs は今後も AWS との連携を継続し、AI を活用した動画インテリジェンスの新たな境地を切り開いていきます。「AWS との連携に期待を抱いている最大の理由は、ペタバイト、あるいはエクサバイト規模の動画データを扱っているお客様への共感を共有できることです」と Lee 氏は述べています。

「AWS は、マルチモーダル AI の課題を解決し、動画をよりアクセスしやすくするためのコンピューティング能力とサポートを提供してくれています。そして、今後数年間にわたって、イノベーションを継続し、グローバルに事業を拡大していく中で、実りあるコラボレーションを実現できることを楽しみにしています」と Lee 氏は述べています。「当社は、モデルトレーニングを加速し、世界中の何千人ものデベロッパーにソリューションを安全に提供して、コンピューティングコストを抑えることができます。同時に、生成 AI を使用した動画理解と作成の限界を押し広げていくことができます」。

3 年間の戦略的協業契約 (SCA) の一環として、同社は現在 AWS と連携し、モデルトレーニング機能をさらに強化し、ヘルスケアや製造業などの新しい業界でモデルをデプロイしています。「当社は、未来のすべての AI エージェント、すなわち、私たちと同じように世界を見る必要があるエージェントの視覚野となることを目指しています」と Lee 氏は述べています。

このコンテンツはいかがでしたか?