Lewati ke konten utamaAWS Startups

Melihat berarti memahami: Twelve Labs memelopori kecerdasan video berbasis AI di AWS

Bagaimana konten ini?

Penglihatan adalah indera yang dominan pada sebagian besar manusia, dan memiliki dampak yang besar pada cara kita menafsirkan dunia di sekitar kita. Apa yang kita rasakan, cara kita belajar, berpikir, dan menavigasi lingkungan sekitar kita, semuanya dimediasi oleh penglihatan. Namun, bahkan mereka yang dikaruniai penglihatan yang sempurna pun dibatasi oleh seberapa banyak informasi yang dapat diproses oleh korteks visual dalam satu waktu. Untungnya, teknologi mampu melampaui batasan yang diberikan oleh biologi.

Twelve Labs adalah perusahaan rintisan yang berkembang pesat yang menggunakan AI generatif untuk memproses data video dalam jumlah besar, memberdayakan pelanggannya dengan kecerdasan video generasi berikutnya. Perusahaan ini melatih dan menskalakan model AI multimodal di AWS yang mampu menafsirkan data visual seperti halnya manusia, dalam skala yang dimungkinkan oleh teknologi inovatif dan keahlian yang telah terbukti.

Menerjemahkan ide besar ke dalam tindakan

Twelve Labs adalah perusahaan rintisan asal Korea Selatan yang berfokus pada kecerdasan video bertenaga AI. Perusahaan ini didirikan bersama oleh Jae Lee pada tahun 2020 dan memiliki kantor di Seoul dan San Francisco. “Twelve Labs adalah perusahaan riset dan produk AI yang membangun model fondasi video untuk perusahaan dan developer,” kata Lee. “Bahkan sebelum kita belajar berbicara atau menulis, kita mengumpulkan banyak aspek dunia yang berbeda melalui data input sensorik dengan berinteraksi dengannya, dan kami percaya bahwa pendekatan inilah yang lebih baik untuk membangun model.”

Twelve Labs didirikan pada saat pasar AI yang sedang berkembang masih berfokus pada teks atau gambar. “Saat kami memulai perusahaan ini, orang-orang belum banyak membicarakan tentang multimodal, bahkan istilah ‘model fondasi’ belum umum digunakan. Kami melihat tren laboratorium dan perusahaan yang mencoba menangani kecerdasan melalui pemahaman bahasa. Namun, kami justru melihat sebuah peluang—meskipun harus diakui, tantangan yang sangat sulit—dalam menangani video. Saat itulah kami mulai mengerjakan penalaran perseptual.”

“Fokus kami berada pada permasalahan klasik dalam pemahaman video, seperti pencarian semantik di arsip video besar, klasifikasi, obrolan video—bahkan agen video dan Retrieval-Augmented Generation (RAG),” ujar Lee. “Jika Anda memiliki banyak data video dan perlu melakukan pencarian dengan cepat, API Twelve Labs memungkinkan Anda melakukannya hanya dalam hitungan menit.” Saat ini, lebih dari 30.000 pengembang dan perusahaan telah menggunakan model Twelve Labs, termasuk merek-merek besar seperti NFL.

Menghasilkan wawasan dari setiap bingkai

Twelve Labs menawarkan dua model, Marengo dan Pegasus. “Marengo dirancang khusus untuk menghasilkan sematan video multimodal yang kaya yang memungkinkan Anda menjalankan berbagai proses pencarian—baik gambar, audio, video, maupun teks,” ujar Lee. “Pegasus adalah model bahasa video kami, yang mampu menggabungkan prompt pengguna dan sematan yang dihasilkan Marengo untuk menjawab pertanyaan pengguna, membuat laporan, dan berbagai fungsi lainnya.”

“Kami melakukan banyak riset inovatif terkait model arsitektur yang lebih cocok untuk video. Ada banyak model penyematan untuk teks dan gambar, tetapi video adalah hal yang sama sekali berbeda. Itu adalah sisi risetnya—tetapi pekerjaan rekayasa yang rumit tetap harus dilakukan,” kata Lee. 

Untungnya, perusahaan rintisan AI sudah terbiasa mengatasi tantangan teknis yang signifikan dan Twelve Labs juga demikian. “Sekitar 80 persen data di dunia adalah video, yang berjumlah lebih dari 100 zetabita konten video yang pertama kali kami gunakan untuk melatih dan juga mengindeks dan memahami,” kata Lee. “Tantangannya di sini adalah skalanya yang sangat besar.” Twelve Labs bekerja sama dengan AWS untuk mengatasi tantangan tersebut dengan akses ke teknologi dan keahlian yang dibutuhkan untuk mencapai tujuannya.

Memperkuat penalaran perseptual dengan teknologi inovatif

Twelve Labs menggunakan Amazon SageMaker HyperPod untuk melatih dan menskalakan modelnya dengan lebih efisien. Bisnis menggunakan SageMaker HyperPod untuk melatih FM selama berminggu-minggu atau bahkan berbulan-bulan sambil secara aktif memantau kondisi klaster dan memanfaatkan ketahanan otomatis untuk simpul dan pekerjaan. Jika simpul yang rusak terdeteksi, simpul tersebut secara otomatis akan diganti dan pelatihan model akan dilanjutkan—menghemat hingga 40 persen waktu pelatihan.

“Salah satu hal yang paling menantang dalam membangun model-model ini adalah kami bekerja dengan mesin yang sangat kuat dalam skala yang luar biasa, dari ratusan GPU hingga puluhan ribu CPU,” kata Lee. “Meskipun mesin-mesin ini dibuat dengan sangat baik dan kuat, tetapi tetap saja ada banyak kegagalan perangkat keras dan simpul.”

“Kami bekerja sama dengan tim SageMaker HyperPod. Kami memanfaatkan ketahanan dan infrastruktur pelatihan terdistribusi yang telah dibangun AWS, yang memungkinkan kami mengaktifkan GPU, melatih model kami secepat mungkin, dan mengirimkannya,” ujar Lee. “Ketahanan SageMaker HyperPod, kemampuan untuk memperbaiki simpul yang mati, dan pada dasarnya mengalihdayakan komputasi beperforma tinggi, benar-benar menarik bagi kami.”

Tim Twelve Labs juga memanfaatkan AWS Elemental MediaConvert untuk transkode video berbasis cloud, sehingga tidak perlu lagi memelihara infrastruktur pemrosesan video. “Infrastruktur streaming AWS Elemental MediaConvert memungkinkan kami fokus pada hal yang benar-benar kami kuasai,” ujar Lee.

Twelve Labs juga menyediakan integrasi mendalam dengan Amazon Simple Storage Service (Amazon S3), layanan penyimpanan objek yang menawarkan skalabilitas, ketersediaan data, keamanan, dan performa terbaik di industri. “Pelanggan kami sangat menikmati integrasi tanpa hambatan antara Twelve Labs dan alur S3,” ujar Lee. “Jika Anda menyimpan sebagian besar data Anda di S3, kami dapat dengan mudah menarik data video Anda, mengindeks, menyematkan, dan memungkinkan pencarian tanpa hambatan.”

Memfokuskan pertumbuhan

AWS juga telah membantu Twelve Labs mendorong pertumbuhan melalui AWS Activate, program unggulan yang menyediakan kredit cloud, dukungan teknis, dan bimbingan bisnis untuk perusahaan rintisan. Tim AWS Startups terdiri dari para pendiri, pembuat, dan visioner yang tidak hanya memahami tantangan dalam menjalankan perusahaan rintisan, tetapi juga telah menjalaninya dan memiliki pengalaman untuk mendukung perusahaan rintisan lainnya di sepanjang perjalanan mereka. Hal ini termasuk menemukan layanan AWS yang tepat untuk kasus penggunaan mereka, mendanai bukti konsep awal, dan banyak lagi.

Salah satu aspek penting dari AWS Activate adalah membantu perusahaan rintisan mengembangkan strategi masuk ke pasar dan meningkatkan eksposur ke pelanggan baru. Sebagai bagian dari proses ini, Twelve Labs bergabung dengan AWS Marketplace, etalase digital terkurasi yang memungkinkan perusahaan memberikan layanan kecerdasan video dengan mudah ke basis pelanggan global. Perusahaan dari berbagai skala kini dapat menggunakan AWS Marketplace untuk menemukan, mencoba, membeli, melakukan deployment, dan mengelola produk Twelve Labs dengan cepat.

AI yang menangkap dunia dengan perspektif manusia

Twelve Labs nantinya akan terus berkolaborasi dengan AWS dan menciptakan terobosan baru dalam hal kecerdasan video bertenaga AI. “Alasan paling kuat yang membuat kami antusias bekerja sama dengan AWS adalah empati yang sama terhadap pelanggan kami yang harus menangani data video dalam skala petabita—atau bahkan eksabita,” ujar Lee.

“AWS telah memberikan kami kekuatan komputasi dan dukungan untuk mengatasi tantangan AI multimodal dan membuat video lebih mudah diakses, dan kami berharap dapat menjalin kolaborasi yang sukses di tahun-tahun mendatang saat kami melanjutkan inovasi dan memperluas jangkauan secara global,” ujar Lee. “Kami dapat mempercepat pelatihan model kami, memberikan solusi kami dengan aman kepada ribuan developer di seluruh dunia, dan mengendalikan biaya komputasi—semua sambil mendorong batas-batas pemahaman dan pembuatan video menggunakan AI generatif.”

Sebagai bagian dari Perjanjian Kerjasama Strategis (SCA) selama tiga tahun, perusahaan kini bekerja sama dengan AWS untuk lebih meningkatkan kemampuan pelatihan modelnya dan melakukan deployment model-modelnya di berbagai industri baru, seperti perawatan kesehatan dan manufaktur. “Kami ingin menjadi korteks visual bagi semua agen AI di masa mendatang—agen yang perlu melihat dunia seperti kita,” kata Lee.

Bagaimana konten ini?