WaveSpeedAI Sam3 비디오, WaveSpeedAI에 출시

SAM3 Video 소개: 프롬프트 기반 비디오 분할 및 객체 추적

비디오 분할은 오랫동안 컴퓨터 비전에서 가장 어려운 문제 중 하나였습니다. 로토스코핑으로 알려진 프레임별 객체 추적은 VFX 스튜디오, 콘텐츠 제작 파이프라인, 비디오 분석 워크플로우에서 수없이 많은 시간을 소비해왔습니다. 이제 WaveSpeedAI에 SAM3 Video 가 출시되면서 상황이 바뀝니다.

Meta의 혁신적인 Segment Anything Model 3 (SAM 3)을 기반으로 구축된 이 통합 기초 모델은 프롬프트 기반 비디오 분할을 클라우드로 가져와 즉각적인 API 액세스, 콜드 스타트 없음, 투명한 초당 가격 책정을 제공합니다. “빨간 옷을 입은 여자”, “사람, 배낭, 자전거” 또는 “배경의 사람 제거”와 같이 분할하고 싶은 것을 설명하기만 하면 SAM3 Video가 모든 프레임에서 감지, 분할, 추적을 처리합니다.

SAM3 Video란?

SAM3 Video는 비디오에서 프롬프트 가능한 개념 분할(PCS)을 수행하는 비디오-투-비디오 모델 입니다. 모든 프레임에서 마스크를 그려야 하는 기존 분할 도구와 달리 SAM3 Video는 자연어 프롬프트, 포인트 좌표, 경계 상자 또는 마스크 입력을 받아 전체 비디오에서 대상을 식별하고 추적합니다.

기본 SAM 3 아키텍처는 이전 버전에서 큰 도약을 나타냅니다. 8억 4,800만 개의 매개변수를 가진 이 모델은 단일 비전 인코더를 공유하는 DETR 기반 감지기와 트랜스포머 기반 추적기를 결합합니다. 이 설계를 통해 SAM3 Video는 다음을 수행할 수 있습니다:

개념의 모든 인스턴스 감지 (프롬프트당 하나의 객체만 아님)
픽셀 완벽한 정밀도로 분할
폐색을 통해서도 프레임 전체에서 일관되게 신원 추적

Meta의 연구에 따르면 SAM 3은 이미지 및 비디오 개념 분할 벤치마크에서 기존 시스템의 정확도를 두 배 향상시키면서 이전 벤치마크가 지원한 것보다 50배 이상 많은 270,000개 이상의 고유 개념을 처리합니다.

주요 기능

프롬프트 기반 대상 선택

수동 마스크 그리기는 잊으세요. 자연어를 사용하여 정확히 분할하고 싶은 것을 지정합니다:

간단한 명사: 사람, 자동차, 개
상세한 설명: 노란 스쿨 버스, 빨간 야구 모자, 빨간 유니폼을 입은 선수
다중 대상: 사람, 천, 배낭

모델은 맥락을 이해하고 비디오에서 일치하는 모든 인스턴스를 찾습니다 - 이는 이전 SAM 버전이 할 수 없던 것입니다.

단일 실행에서의 다중 객체 추적

여러 객체 범주를 추적해야 합니까? 프롬프트에 쉼표로 구분하여 나열하세요. SAM3 Video는 모든 프레임에서 각 대상에 대해 일관된 마스크를 생성하여 객체가 겹치거나 일시적으로 사라질 때에도 고유한 신원을 유지합니다.

강력한 시간적 일관성

비디오 분할은 결과가 안정적일 때만 유용합니다. SAM3 Video의 추적기는 자기 주의 및 교차 주의 메커니즘을 통해 프레임 간에 “마스클릿”(시간 객체 세그먼트)을 전파합니다. 이는 프레임별 처리 접근 방식을 괴롭히는 깜박임과 드리프트를 제거합니다.

마스크 기반 제어

다양한 워크플로우를 위해 apply_mask 매개변수를 토글합니다:

true: 분할 마스크를 출력에 직접 적용 - 객체 제거 및 배경 정리에 이상적
false: 적용하지 않고 분할 데이터 반환 - 다운스트림 합성 파이프라인에 완벽함

편집 지향적 설계

SAM3 Video는 분석용일 뿐만 아니라 실제 비디오 편집을 위해 구축되었습니다. 프롬프트에서 제거 의도를 지정하고(“배경의 사람을 제거하고 조명은 유지”), 깨끗하고 편집 가능한 결과를 얻습니다.

실제 사용 사례

VFX 및 후처리

로토스코핑 자동화: 수일의 수작업을 몇 초의 API 호출로 대체
객체 제거: 와이어, 리그, 붐 마이크 또는 원하지 않는 배경 요소 정리
합성 준비: 프레임별 마스킹 없이 레이어 합성을 위한 주제 격리

콘텐츠 제작

배경 교체: 가상 세트 배치를 위한 발표자 또는 제품 분할
소셜 미디어 편집: TikTok, Instagram 또는 YouTube용 비디오 콘텐츠의 빠른 정리
제품 전시: 혼잡한 배경에서 제품 격리

비디오 분석

객체 계산 및 추적: 감시 또는 스포츠 영상에서 특정 항목 모니터링
행동 분석: 장면을 통한 개인 또는 차량 추적
품질 관리: 제조 비디오 피드에서 결함 식별 및 플래깅

광고 및 마케팅

A/B 테스트 시각: 캠페인 변형 간에 배경 또는 요소 교체
현지화: 다양한 시장을 위해 텍스트 또는 브랜드 요소 분할 및 교체
동적 콘텐츠: 단일 촬영에서 여러 버전 생성

WaveSpeedAI에서 시작하기

WaveSpeedAI의 REST API를 통해 SAM3 Video를 사용하는 것은 간단합니다:

비디오 준비: 파일을 업로드하거나 공개적으로 액세스 가능한 URL 제공
프롬프트 작성: 명확한 구체적인 명사를 사용하여 분할할 내용 설명
매개변수 구성: 워크플로우 요구 사항에 따라 apply_mask 설정
추론 실행: 요청을 제출하고 처리된 결과 수신

API 매개변수

매개변수	필수	설명
`video`	예	입력 비디오 파일 또는 공개 URL
`prompt`	예	분할을 위한 텍스트 명령 (다중 대상의 경우 쉼표로 구분)
`apply_mask`	아니오	출력 비디오에 마스크 적용 (기본값: `true`)

프롬프트 작성 팁

신뢰할 수 있는 대상 지정을 위해 짧고 구체적인 명사 사용
다중 객체의 경우 쉼표로 구분된 레이블 사용: 사람, 자전거, 헬멧
정리 작업을 위해 제약 조건 포함: 로고 제거, 그림자 보존

투명한 가격 책정

SAM3 Video는 청구된 지속 시간이 5초에서 600초 사이로 고정된 간단한 초당 가격 책정을 사용합니다:

비디오 지속 시간	비용
5초 이하	$0.05
10초	$0.10
60초	$0.60
600초 (최대)	$6.00

가격은 초당 $0.05의 5초 단위로 계산되어 짧은 클립과 긴 영상 모두에 대해 예측 가능하고 예산 친화적입니다.

WaveSpeedAI를 사용하는 이유?

WaveSpeedAI를 통해 SAM3 Video를 실행하면 자체 호스팅 배포에 비해 상당한 이점을 얻을 수 있습니다:

콜드 스타트 없음: 추론이 즉시 시작됨 - 모델 로딩 대기 없음
인프라 관리 없음: GPU 프로비저닝, CUDA 종속성, 확장 문제 건너뛰기
예측 가능한 비용: 명확한 초당 가격 책정으로 사용한 것만 지불
간단한 REST API: 표준 HTTP 요청으로 모든 워크플로우에 통합

최적의 결과를 위한 모범 사례

안정적인 영상 사용: 명확한 주제 분리 및 최소한의 모션 블러는 최상의 마스크를 생성
프롬프트에서 구체적으로 작성: “빨간 스포츠 카”는 정밀도가 중요할 때 “자동차”를 능가합니다
혼잡한 장면에서 apply_mask 활성화: 더 조밀한 제어가 블리드스루 방지
결과가 떨어지면 실행당 대상 수 감소: 복잡한 다중 객체 요청을 집중된 패스로 분할

오늘 분할 시작

SAM3 Video는 엔터프라이즈급 비디오 분할을 모든 제작자, 개발자, 비즈니스에 제공합니다. VFX 파이프라인을 자동화하거나, 비디오 분석 도구를 구축하거나, 단순히 소셜 미디어용 콘텐츠를 정리하든 WaveSpeedAI는 접근 가능하게 만듭니다.

WaveSpeedAI에서 SAM3 Video 체험 →

계약 없음, 최소값 없음 - 필요할 때 강력한 AI 추론만 제공합니다.