Molmo2 Image Content Moderator, WaveSpeedAI에 출시

Molmo2 Image Content Moderator, WaveSpeedAI에 출시

Molmo2-4B Image Content Moderator: 이미지 콘텐츠의 안전성, 적절성 및 정책 준수 여부를 분석합니다. 폭력, 누드, 유혈 장면 및 기타 해로운 콘텐츠를 감지합니다.

5 min read
Molmo2 Image QA, WaveSpeedAI에 출시

Molmo2 Image QA, WaveSpeedAI에 출시

Molmo2-4B Image QA: 다중 이미지 비교(1-2개 이미지) 지원으로 이미지에 대한 질문에 답변합니다. 오픈소스 비전-언어 모델입니다. 즉시 사용 가능한 REST API

5 min read
WaveSpeedAI Molmo2 Prompt Optimizer, WaveSpeedAI에 출시

WaveSpeedAI Molmo2 Prompt Optimizer, WaveSpeedAI에 출시

Molmo2-4B Prompt Optimizer: 지능형 재구성, 스타일 안내, 상황 인식 개선으로 이미지 및 비디오 생성을 위한 프롬프트를 향상시킵니다. 오픈

5 min read
Molmo2 Video Captioner, WaveSpeedAI에 출시

Molmo2 Video Captioner, WaveSpeedAI에 출시

Molmo2-4B Video Captioner: 커스터마이징 가능한 세부 수준(낮음, 중간, 높음)으로 비디오에 대한 자세하고 정확한 캡션을 생성합니다. 오픈소스 비전-언어 모델

5 min read
Molmo2 Video Content Moderator, WaveSpeedAI에 출시

Molmo2 Video Content Moderator, WaveSpeedAI에 출시

Molmo2-4B Video Content Moderator는 비디오 콘텐츠의 안전성, 적절성 및 정책 준수를 분석합니다. 폭력, 노출, 혐오 콘텐츠 및 기타 해로운 비디오 콘텐츠를 감지합니다.

5 min read
Molmo2 Video QA, WaveSpeedAI에 출시

Molmo2 Video QA, WaveSpeedAI에 출시

Molmo2-4B Video QA: 시간적 이해를 통해 동영상 콘텐츠에 대한 질문에 답변합니다. 오픈소스 비전-언어 모델입니다. 즉시 사용 가능한 REST API, 콜드 스타트 없음

5 min read
WaveSpeedAI Molmo2 Video Understanding, WaveSpeedAI에 출시

WaveSpeedAI Molmo2 Video Understanding, WaveSpeedAI에 출시

Molmo2-4B 비디오 이해: 전문화된 작업(일반, 요약, 분석, 계산, 장면 설명)으로 비디오를 분석합니다. 오픈소스 비전-언어 모델

5 min read
WaveSpeedAI Molmo2 Text Content Moderator, WaveSpeedAI에 출시

WaveSpeedAI Molmo2 Text Content Moderator, WaveSpeedAI에 출시

Molmo2-4B Text Content Moderator: 텍스트 콘텐츠의 안전성, 적절성 및 정책 준수 여부를 분석합니다. 혐오 발언, 폭력, 성인 콘텐츠 등을 감지합니다.

5 min read
OpenAI Whisper With Video, WaveSpeedAI에 출시

OpenAI Whisper With Video, WaveSpeedAI에 출시

OpenAI Whisper Large v3 (Video-to-Text)는 비디오 파일에서 고정확도 다국어 자동 자막 생성을 제공하며, 자동 언어 감지 및 선택적 기능을 지원합니다

4 min read
Paddle Ocr, WaveSpeedAI에 출시

Paddle Ocr, WaveSpeedAI에 출시

PaddleOCR-VL은 문서 파싱을 위한 초소형 0.9B 파라미터 비전-언어 모델로, 109개 언어에서 텍스트, 테이블, 수식 및 차트 인식을 지원합니다

4 min read
Qwen Image 2512 LoRA Trainer, WaveSpeedAI에 출시

Qwen Image 2512 LoRA Trainer, WaveSpeedAI에 출시

Qwen-Image-2512 LoRA Trainer로 스타일, 캐릭터, 객체 학습을 통해 커스텀 LoRA 모델을 10배 빠르게 학습할 수 있습니다. 몇 시간이 아닌 몇 분 만에 개념에서 모델까지 완성하세요.

5 min read
Qwen Image Text-to-Image 2512 LoRA, WaveSpeedAI에 출시

Qwen Image Text-to-Image 2512 LoRA, WaveSpeedAI에 출시

Qwen-Image-2512 LoRA는 빠른 커스터마이제이션과 정교한 이미지 생성을 위한 LoRA 지원이 포함된 향상된 20B MMDiT 텍스트-이미지 모델입니다. 사용 가능한 REST 인터페이스

4 min read