WaveSpeedAI Molmo2 Video Understanding, WaveSpeedAI에 출시
Molmo2-4B 비디오 이해: 전문화된 작업(일반, 요약, 분석, 계산, 장면 설명)으로 비디오를 분석합니다. 오픈소스 비전-언어 모델
OpenAI Whisper With Video, WaveSpeedAI에 출시
OpenAI Whisper Large v3 (Video-to-Text)는 비디오 파일에서 고정확도 다국어 자동 자막 생성을 제공하며, 자동 언어 감지 및 선택적 기능을 지원합니다
Paddle Ocr, WaveSpeedAI에 출시
PaddleOCR-VL은 문서 파싱을 위한 초소형 0.9B 파라미터 비전-언어 모델로, 109개 언어에서 텍스트, 테이블, 수식 및 차트 인식을 지원합니다
Qwen Image 2512 LoRA Trainer, WaveSpeedAI에 출시
Qwen-Image-2512 LoRA Trainer로 스타일, 캐릭터, 객체 학습을 통해 커스텀 LoRA 모델을 10배 빠르게 학습할 수 있습니다. 몇 시간이 아닌 몇 분 만에 개념에서 모델까지 완성하세요.
Qwen Image Text-to-Image 2512 LoRA, WaveSpeedAI에 출시
Qwen-Image-2512 LoRA는 빠른 커스터마이제이션과 정교한 이미지 생성을 위한 LoRA 지원이 포함된 향상된 20B MMDiT 텍스트-이미지 모델입니다. 사용 가능한 REST 인터페이스
WaveSpeedAI Video Background Remover, WaveSpeedAI에 출시
WaveSpeed Video Background Remover는 비디오 배경을 사용자 정의 이미지로 교체하거나 제거합니다. 비디오를 업로드하거나 링크를 붙여넣은 후 배경 이미지를 제공하세요.
WaveSpeedAI Z Image Turbo Controlnet, WaveSpeedAI에 출시
Z-Image-Turbo ControlNet은 구조적 제어 신호(깊이, canny edge, 포즈)를 통해 이미지를 생성하여 정확한 구성 제어를 제공합니다. 사용 가능한 REST 인터페이스
xAI Grok 2 Image, WaveSpeedAI에 출시
Grok 2 Image는 xAI의 최신 이미지 생성 모델로, 간단한 텍스트 프롬프트를 몇 초 만에 선명하고 사실적인 비주얼로 변환합니다. 제품 사진부터 소셜까지
Z AI CogView 4, WaveSpeedAI에 출시
Z-AI CogView-4는 텍스트 프롬프트에서 고품질 이미지를 생성하며, 사용자 설명에 대한 빠르고 정확한 이해로 AI가 이미지를 더욱 정확하게 표현할 수 있게 해줍니다
Z AI Glm Image Edit, WaveSpeedAI에 출시
GLM-Image Edit는 텍스트 프롬프트를 기반으로 이미지를 변환하는 강력한 이미지-투-이미지 편집 모델입니다. 즉시 사용 가능한 REST 추론 API, 최고의 성능, 공동
Z AI GLM Image, WaveSpeedAI에 출시
Z-AI GLM Image는 텍스트 프롬프트로부터 고품질 이미지를 생성하며, 사용자 설명에 대한 이해를 강화하여 더 정확하고 정밀한 이미지를 만듭니다.
Kling 2.6 모션 컨트롤: 실제로 올바른 부분을 움직이는 프롬프트 패턴
간단한 모션-토큰 접근 방식으로 Kling 2.6이 잘못된 부분을 움직이는 것을 멈추고 신뢰할 수 있고 정확한 제어를 실현하는 방법