← 블로그

Qwen Image 2.0 사용 방법: 텍스트-이미지 생성, 편집 및 텍스트 렌더링 가이드 (2026)

텍스트-이미지 생성, 이미지 편집, 전문적인 텍스트 렌더링을 위한 Qwen Image 2.0 단계별 사용 가이드. 프롬프트 예시와 모범 사례를 포함합니다.

7 min read

Qwen Image 2.0은 텍스트-이미지 생성과 이미지 편집을 단일 70억 파라미터 아키텍처에 통합한 Alibaba의 최신 이미지 생성 모델입니다. 가장 두드러진 특징은 전문가 수준의 텍스트 렌더링 — 프롬프트에서 직접 정확하고 잘 정돈된 텍스트가 포함된 이미지를 생성하는 능력입니다.

이 가이드는 세 가지 기능 모두를 실용적인 프롬프트 예시와 함께 다루며, 여러분의 프로젝트에 맞게 응용할 수 있습니다.


Qwen Image 2.0으로 할 수 있는 것

기능설명
텍스트-이미지 생성텍스트 설명으로 네이티브 2K 해상도 이미지 생성
이미지 편집텍스트 지시로 기존 이미지 수정
텍스트 렌더링정확하고 형식화된 텍스트가 포함된 이미지 생성 (포스터, 인포그래픽, 만화)

세 가지 기능 모두 동일한 모델로 처리되므로 도구나 파이프라인을 전환할 필요가 없습니다.


텍스트-이미지 생성

기본 프롬프트

표준 이미지 생성의 경우, 다른 텍스트-이미지 모델과 마찬가지로 설명적인 프롬프트를 작성하세요:

석양 구름을 반사하는 현대적인 유리 사무실 건물,
광각 렌즈로 거리 높이에서 촬영,
따뜻한 황금빛 조명, 사실적인 표현

최고 품질을 위한 상세 프롬프트

Qwen Image 2.0은 최대 1,000 토큰의 프롬프트를 지원합니다. 더 길고 상세한 프롬프트일수록 더 좋은 결과물이 나옵니다:

사진처럼 사실적인 여름 숲 장면. 키 큰 참나무와 너도밤나무가
왁스 표면 반사를 보여주는 짙은 녹색 잎으로 주요 캐노피 층을 형성합니다.
햇빛이 틈 사이로 스며들어 따뜻한 황금빛 테두리와 함께 눈에 보이는
틴들 광선을 만들어냅니다. 전경에는 아침 이슬 방울이 맺힌 두꺼운 이끼 층이 있습니다.
배경은 청록색 안개 속으로 사라집니다. 전체 조명은 오전 10시의
45도 기울어진 햇빛과 적당한 명암 대비를 나타냅니다.
다양한 소재에 걸쳐 20가지 이상의 독특한 녹색 음영
(왁스 처리, 벨벳, 가죽, 젤 질감).

더 나은 생성을 위한 팁

  • 조명을 구체적으로 명시하세요 — “왼쪽 상단에서 45도 각도의 황금빛 햇빛”은 “좋은 조명”보다 효과적입니다
  • 소재와 질감을 설명하세요 — “눈에 보이는 찢김과 진흙 얼룩이 있는 낡은 회록색 중세 로브”는 더 현실적인 결과물을 만듭니다
  • 전체 토큰 예산을 활용하세요 — Qwen Image 2.0은 대부분의 모델보다 상세한 프롬프트에서 더 큰 이점을 얻습니다
  • 공간적 관계를 명시하세요 — 이 모델은 복잡한 공간 추론을 잘 처리합니다

이미지 내 텍스트 렌더링

이것이 Qwen Image 2.0이 진정으로 차별화되는 부분입니다. 이 모델은 정확하고 잘 형식화된 텍스트가 포함된 이미지를 생성할 수 있습니다.

PPT / 슬라이드 생성

완전한 프레젠테이션 슬라이드 생성:

어두운 파란색 그라데이션 배경 슬라이드. 제목: "프로젝트 일정".
아래에는 여러 노드가 있는 빛나는 타임라인. 첫 번째 노드:
"2025-05 프로젝트 시작". 두 개의 트랙으로 분기: 상단 트랙은
"개발"로 레이블되고 "2025-08 알파"와 "2025-12 베타" 노드 포함.
하단 트랙은 "디자인"으로 레이블되고 "2025-08 와이어프레임"과
"2025-10 최종 UI" 노드 포함. 두 트랙 모두 눈에 띄는 글로우 효과와 함께
"2026-02 출시"에서 합쳐짐.

인포그래픽 / 데이터 시각화

세 개의 열이 있는 A/B 테스트 결과 인포그래픽. 왼쪽 열:
"테스트 개요" — 대형 녹색 텍스트로 "+$47,000/월"을 표시하는
매출 증가, "1:4.8"을 표시하는 ROI, 녹색 진행 막대와 함께
"4.7/5"의 확장성 점수. 중간 열: "통계 분석" — 테스트 목표 →
변형 설계 → 트래픽 할당 → 주요 지표 → 유의성 검사 → 결과를
보여주는 순서도. 오른쪽 열: "비즈니스 영향" — 대조군 A와
변형 B 간의 비교 표.

영화 포스터

"The Last Light"의 사실적인 영화 포스터. 영화적인 조명으로
다섯 명의 캐릭터가 있는 어두운 분위기의 구성. 중앙: 두루마리를
들고 있는 어두운 로브의 젊은 남성. 상단: 엠보싱 금색의 스튜디오
로고. 중앙 제목 "THE LAST LIGHT"는 미묘한 녹청이 있는 3D 음각
금속 텍스트. 제목 아래: 은색으로 "3월 15일 — 진실이 밝혀지다".
하단: 소형 세리프 폰트의 빽빽한 제작 크레딧. 모든 텍스트가
장면의 소재와 조명과 자연스럽게 통합됨.

만화 패널

흰색 구분선이 있는 2x3 만화 그리드 (2행, 3열).
패널 1: 지저분한 실험실, 안경 쓴 소년(지)이 빛나는 녹색 구체를
납땜하고 있음. 말풍선: "드디어 완성! 에코 스피어!" 패널 2: 로봇이
지에게 커피를 건넴. 말풍선: "잠깐 쉬세요. 내일이 대회예요."
패널 3: 내부에 작은 식물이 자라는 녹색 구체 클로즈업. 패널 4:
검은 정장의 가면 쓴 남자가 화면을 보고 있음. 말풍선: "그 꼬마가
나를 이길 수 있다고 생각해?" 패널 5: 소년이 구체가 없어진 것을
발견하며 달려 들어옴. 말풍선: "안 돼! 없어졌어!" 패널 6: 로봇이
소년의 어깨를 두드리고, 화면에 결의에 찬 표정이 보임. 말풍선:
"포기하지 마. 아직 시간이 있어!"

텍스트 렌더링 팁

  • 원하는 텍스트를 정확히 인용하세요 — 모델이 인용된 문자열을 충실하게 재현합니다
  • 중요할 때 폰트 스타일을 명시하세요 — “굵은 산세리프”, “우아한 세리프”, “손글씨”
  • 레이아웃 구조를 설명하세요 — “세 개의 열”, “중앙 제목”, “왼쪽 정렬 본문”
  • 텍스트 배치를 언급하세요 — “왼쪽 상단 모서리”, “하단 중앙”, “왼쪽 여백을 따라”
  • LLM 지원 프롬프트 확장 활용 — 간단한 지시를 작성한 다음 LLM을 사용해 상세한 프롬프트로 확장하세요

이미지 편집

Qwen Image 2.0은 생성에 사용된 것과 동일한 모델로 편집을 처리합니다. 소스 이미지와 텍스트 지시를 제공하세요.

사진에 텍스트 추가

사진을 업로드하고 모델에게 텍스트 추가를 지시하세요:

왼쪽 상단 모서리에 위에서 아래로, 오른쪽에서 왼쪽으로
서예체로 쓰인 시를 추가하세요: "강은 동쪽으로 흘러,
시대의 영웅들을 씻어 내린다."

포즈 변형 생성

단일 초상화에서 여러 포즈 생성:

동일한 사람의 다양한 사진 포즈로 3x3 그리드 생성

다중 이미지 합성

여러 소스 이미지의 요소를 결합:

이미지 1의 인물과 이미지 2의 인물을 자연스러운 단체 사진으로
합성하세요. 두 사람이 30cm 간격으로 나란히 서 있고,
이미지 2의 배경 사용. 50mm 렌즈, f/4.0, 따뜻한 자연광,
합성 경계 없음.

크로스 도메인 편집

실제 사진과 일러스트 요소를 혼합:

도시 사진을 베이스로 사용하세요. 모든 실제 건물, 거리,
차량은 변경하지 마세요. 건물 주변에 세 명의 만화 캐릭터를
추가하세요 — 한 명은 위에 앉아 있고, 한 명은 오른쪽에서
엿보고 있고, 한 명은 앞 바닥에 앉아 있습니다. 캐릭터는
벽화 일러스트레이션처럼 명확한 윤곽선이 있는 평면 그래픽
스타일이어야 합니다.

프롬프트 엔지니어링 모범 사례

1. 복잡한 프롬프트 구조화

텍스트가 많은 이미지의 경우, 섹션으로 프롬프트를 구조화하세요:

[전체 레이아웃]: 일반적인 구성 설명
[텍스트 내용]: 렌더링할 정확한 텍스트 인용
[시각적 요소]: 이미지, 차트, 아이콘 설명
[스타일]: 폰트, 색상, 소재 지정

2. 프롬프트 확장에 LLM 활용

간단한 아이디어로 시작하여 LLM이 확장하도록 하세요:

간단한 버전: “2일간의 항저우 여행 여행 포스터 만들기”

LLM이 확장한 버전: 특정 랜드마크, 경로, 이중 언어 텍스트, 레이아웃 구조, 시각적 스타일이 담긴 500+ 토큰의 상세한 프롬프트 — Qwen Image 2.0이 정확하게 렌더링할 수 있습니다.

3. 1K 토큰 제한 활용

긴 프롬프트를 쓰는 것을 두려워하지 마세요. Qwen Image 2.0은 더 많은 세부 정보로 실제로 더 잘 작동합니다:

  • 따옴표 안에 정확한 텍스트 내용 명시
  • 공간 위치를 정밀하게 설명
  • 소재와 조명 세부 사항 포함
  • 색상 팔레트와 폰트 스타일 정의

4. 해상도 고려사항

모델은 네이티브 2K (2048 × 2048)로 생성합니다. 최상의 결과를 위해:

  • 고해상도를 활용하는 상세한 프롬프트 사용
  • 미세 세부 묘사 포함 (질감, 표면 특성)
  • 세로 또는 가로 방향 여부 지정

API 접근

현재: Alibaba Cloud BaiLian

Qwen Image 2.0은 현재 Alibaba Cloud의 BaiLian 플랫폼에서 API 초청 테스트로 이용 가능합니다.

출시 예정: WaveSpeedAI

Qwen Image 2.0은 WaveSpeedAI에서 다음과 함께 제공될 예정입니다:

  • 콜드 스타트 없음 — 즉각적인 추론
  • 빠른 생성 — 프로덕션 워크로드에 최적화
  • 간단한 REST API — 표준 HTTP 엔드포인트
  • 이미지당 결제 — 구독 불필요

WaveSpeed는 이미 이전 Qwen Image 모델들을 호스팅하고 있습니다:

모델엔드포인트
Qwen-Image-Editwavespeed.ai/models/wavespeed-ai/qwen-image/edit
Qwen-Image-Edit-Pluswavespeed.ai/docs
Qwen-Image LoRAwavespeed.ai/docs

Qwen Image 2.0 엔드포인트 세부 정보는 출시 시 발표될 예정입니다. 업데이트는 wavespeed.ai를 팔로우하세요.


FAQ

Qwen Image 2.0을 사용하려면 강력한 GPU가 필요한가요? 아니요 — API를 통해 접근하세요 (현재는 Alibaba Cloud BaiLian, 곧 WaveSpeed). 70억 파라미터 모델은 이전 200억 버전보다 가벼워 가중치가 공개되면 로컬 배포가 더 실용적입니다.

텍스트 렌더링은 어떤 언어를 지원하나요? 중국어와 영어가 높은 정확도로 완전히 지원됩니다. 이 모델은 단일 이미지에서 이중 언어 콘텐츠를 처리합니다.

로고를 생성할 수 있나요? 네, 이 모델은 텍스트 기반 로고와 브랜딩 요소를 생성할 수 있습니다. 정확한 브랜드 작업을 위해서는 정확한 스타일링을 얻기 위해 여러 번의 반복이 필요할 수 있습니다.

생성에 얼마나 걸리나요? 일반적인 생성은 API를 통해 몇 초 걸립니다. 70억 아키텍처는 이전 200억 모델보다 훨씬 빠릅니다.

상업 프로젝트에 사용할 수 있나요? 상업적 사용 권한에 대해서는 Qwen-Image 라이선스 조건을 확인하세요. WaveSpeed와 같은 플랫폼을 통한 API 사용은 표준 상업 API 조건을 따릅니다.

Qwen Image 2.0과 Qwen Image Edit의 차이점은 무엇인가요? Qwen Image 2.0은 생성과 편집을 모두 처리하는 통합 모델입니다. 이전 모델들(Qwen-Image, Qwen-Image-Edit)은 별도였습니다. 2.0 버전은 또한 텍스트 렌더링이 크게 향상되고 더 높은 해상도의 출력을 제공합니다.