재현 가능한 벤치마크: Qwen Image 2512 vs SDXL vs FLUX 텍스트-인-이미지 비교

안녕하세요, 저는 도라입니다. 최근에 Qwen Image 2512, SDXL, FLUX를 서로 비교하여 텍스트 렌더링 벤치마크를 실행했습니다. 지난 3주간 텍스트 이미지 생성을 테스트했는데, “이 모델이 마침내 텍스트 렌더링을 해결했다”라는 주장들을 계속 봤기 때문입니다. 주장들은 크게 들렸습니다. 증거는 약해 보였습니다.

그래서 Qwen Image 2512, SDXL, FLUX 세 모델을 사용하여 재현 가능한 벤치마크를 구축했습니다. 사람들이 계속 비교하는 모델들입니다. 포스터, 메뉴, 혼합 레이아웃을 렌더링하도록 요청할 때 실제로 어떤 일이 일어나는지 보고 싶었습니다. 선택된 예시가 아니라요. 마케팅 스크린샷이 아니라요. 동일한 프롬프트 전체에서의 일관된 테스트일 뿐입니다.

재현 가능한 벤치마크가 중요한 이유

제가 본 대부분의 비교는 단일 예시를 보여줍니다. 모델 A의 아름다운 포스터 하나, 모델 B의 깨진 표지판 하나. 한 번 무언가가 일어났다는 것은 알려주지만, 안정적으로 어떤 일이 일어나는지는 알려주지 않습니다.

저는 트레이드오프를 이해하고 싶었습니다. SDXL은 언제 어려움을 겪습니까? FLUX는 어디서 빛납니까? Qwen Image 2512는 긴 텍스트나 복잡한 레이아웃으로 밀어붙일 때 실제로 무엇을 제공합니까?

허깅페이스의 모델 문서에 따르면, Qwen Image 2512는 텍스트 렌더링 정확도와 레이아웃 품질을 개선합니다. 10,000회 이상의 블라인드 평가에서 오픈소스 모델 중 선도적인 모델로 나타났습니다. 한편, 커뮤니티 테스트에서는 FLUX가 SDXL과 비교하여 텍스트 렌더링에서 명확하게 우수함을 보여줍니다. 각 테스트 이미지에서 올바른 텍스트를 생성하는 반면 SDXL은 어려움을 겪습니다. 하지만 이러한 평가는 제 구체적인 질문에 답하지 못했습니다. 포스터 레이아웃 대 메뉴 텍스트 대 썸네일 그래픽과 비교할 때 어떤 일이 일어납니까?

벤치마크 설정

저는 동일한 하드웨어, NVIDIA RTX 4090(24GB VRAM)을 사용하여 세 모델을 모두 테스트했습니다. 각 모델은 권장되는 설정으로 실행되어 불공정한 불이익을 피했습니다.

모델 전체에서 동일한 프롬프트 세트

총 20개의 프롬프트, 4개의 카테고리로 정렬됩니다. 각 프롬프트는 정확한 텍스트 콘텐츠, 레이아웃 요구사항, 시각적 스타일을 지정했습니다. 불일치를 포착하기 위해 모델당 각 프롬프트를 3번씩 실행했습니다.

FLUX는 흐름 일치를 사용하므로 분류자 없는 지침을 지원하지 않기 때문에 FLUX에는 음수 프롬프트를 사용하지 않았습니다. 비교를 공정하게 유지하기 위해 모든 모델에 대해 음수 프롬프트를 건너뛰었습니다.

동일한 종횡비와 매개변수

모든 테스트는 1024×1024 해상도를 사용했습니다.

SDXL은 CFG 스케일 7로 30단계에서 실행
FLUX Dev는 지침 스케일 5로 20단계 사용
Qwen Image 2512는 지침 스케일 5로 28단계에서 실행, 커뮤니티 테스트에서는 품질과 프롬프트 준수의 균형을 맞추는 것으로 제안

생성 시간은 크게 달랐습니다. SDXL은 4개 이미지에 약 13초가 걸렸고, FLUX Dev는 57초가 필요했습니다. 약 4배 더 깁니다. Qwen Image 2512는 최적화된 설정으로 이미지당 약 5초로 그 사이에 위치했습니다.

프롬프트 세트(오픈소스)

재현 가능성이 실제 테스트를 보려면 전체 프롬프트 세트를 공유합니다. 완벽한 프롬프트가 아닙니다. 제가 실제로 마주치는 현실적인 시나리오들입니다.

프롬프트 수준의 비교를 더 쉽게 재현하고 확장하기 위해, 우리는 또한 WaveSpeed를 포함한 다양한 실행 환경에서 동일한 프롬프트 세트를 테스트하고 있습니다. WaveSpeed는 비교 가능한 매개변수를 사용하여 여러 이미지 모델을 실행하기 위한 일관된 인터페이스를 제공합니다.

여기의 모든 결과와 마찬가지로 출력은 프롬프트 표현, 단계 수, 지침 스케일에 민감하므로 결과는 절대적이 아닌 방향적으로 해석되어야 합니다.

포스터 프롬프트(5개 예시)

“맨 위에 굵은 제목 ‘여름 축제’가 있는 이벤트 포스터, 아래에 자막 ‘7월 15-17일’, 활동을 나열하는 세 개의 글머리 기호, 바닥글 텍스트 ‘summerfest.com에서 등록하세요’”
“큰 텍스트 ‘THE LAST HORIZON’이 중앙에, 작은 텍스트 ‘곧 개봉’이 아래에 있는 영화 포스터 스타일”
“제목 ‘5일 안에 Python 배우기’, 날짜 및 시간 세부사항, 강사 이름, 등록 정보가 있는 워크숍 공지”
“장식 글꼴의 밴드 이름, 공연장 세부사항, 티켓 가격이 있는 콘서트 포스터”
“저자 이름, 세리프 글꼴 제목, 자막, 출판사 로고가 있는 책 표지 레이아웃”

썸네일 프롬프트(5개 예시)

“큰 텍스트 ‘TOP 5 TIPS’와 ‘새로운’ 배지가 있는 YouTube 썸네일”
“텍스트 ‘50% OFF’를 눈에 띄게 표시하고 더 작은 ‘한정 기간’ 라벨을 표시하는 제품 썸네일”
“제목 ‘고급 AI’와 어려움 표시 ‘전문가 수준’이 있는 과정 썸네일”
“요리 이름과 ‘30분 내에 준비됨’ 배지가 있는 레시피 썸네일”
“헤드라인과 ‘속보’ 태그가 있는 뉴스 썸네일”

메뉴/표지판 프롬프트(5개 예시)

“5개의 항목, 가격, ‘오늘의 특선’이 있는 커피숍 메뉴 보드”
“아래에 나열된 영업 시간과 함께 ‘이제 오픈’을 표시하는 레스토랑 표지판”
“‘그랜드 오픈’과 날짜 정보가 있는 상점 창 표지판”
“3개 섹션과 장식 테두리가 있는 카페 칠판 메뉴”
“‘클리어런스 세일’과 퍼센트 할인이 있는 소매 표지판”

혼합 콘텐츠 프롬프트(5개 예시)

“제목, 3개의 번호 매겨진 단계, 요약 상자가 있는 인포그래픽”
“그래디언트 배경에 오버레이된 인용문 텍스트가 있는 소셜 미디어 게시물”
“글머리 기호와 바닥글 텍스트가 있는 프레젠테이션 슬라이드”
“헤드라인, 본문 텍스트 미리보기, 페이지 번호가 있는 매거진 레이아웃”
“제품 이름, 기능 목록, 클릭 유도문안이 있는 광고”

평가 기준

저는 1–5 스케일을 사용하여 각 출력을 4가지 차원에서 평가했습니다. 순수 문자 인식이 놓치는 레이아웃 문제를 포착하고 싶었기 때문에 OCR 자동화를 사용하지 않았습니다.

텍스트 가독성(1–5)

모든 단어를 눈을 갸우뚱하지 않고 읽을 수 있습니까? 문자가 올바르게 형성되어 있습니까? 문자가 함께 흐릿하거나 불완전하게 표시됩니까?

점수 5: 모든 문자가 명확하고 읽기 쉬움. 맞춤법 오류 없음, 문자 병합 없음, 획 손실 없음.
점수 3: 대부분의 텍스트는 읽을 수 있지만 약간의 문제를 보여줍니다. 약간의 흐림, 가끔 문자 혼동.
점수 1: 텍스트는 대부분 읽을 수 없거나 큰 맞춤법 오류가 포함되어 있습니다.

레이아웃 정확도(1–5)

텍스트가 프롬프트에서 지정된 위치에 나타납니까? 계층이 존재합니까? 헤더가 본문 텍스트보다 크고 요소 간 올바른 간격이 있습니까?

Qwen Image 2512가 여기서 인상적이었습니다. 테스트 문서에 따르면, 레이아웃 품질과 멀티모달 구성을 개선하여 복잡한 디자인의 재시도 횟수를 줄입니다.

시각적 충실도(1–5)

읽을 수 있는 텍스트 외에도 전체 이미지가 일관성 있게 보입니까? 문맥에 적절한 글꼴이 있습니까? 텍스트가 배경 요소와 자연스럽게 통합되어 있습니까?

이것이 차이가 명백해진 곳입니다. 일부 모델은 일관성 없는 배경에서 완벽한 텍스트를 렌더링했습니다. 다른 것들은 깨진 텍스트로 아름다운 이미지를 만들었습니다.

전반적인 미학(1–5)

이 출력을 실제로 사용할까요? 완성되어 보입니까 아니면 상당한 후처리가 필요합니까?

결과 요약

총 180개 생성(20개 프롬프트 × 3개 모델 × 3회 시도) 후 저를 놀라게 한 패턴들이 나타났습니다.

Qwen Image 2512가 우수한 곳

50자 이상의 포스터 레이아웃. 여러 텍스트 블록이 있는 이벤트 포스터를 요청했을 때, Qwen Image 2512는 요소를 지속적으로 올바르게 배치했습니다. 더 긴 문자열에서도 텍스트가 명확하게 유지되었습니다.

이 모델은 명확한 문자, 안정적인 줄 간격, 예측 가능한 정렬로 텍스트 렌더링 품질을 강조합니다. 특히 마케팅 시각 자료와 디자인 초안에 유용합니다. 저는 중국어-영어 혼합 콘텐츠에서 이것을 특히 주목했습니다. 제 테스트는 영어에 중점을 두었지만요.

속도가 눈에 띄었습니다. 이미지당 5초는 품질을 잃지 않고 빠르게 반복할 수 있다는 의미입니다. 이는 여러 시도를 통해 디자인을 세분화할 때 중요합니다.

SDXL이 우수한 곳

예술적 스타일과 빠른 반복. 프롬프트가 텍스트 정확도보다 스타일을 강조할 때(“레트로 포스터 미학” 또는 “빈티지 표지판 모양”), SDXL은 더 일관된 예술적 해석을 제공했습니다. SDXL의 듀얼 아키텍처 접근 기본 및 리파이너 모델로 강력한 미학 성능을 제공합니다. 특히 양식화된 콘텐츠에요. 생태계 이점도 중요합니다. 더 많은 LoRA, 더 많은 ControlNet 옵션, 더 많은 커뮤니티 리소스.

생성 속도는 SDXL에 거친 초안의 이점을 주었습니다. 4개 이미지에 13초는 개념을 탐색할 때 1분 기다리는 것보다 낫습니다.

FLUX가 우수한 곳

복잡한 프롬프트를 가진 짧은 텍스트. 썸네일 및 간단한 표지판의 경우 FLUX Dev는 거의 맞춤법을 틀리지 않았습니다. 커뮤니티 테스트는 FLUX가 커닝, 간격, 글꼴 스타일 재현에서 우수함을 보여줍니다. 전문 타이포그래피 표준과 일치하는 명확한 텍스트를 생성합니다.

T5 인코더는 차이를 만드는 것 같습니다. FLUX는 Google의 언어 모델의 T5 기술을 사용하여 복잡한 프롬프트 이해와 텍스트 렌더링 품질을 개선합니다.

하지만 FLUX는 더 긴 텍스트 블록으로 어려움을 겪었습니다. 약 30자 이후 정확도가 눈에 띄게 떨어졌습니다. 그리고 독립적인 테스트에서는 FLUX가 이전 모델보다 개선된 것을 보여주지만, 출력이 종종 마케팅 자료의 완벽한 예시에 미치지 못함을 확인했습니다.

사용 사례별 권장사항

여러 텍스트 요소가 있는 포스터를 생성 중이고 안정적인 레이아웃이 필요하면, Qwen Image 2512가 제 예상보다 이것을 더 잘 처리했습니다. 28단계 생성은 과도한 대기 시간 없이 좋은 품질을 제공했습니다.

디자인을 프로토타입하고 스타일이 완벽한 텍스트보다 중요하면, SDXL은 속도와 예술적 유연성을 제공합니다. 어쨌든 텍스트를 후처리에서 수정할 가능성이 높습니다.

썸네일이나 짧은 표지판을 만들 중이고 텍스트 정확도가 중요하면, FLUX Dev가 가장 깔끔한 단문 텍스트를 제공했습니다. 단지 문단을 렌더링하도록 요청하지 마세요.

혼합 워크플로의 경우, 저는 다양한 단계에 다양한 모델을 사용하는 자신을 발견했습니다. 빠르게 시각적 방향을 탐색하기 위해 SDXL. 레이아웃 복잡성이 증가할 때 Qwen Image 2512. 최종 텍스트가 더 짧은 콘텐츠를 위해 픽셀 완벽해야 할 때 FLUX Dev. 제를 가장 놀라게 한 것은 어떤 모델이 전반적으로 우승했는지가 아니었습니다. 왜냐하면 단일 우승자는 없기 때문입니다. “텍스트 이미지”가 한 가지 문제가 아니라는 것을 깨닫는 것이었습니다. 최소한 3가지입니다. 문자 정확도, 레이아웃 정확도, 미학적 통합. 다양한 모델이 다양한 부분을 해결합니다.