Z-Image-Base vs Z-Image-Turbo: 품질, 다양성 및 비용 비교

안녕하세요, 여러분. 저는 Dora입니다. 하하, 사실 이건 화요일 밤의 작은 문제에서 시작됐어요. 깨끗한 텍스트와 선명한 경계선이 필요한데 배너 이미지가 계속 약간 흐릿하게 나오는 거였거든요. 몇 주 동안 Z-Image-Base와 Z-Image-Turbo를 주로 감각에 의존해 번갈아 써왔는데, 그날 밤엔 감각만으로는 부족했어요. 그래서 한 시간, 또 한 시간, 결국 그 주 나머지 시간을 몽땅 쏟아부어 몇 가지 간단한 조건 하에 동일한 프롬프트를 두 모델에 돌려봤습니다.

이건 리뷰가 아닙니다. 실제 작업을 하면서 제가 직접 느낀 것들이에요: 슬라이드 헤더, 가벼운 소셜 이미지, 제품 페이지용 컨셉 시트, 그리고 몇 가지 스토리보드. 이미 너무 많은 도구를 다루고 있어서 Z-Image-Base와 Z-Image-Turbo가 실제로 어디서 갈리는지만 알고 싶다면, 여기 짧고 꼼꼼한 버전을 소개합니다.

기능 비교 개요

CFG 지원 비교

프롬프트는 동일하게 유지하고 분류기 없는 가이던스(CFG)만 변경했습니다. Base의 경우, CFG를 5에서 9로 올리면 구성이 더 정교해지고 스타일을 억누르지 않으면서 프롬프트에 충실하게 유지됐습니다. 11 이상에서는 Base가 약간 과적합된 것처럼 보이기 시작했고, 요소들이 딱딱해졌지만 망가지진 않았어요.

Turbo는 달랐습니다. CFG 6 미만에서는 표류했어요. 이미지는 예쁜데 클라이언트 작업에는 너무 “창의적”인 경우가 있었죠. 78 사이에서 Turbo는 제자리를 잡았어요. 정렬이 좋아지고 방황이 줄었지만, 9를 넘으면 빠르게 불안정해졌습니다. 하이라이트가 날아가고 그림자가 뭉개지는 것을 봤는데, 마치 모델이 눈이 아닌 텍스트를 만족시키려고 과도하게 보정하는 것 같았어요. 수요일 메모: “Turbo 최적 구간: 78. Base: 6~9, 더 관대함.”

중요한 이유: CFG를 조금씩 조정하며 반복 작업할 때, Base는 더 넓고 안정적인 범위를 제공합니다. Turbo는 초반에 방향을 정하고 그걸 유지하길 원합니다.

네거티브 프롬프트 지원

저는 네거티브 프롬프트에 크게 의존하진 않지만, 이상한 장식, 여분의 손, 떠도는 로고, 텍스트 지저분함을 정리하는 데 도움이 됩니다. Base는 가벼운 네거티브(“워터마크 없음”, “테두리 없음”)를 다른 디테일을 무너뜨리지 않으면서 잘 반영했습니다. 깔끔하게 빼내는 느낌이었어요.

Turbo는 네거티브를 강하게 받아들였습니다. “텍스트 없음”이라고 하면 제가 실제로 원했던 인근의 글자처럼 생긴 형태들(패턴, 멀리 있는 간판 등)까지 흐릿하게 만들기도 했어요. 네거티브를 약하게 조정(“텍스트 아티팩트 최소화”)하자 Turbo가 잘 따랐습니다. 특히 Turbo를 사용할 때는 원하는 스타일과 같은 강도로 네거티브를 작성해야 한다는 걸 다시 한 번 느꼈어요.

레퍼런스 이미지 가이던스

두 가지 모드를 테스트했습니다: 느슨한 영감(컬러 스와치와 레이아웃 힌트)과 근접 매칭(비율이 중요한 제품 목업). Base의 경우, 레퍼런스 이미지가 안정적인 가이드 역할을 했습니다. 팔레트와 대략적인 레이아웃은 차용하면서 프롬프트 기반 스타일을 위한 공간은 남겨뒀어요. 무드 보드 작업에 적합합니다.

같은 레퍼런스를 준 Turbo는 모방 쪽으로 기울었습니다. 근접 매칭 작업에서는 유용했어요. 낮은 스텝에서도 제품 각도와 조명이 레퍼런스를 더 긴밀하게 따랐거든요. 하지만 탐색적인 작업에서는 Turbo의 적극적인 따르기가 시도 간 변형을 평평하게 만들기도 했습니다.

레퍼런스를 가이드 레일로 사용하는 워크플로우라면 Turbo가 조종하기 쉽습니다. 단순한 레퍼런스 가이던스를 넘어 더 정밀한 구조적 제어를 원한다면, 이 짧은 Z-Image-Turbo ControlNet 가이드에서 구성을 더 정확하게 고정하는 방법을 설명합니다.

샘플링 스텝 차이

문서와 UI에 명시된 기본값을 사용했습니다: Base는 50스텝, Turbo는 8스텝. 알리바바의 Tongyi-MAI가 출시한 Z-Image-Turbo는 Decoupled-DMD 증류를 통해 단 8번의 샘플링 스텝으로 데이터센터 GPU에서 서브초 지연을 달성하면서도 소비자용 16GB VRAM 카드에서 구동됩니다. Base를 30스텝으로 낮추고 Turbo를 12스텝으로 올려보기도 했습니다. 30스텝의 Base는 천과 나뭇잎에서 미세 대비가 약간 손실됐는데, 극적이진 않았지만 인쇄 크기 내보내기에서는 충분히 눈에 띄었어요. 12스텝의 Turbo는 안정성이 약간 향상됐고(작은 엣지 결함 감소) 구성에는 큰 변화가 없었습니다.

실용적으로: “마지막 10%“의 디테일이 중요하다면 50스텝 Base가 가치 있다고 느꼈습니다. 작은 캔버스나 소셜 크롭을 기본으로 한다면, Turbo의 8스텝으로도 충분했고, 제 뇌가 컨텍스트를 전환하는 것보다 빨랐는데 그 자체로도 가치가 있죠.

이미지 품질 비교

디테일 풍부함

몇 가지 마이크로 테스트를 진행했습니다: 금속 텍스처, 역광에 비친 머리카락 가닥, 중간 크기의 세리프 텍스트. Base는 일관되게 더 풍부한 마이크로 디테일을 만들어냈습니다. 금속은 이방성이 더 명확했고, 머리카락은 덜 번졌으며, 그림자는 밴딩 없이 부드러운 그라데이션을 유지했습니다. 큰 캔버스(2048px)에서 100%로 확대했을 때 Base가 훨씬 잘 버텼어요.

Turbo가 나쁜 건 아니었어요. 그냥 “한눈에 보기에 좋은” 쪽으로 튜닝된 느낌이었습니다. 폰 크기에서는 이미지가 선명하고 완성도 있어 보였어요. 가까이서 보면 약간의 스무딩이 보이고, 작은 요소들이 더 빨리 합쳐졌습니다. 웹 히어로 이미지와 슬라이드에는 Turbo가 괜찮았어요. 인쇄나 타이트한 크롭에는 Base가 우승했습니다.

스타일 다양성

Base가 제너럴리스트일 거라 예상했는데, 짧은 실행에서는 Turbo가 저를 놀라게 했습니다. 작은 프롬프트 변경으로 포토에서 선화, 부드러운 수채화까지 빠르게 스타일을 전환했고, 잔류 효과가 거의 없었어요. 덱을 위한 빠른 변형이 필요할 때 도움이 됐습니다.

하지만 긴 세션에서는 Base가 더 많은 영역을 커버했어요. 약간의 표현 변화로 품질을 잃지 않으면서 새로운 스타일을 만들어냈습니다. 목요일 메모: “Base는 더 깊이 탐색하고, Turbo는 더 빠르게 탐색한다.” 이리저리 탐색하고 다듬는 것을 즐긴다면 Base가 인내심을 보상해줍니다. 빠르게 스펙트럼이 필요하다면 Turbo가 믿을 만한 첫 번째 패스를 만들어냅니다.

텍스트 렌더링 능력

두 모델 모두 전용 텍스트 렌더러가 아니라서, 여기에 캠페인을 걸진 않겠어요. 그래도 짧은 단어(3~6글자), 높은 대비, 간단한 폰트로 시도해봤습니다.

Base는 특히 50스텝에서 간단한 대문자 단어를 더 안정적으로 처리했습니다. 1024px에서 그럭저럭 봐줄 만한 LOGO나 SALE을 만들 수 있었어요. Turbo는 특히 작은 크기에서 글자를 구부리거나 떨어뜨리는 경향이 있었습니다. Turbo를 12스텝으로 올리고 프롬프트를 단순화하면 나아졌지만 Base를 따라잡진 못했습니다.

두 모델 모두에 효과적이었던 해결책: 프롬프트 설명에서 텍스트 영역 뒤에 얇은 단색 배경 블록을 추가하는 것입니다. 모델이 글자 형태를 스타일화하려는 충동을 줄여주는 것 같아요. 실용적인 팁: 텍스트가 중요한 에셋은 생성 후 실제 텍스트를 합성합니다.

속도와 지연

Base: 약 3~5초 (50스텝)

CET 저녁 시간대, 유선 연결 기준으로 측정했습니다. Base는 50스텝 1024px 이미지 약 120회 생성에서 평균 3.6~~4.8초가 걸렸습니다. 한 구간(오후 9시쯤)에서 6~~7초로 치솟기도 했지만 곧 안정됐어요. 저는 보통 프롬프트를 배치로 처리하고 한 번에 검토하기 때문에 기다리는 게 크게 불편하지 않았습니다.

두 가지 작은 메모:

체감 속도가 중요합니다. Base의 안정적인 타이밍 덕분에 리듬을 탈 수 있었어요: 쓰기 → 큐에 넣기 → 차 한 모금 → 검토. 이 리듬이 컨텍스트 전환 피로를 줄여줍니다.
30스텝으로 낮추면 평균 약 1.2초를 절약할 수 있었지만, 재사용할 수 있는 에셋에 대해서는 품질 손실이 그만한 가치가 없었습니다.

Turbo: 1초 미만 (8스텝)

Turbo는 놀라웠습니다. 바쁜 시간대에도 대부분의 이미지가 1024px에서 400~800ms 안에 완성됐어요. 이 속도 덕분에 프롬프트를 작성하면서 인라인으로 반복 작업하는 것이 권장됐습니다. 문구를 조정하면 거의 즉각적인 피드백을 받을 수 있었거든요.

항상 시계 시간을 절약해주진 않았어요. 할 수 있으니까 더 많이 클릭하게 되기도 했지만, “방향 찾기” 작업의 정신적 부담을 줄여줬습니다. 빠른 스토리보드나 썸네일 작업에서 그 거의 즉각적인 느낌이 프로세스를 가볍게 만들어줬어요. 한 가지 트레이드오프: 빠른 결과가 “충분히 좋은” 것을 더 자주 수용하도록 유도했는데, 초안에는 괜찮지만 최종본에는 위험합니다.

비용 분석

Base: 이미지당 $0.01

이미지당 1센트로, 이번 테스트 배치에서 111개 이미지에 $1.11이 들었습니다. 주간 컨셉 시트를 제작한다면(약 400개 이미지) $4 정도입니다. Base에서 진짜 비용은 돈보다 인내심이에요. 이미지마다 몇 초가 더 필요하고, 직접 운전하는 경우엔 그게 쌓입니다.

Turbo: 이미지당 $0.005

이미지당 0.5센트는 곱하기 전까지는 사소해 보입니다. 슬라이드 덱을 위한 250개의 빠른 변형 작업에 $1.25가 들었어요. 제품 내에서 기능을 프로토타이핑한다면(테스트 샷이 많은 경우), Turbo가 예산과 CI 파이프라인에 더 친화적입니다.

Z-Image-Base와 Z-Image-Turbo를 순전히 비용으로만 비교하는 건 너무 단순하지만, 구조는 명확합니다. Turbo는 탐색이 저렴하고, Base는 마무리하기에 충분히 저렴합니다. 제게 도움이 됐던 것: 탐색의 80%는 Turbo로 하고, 최종 선택에는 Base로 전환하는 방식이었어요.

결정 트리 선택

금요일쯤 제가 사용하게 된 선택 경로입니다. 보편적인 건 아니고, 저를 차분하고 원활하게 유지해준 방식이에요.

1분 안에 방향이 필요한가? Turbo. 느슨한 프롬프트를 쓰고, CFG를 7~~8로 설정하고, 6~~10개 결과를 빠르게 훑어봅니다.
100% 크롭이나 인쇄에도 살아남는 디테일이 필요한가? Base. 50스텝, CFG 6~9를 유지하고 멀티태스킹 없이 렌더링되도록 합니다.
레퍼런스 이미지를 가이드 레일(각도, 조명, 비율 매칭)로 사용하는가? Turbo. 더 긴밀하게 따릅니다.
레퍼런스를 무드(컬러, 분위기, 대략적인 레이아웃)로 사용하는가? Base. 숨 쉴 공간을 남겨둡니다.
이미지 내 텍스트가 중요한가? Base. 그래도 나중에 실제 텍스트를 추가합니다.
비용이나 할당량 제한이 있고 안전한 변형이 많이 필요한가? Turbo. 예산에 부담이 적고 버리기 쉽습니다.
섬세한 네거티브(다른 것을 흐리게 하지 않고 하나만 제거)로 반복 작업하는가? Base. 더 부드럽게 뺍니다.

Z-Image-Base와 Z-Image-Turbo에 대한 한눈에 볼 수 있는 규칙을 원한다면: Turbo는 찾기용이고, Base는 지키기용입니다. 항상 그렇진 않지만, 충분히 자주 그래서 믿을 수 있습니다.

마지막 작은 관찰: 속도는 저를 일찍 결정하도록 유혹합니다. 품질은 두 번 보도록 초대합니다. 어떤 날은 밀어붙임이 필요하고, 어떤 날은 멈춤이 필요해요. 당신의 작업은 한쪽으로 기울어져 있을 수 있습니다. 중간 어딘가라면, Turbo로 스케치를 시작하고 Base로 마무리하세요.