Z-Image CFG 설정 가이드: 과채도 및 노출 과다 문제 방지
Z-Image-Base CFG(guidance_scale)의 최적 설정: 권장 범위는 3.5~6입니다. CFG가 과도하면 과채도 문제가 발생합니다. 스타일에 따라 CFG 권장값이 다릅니다.
이번 주, 저는 계속해서 뭔가 좀… 요란한 느낌의 이미지를 얻고 있었습니다. 색상이 과하고, 하이라이트가 날아가고, 피사체는 맞아도 분위기가 프롬프트와 맞지 않았습니다. 그 작은 불편함이 저를 커피 한 잔 들고 앉아서, Z-Image-Base로 조용히 테스트를 돌리게 만들었어요. 같은 프롬프트, 같은 시드, 다른 CFG 값들로, 패턴이 손에 익을 때까지요.
저는 Dora입니다. 이 Z-Image CFG 설정 가이드는 그 테스트들의 결과물이자, 이전에 디퓨전 모델을 사용하면서 쌓아온 메모들의 집약입니다. 어떤 설정을 강요하려는 게 아닙니다. 저에게 무엇이 달라졌는지, 그게 왜 그런지, 그리고 어디서 작은 조정이 작업을 더 가볍게 만드는지 보여드리려는 겁니다.

CFG란 무엇인가
이미지 생성에 대한 CFG의 영향
Classifier-Free Guidance(CFG)는 모델이 프롬프트를 얼마나 강하게 따를지, 아니면 자체적으로 학습된 사전 지식을 따를지를 결정하는 다이얼입니다. CFG가 낮으면 모델이 자유롭게 흘러가고, 높으면 당신의 텍스트에 더 가깝게 당겨집니다. 실제로 사용해보면 들리는 것만큼 신비롭지 않습니다. 저는 이걸 감독이 배우에게 지시를 주는 것처럼 생각합니다: “더 자유롭게” 혹은 “대본대로 해.”
동일한 프롬프트(“부드러운 아침 햇살, 나무 책상 위의 세라믹 머그, 얕은 심도”)로 CFG를 1에서 9까지 쭉 테스트했을 때, 변화는 일관되게 나타났습니다:
- 낮은 CFG (1–3): 더 분위기 있는 변주, 부드러운 대비, 더 예상치 못한 질감. 때때로 머그가 석기 재질이 되거나 빛이 더 차갑게 기울었습니다. 틀린 건 아니고, 그냥 해석적인 거죠.
- 중간 CFG (3.5–6): 이미지가 안정되고, 구도가 유지되며, 세부 사항이 프롬프트와 일치하면서도 경직되지 않았습니다. 이 구간에서 어깨가 내려갔습니다.
- 높은 CFG (7+): 피사체 준수도는 높게 유지됐지만, 색 채도와 미세 대비가 급격히 올라갔습니다. 하이라이트가 더 자주 클리핑됐습니다. 처음엔 강렬해 보이다가, 그 다음엔 피로해졌습니다.
공식적인 근거를 원한다면, Jonathan Ho와 Tim Salimans의 Classifier-Free Guidance 원본 논문이 그 메커니즘을 설명합니다: CFG는 샘플 충실도와 다양성을 조율하기 위해 조건부 예측과 비조건부 예측 사이의 차이를 스케일링합니다.

CFG 값과 프롬프트 준수도의 관계
CFG가 높을수록 프롬프트 준수도는 높아지지만, 트레이드오프가 있습니다:
- 모호한 프롬프트를 고쳐주지 않습니다. CFG 8에서의 흐릿한 프롬프트는 여전히 흐릿하고, 그냥 더 요란할 뿐입니다.
- 스타일과 싸우는 문자주의적 표현을 강요할 수 있습니다. 높은 가이던스에서는, 제가 요청하지 않았는데도 “광택” 느낌이 스며드는 걸 봤습니다. 마치 모델이 과도하게 발음을 또렷이 하는 것처럼요.
- 네거티브 프롬프트와 상호작용합니다. “하이라이트 날림 없음, 과채도 없음”이 높은 CFG를 약간 완충해줬지만, 그냥 다이얼을 낮추는 것만큼 효과적이지는 않았습니다.
제 결론: CFG는 좋은 프롬프트를 “조율”하는 데 사용하세요, 빈약한 프롬프트를 살리는 데가 아니라. 스위트 스팟은 보통 색상과 조명이 연극적으로 변하지 않으면서 준수도가 올라가는 지점입니다.
Z-Image-Base CFG의 권장 범위

낮은 CFG (1–3): 더 랜덤하고, 더 창의적
Z-Image-Base에서 CFG 2로 작업했을 때, 필름 감성의 부드러운 결과물이 나왔습니다. 엣지가 덜 날카롭고, 작은 아티팩트가 플라스틱 광택이 아닌 그레인으로 녹아들었습니다. 이 범위가 도움이 됐던 경우:
- 분위기 중심의 장면: 안개, 황혼, 보케, 수채화풍 렌더링.
- 초기 아이디어 탐색: 정밀함이 아닌 가능성을 원했습니다. 낮은 CFG는 하나의 시드에서 세 가지 믿음직한 방향을 제시해줬습니다.
부딪힌 한계:
- 구도 이탈: 소품들이 흘러다니고, 프레이밍이 바뀌고, 손이 흔들렸습니다.
- 프롬프트에서 요구한 세부 사항(브랜드, 물체 수량)이 미끄러졌습니다.
무드 보드를 만들거나 시각적 언어를 탐색하는 중이라면, 낮은 CFG는 부드럽고 생성적입니다. 브리핑에 맞춰야 하는 마감이 있다면, 아마 너무 느슨할 겁니다.
중간 CFG (3.5–6): 균형점 (4.5 권장)
이것이 제 테스트에서 가장 신뢰할 수 있는 구간이었습니다. 4.5에서 Z-Image-Base는 광택 없이 협조적인 느낌이었습니다. 현장 메모 몇 가지:
- 색상이 안정됐습니다. 피부 톤이 네온으로 기울지 않았습니다. 나무가 래커가 아닌 나무처럼 보였습니다.
- 조명이 표현력 있게 유지되면서 날아가지 않았습니다. 흰 셔츠가 질감을 유지했습니다.
- 프롬프트가 형태를 유지했습니다: “컵 두 개”를 요청하면 대부분 두 개가 나왔습니다.
4.5를 시작점으로 권장하는 이유:
- 스타일의 여지를 남기면서 프롬프트의 의도를 포착했습니다.
- 작은 네거티브 프롬프트와 잘 어울렸습니다 (예: “과채도, 플라스틱 광택”).
- 프롬프트당 여섯 개의 시드에 걸쳐 변주가 혼란스럽지 않고 유용하게 유지됐습니다.
예외 케이스:
- 매우 기술적인 제품 렌더는 때때로 엣지를 잡기 위해 조금 더 높은 값 (5–5.5)을 원했습니다.
- 회화적 질감은 여기서도 괜찮았지만, 3.5–4에서 더 잘 피어나는 경우도 있었습니다.
높은 CFG (7+): 과채도의 위험
7–9까지 밀어붙여서 어디서 망가지는지 봤습니다. 망가지지는 않았지만, 소리를 질렀습니다.
- 채도가 썸네일에서 눈에 띄는 방식으로 올라갔다가 맥락 안에서는 피로해졌습니다.
- 정반사 하이라이트가 거칠어졌습니다. 금속은 번쩍였고, 피부는 밀랍 같아졌습니다.
- 평탄한 영역에 노이즈 패턴이 나타났습니다. 마치 모델이 너무 힘을 주는 것처럼요.
높은 CFG를 사용할 만한 경우가 있을까요? 몇 가지는 있습니다:
- 뉘앙스보다 강렬한 인상이 중요한 썸네일용 에셋.
- 포스트에서 색상을 잡고 노출을 잘 관리한다면, 타이트한 브랜드 제약이 있을 때.
하지만 “플라스틱 효과”나 교정하기 어려운 밝은 번짐이 생긴다면, 수정을 덧붙이기 전에 값을 낮추세요. 제 테스트에서, 7.5에서 5로 낮추는 것이 어떤 네거티브 프롬프트 목록보다 많은 문제를 해결했습니다.
일반적인 문제 진단
이미지 과채도 / 지나치게 밝은 색상
제가 본 것: 빨강과 청록이 튀어나오고, 그라데이션에 밴딩이 생기고, 전체 이미지가 HDR에 가까운 느낌이 됐습니다.
예상 원인: CFG가 너무 강하게 밀어붙이고, 때로는 대비가 강한 샘플러와 결합됩니다.
도움이 됐던 것:
- 먼저 CFG를 1–2 포인트 낮추세요. 단순한 승리입니다.
- 가벼운 네거티브 추가: “oversaturated, color clipping.” CFG 변경을 대체하지는 못했지만, 약간의 도움은 됐습니다.
- 가능하다면 대비가 강한 후처리를 줄이거나, 미드톤을 더 잘 보존하는 샘플러로 전환하세요.
작업과의 연결: 에셋이 페이지 위의 실제 사진 옆에 더 잘 어울리기 시작했습니다. 포스트에서 색상과 씨름하는 일이 줄었습니다.
이미지 과노출 / 하이라이트 날림
제가 본 것: 흰 셔츠가 직물감을 잃고, 창문이 포털처럼 빛났습니다. 히스토그램이 오른쪽에 뭉쳤습니다.
예상 원인: 높은 CFG에 제약 없이 “밝은” 또는 “햇빛” 관련 프롬프트가 더해진 경우.
도움이 됐던 것:
- CFG를 4–5 범위로 낮추세요.
- 구체적으로 명시하세요: “부드러운 확산광,” “하이라이트 디테일 유지,” 또는 “하이라이트 날림 없음.”
- 프롬프트를 통해 노출을 조정하세요 (“흐린 날”이 예상보다 더 효과적이었습니다). 툴이 허용한다면, 가이던스만으로 싸우는 대신 다른 곳에서 노출/대비를 약간 줄이세요.
결과: 정반사 하이라이트는 유지됐지만 질감이 살아났습니다. 이미지가 쇼룸 렌더보다 카메라에 가깝게 읽혔습니다.
디테일 손실 / 플라스틱 효과
제가 본 것: 피부가 밀랍처럼 보이고, 패브릭이 부드러운 그라데이션이 되고, 미세 질감이 사라졌습니다.
예상 원인: 높은 CFG와 “광택,” “시네마틱 라이팅,” “울트라 디테일”과 같은 스타일 용어의 조합 — 역설적으로 표면을 평탄하게 만드는.
도움이 됐던 것:
- CFG를 ~4.5로 낮추세요.
- “ultra-detailed”를 구체적인 질감 단서로 대체하세요: “fine linen weave,” “subtle pores,” “matte finish.”
- “plastic, waxy, airbrushed” 같은 네거티브를 추가하세요.
실제로: 첫 번째 시도에서 시간을 절약해주지는 않았지만, 몇 장의 이미지를 거치면서 정신적 노력이 줄어드는 걸 느꼈습니다. 재생성 횟수 감소. “왜 이게 가짜처럼 보이지?” 하는 순간들 감소.
다양한 스타일에 대한 CFG 제안
사실적인 사진: CFG 4–5
포토리얼 프롬프트의 경우, 4–5가 “설정하고 잊어버리기”에 가장 가까웠습니다. 이 범위를 인물 사진, 책상 씬, 간단한 음식 사진에 사용했습니다. 4.5에서 피부 질감이 유지되고, 그림자가 뭉개지지 않았으며, 렌즈감이 자연스러웠습니다.
유용한 조정:
- 조명을 사람처럼 묘사하세요: “창문 빛, 북향, 흐린 날.”
- 작은 네거티브 사용: “oversaturated, plastic skin.”
- 구도 용어는 단순하게: “35mm, f/2.8, 허리까지.” 지나치게 화려한 프롬프트는 스타일을 너무 강하게 밀어붙여 사실감과 충돌했습니다.
누구에게 맞는가: 생성된 이미지를 실제 사진과 혼합하는 마케터와 크리에이터. 브랜드 페이지에 튀지 않고 자연스럽게 들어맞습니다.
일러스트레이션 스타일: CFG 5–7
일러스트레이션은 좀 더 많은 가이던스를 선호했습니다. 5.5–6.5에서 선이 잘 유지되고, 팔레트가 네온으로 변하지 않으면서 의도적으로 보였습니다.
유용한 조정:
- 매체에 대해 구체적으로: “과슈 워시,” “잉크 라인,” “스크린프린트 텍스처.” 그러면 가이던스가 그 아이디어에 고정됩니다.
- 색상이 너무 강하면 CFG를 낮추고 팔레트 단서를 고정하세요 (“muted earth tones,” “limited palette”).
- 컨셉 시트의 경우, 프레임 간 변주를 장려하기 위해 3.5까지 낮추세요.
누구에게 맞는가: 앱, 문서, 교육 자료 등 일관된 시각 시스템을 구축하는 팀 — 포토리얼 기법보다 스타일 일관성이 중요한 경우.
CFG와 다른 파라미터의 협력
CFG는 혼자 작동하지 않습니다. 저에게 계속 나타났던 몇 가지 상호작용:
- 샘플러와 스텝: 스텝이 많아지면 높은 CFG 아티팩트가 약간 부드러워졌지만, 추가 시간을 정당화할 만큼은 아니었습니다. 스텝을 올리는 것보다 CFG를 낮추는 것에서 더 나은 결과를 얻었습니다.
- 해상도: 높은 CFG에서 업사이징을 하면 플라스틱 광택이 과장됐습니다. 큰 출력물이 필요할 때는 CFG를 중간 수준(≈4.5)으로 유지하고 디테일은 별도의 업스케일러에 맡겼습니다.
- 네거티브 프롬프트: 이건 양념이지 구조대가 아닙니다. 작고 타겟팅된 목록이 가장 잘 작동했습니다: “oversaturated, waxy skin, blown highlights.” 긴 목록은 이미지를 둔하게 만들었습니다.
- 스타일 토큰: “studio strobe, glossy magazine” 같은 강한 스타일 단서를 포함하면, 높은 CFG의 펀치가 증폭될 것을 예상하세요. 스타일 언어를 부드럽게 하거나 CFG를 낮추세요.
- 시드와 변주: 4.5에서 세 개의 시드를 돌리는 것이 7에서 하나의 시드보다 더 많은 사용 가능한 옵션을 줬습니다. 전자는 선택처럼 느껴졌고, 후자는 교정처럼 느껴졌습니다.
더 깊은 이유를 원한다면, 디퓨전 모델의 Classifier-Free Guidance 방식은 효과적으로 조건부 예측과 비조건부 예측 사이의 차이를 스케일링합니다. 너무 밀어붙이면 신호만이 아니라 노이즈와 고대비 표현으로의 편향도 증폭됩니다. 좋은 참고 자료: Classifier-Free Guidance 원본 논문과 Diffusers의 guidance_scale 노트. 이것들은 제가 관찰한 것과 일치합니다 — 가이던스를 강제하는 데가 아닌 방향을 잡는 데 사용하세요.
이 모든 것은 제가 지금 따르는 작은 실천으로 귀결됩니다: CFG 4.5에서 시작해서, 시드 두 개를 돌리고, 무엇이 문제인지 말할 수 있을 때만 (너무 밝다, 너무 광택 있다, 너무 모호하다) 다이얼을 움직입니다. 조용한 작업이지만, 나중에 모델과 씨름하는 것을 막아줍니다. 이것을 워크플로우나 API 파이프라인에 연결하고 있다면, 이 짧은 Z-Image-Base API 가이드가 guidance_scale의 위치와 깔끔하게 전달하는 방법을 보여줍니다.





