← 블로그

Z-Image CFG 설정 가이드: 과채도 및 노출 과다 문제 방지

Z-Image-Base CFG(guidance_scale)의 최적 설정: 권장 범위는 3.5~6입니다. CFG가 과도하면 과채도 문제가 발생합니다. 스타일에 따라 CFG 권장값이 다릅니다.

7 min read
Z-Image CFG 설정 가이드: 과채도 및 노출 과다 문제 방지

이번 주, 저는 계속해서 뭔가 좀… 요란한 느낌의 이미지를 얻고 있었습니다. 색상이 과하고, 하이라이트가 날아가고, 피사체는 맞아도 분위기가 프롬프트와 맞지 않았습니다. 그 작은 불편함이 저를 커피 한 잔 들고 앉아서, Z-Image-Base로 조용히 테스트를 돌리게 만들었어요. 같은 프롬프트, 같은 시드, 다른 CFG 값들로, 패턴이 손에 익을 때까지요.

저는 Dora입니다. 이 Z-Image CFG 설정 가이드는 그 테스트들의 결과물이자, 이전에 디퓨전 모델을 사용하면서 쌓아온 메모들의 집약입니다. 어떤 설정을 강요하려는 게 아닙니다. 저에게 무엇이 달라졌는지, 그게 왜 그런지, 그리고 어디서 작은 조정이 작업을 더 가볍게 만드는지 보여드리려는 겁니다.

CFG란 무엇인가

이미지 생성에 대한 CFG의 영향

Classifier-Free Guidance(CFG)는 모델이 프롬프트를 얼마나 강하게 따를지, 아니면 자체적으로 학습된 사전 지식을 따를지를 결정하는 다이얼입니다. CFG가 낮으면 모델이 자유롭게 흘러가고, 높으면 당신의 텍스트에 더 가깝게 당겨집니다. 실제로 사용해보면 들리는 것만큼 신비롭지 않습니다. 저는 이걸 감독이 배우에게 지시를 주는 것처럼 생각합니다: “더 자유롭게” 혹은 “대본대로 해.”

동일한 프롬프트(“부드러운 아침 햇살, 나무 책상 위의 세라믹 머그, 얕은 심도”)로 CFG를 1에서 9까지 쭉 테스트했을 때, 변화는 일관되게 나타났습니다:

  • 낮은 CFG (1–3): 더 분위기 있는 변주, 부드러운 대비, 더 예상치 못한 질감. 때때로 머그가 석기 재질이 되거나 빛이 더 차갑게 기울었습니다. 틀린 건 아니고, 그냥 해석적인 거죠.
  • 중간 CFG (3.5–6): 이미지가 안정되고, 구도가 유지되며, 세부 사항이 프롬프트와 일치하면서도 경직되지 않았습니다. 이 구간에서 어깨가 내려갔습니다.
  • 높은 CFG (7+): 피사체 준수도는 높게 유지됐지만, 색 채도와 미세 대비가 급격히 올라갔습니다. 하이라이트가 더 자주 클리핑됐습니다. 처음엔 강렬해 보이다가, 그 다음엔 피로해졌습니다.

공식적인 근거를 원한다면, Jonathan Ho와 Tim Salimans의 Classifier-Free Guidance 원본 논문이 그 메커니즘을 설명합니다: CFG는 샘플 충실도와 다양성을 조율하기 위해 조건부 예측과 비조건부 예측 사이의 차이를 스케일링합니다.

CFG 값과 프롬프트 준수도의 관계

CFG가 높을수록 프롬프트 준수도는 높아지지만, 트레이드오프가 있습니다:

  • 모호한 프롬프트를 고쳐주지 않습니다. CFG 8에서의 흐릿한 프롬프트는 여전히 흐릿하고, 그냥 더 요란할 뿐입니다.
  • 스타일과 싸우는 문자주의적 표현을 강요할 수 있습니다. 높은 가이던스에서는, 제가 요청하지 않았는데도 “광택” 느낌이 스며드는 걸 봤습니다. 마치 모델이 과도하게 발음을 또렷이 하는 것처럼요.
  • 네거티브 프롬프트와 상호작용합니다. “하이라이트 날림 없음, 과채도 없음”이 높은 CFG를 약간 완충해줬지만, 그냥 다이얼을 낮추는 것만큼 효과적이지는 않았습니다.

제 결론: CFG는 좋은 프롬프트를 “조율”하는 데 사용하세요, 빈약한 프롬프트를 살리는 데가 아니라. 스위트 스팟은 보통 색상과 조명이 연극적으로 변하지 않으면서 준수도가 올라가는 지점입니다.

Z-Image-Base CFG의 권장 범위

낮은 CFG (1–3): 더 랜덤하고, 더 창의적

Z-Image-Base에서 CFG 2로 작업했을 때, 필름 감성의 부드러운 결과물이 나왔습니다. 엣지가 덜 날카롭고, 작은 아티팩트가 플라스틱 광택이 아닌 그레인으로 녹아들었습니다. 이 범위가 도움이 됐던 경우:

  • 분위기 중심의 장면: 안개, 황혼, 보케, 수채화풍 렌더링.
  • 초기 아이디어 탐색: 정밀함이 아닌 가능성을 원했습니다. 낮은 CFG는 하나의 시드에서 세 가지 믿음직한 방향을 제시해줬습니다.

부딪힌 한계:

  • 구도 이탈: 소품들이 흘러다니고, 프레이밍이 바뀌고, 손이 흔들렸습니다.
  • 프롬프트에서 요구한 세부 사항(브랜드, 물체 수량)이 미끄러졌습니다.

무드 보드를 만들거나 시각적 언어를 탐색하는 중이라면, 낮은 CFG는 부드럽고 생성적입니다. 브리핑에 맞춰야 하는 마감이 있다면, 아마 너무 느슨할 겁니다.

중간 CFG (3.5–6): 균형점 (4.5 권장)

이것이 제 테스트에서 가장 신뢰할 수 있는 구간이었습니다. 4.5에서 Z-Image-Base는 광택 없이 협조적인 느낌이었습니다. 현장 메모 몇 가지:

  • 색상이 안정됐습니다. 피부 톤이 네온으로 기울지 않았습니다. 나무가 래커가 아닌 나무처럼 보였습니다.
  • 조명이 표현력 있게 유지되면서 날아가지 않았습니다. 흰 셔츠가 질감을 유지했습니다.
  • 프롬프트가 형태를 유지했습니다: “컵 두 개”를 요청하면 대부분 두 개가 나왔습니다.

4.5를 시작점으로 권장하는 이유:

  • 스타일의 여지를 남기면서 프롬프트의 의도를 포착했습니다.
  • 작은 네거티브 프롬프트와 잘 어울렸습니다 (예: “과채도, 플라스틱 광택”).
  • 프롬프트당 여섯 개의 시드에 걸쳐 변주가 혼란스럽지 않고 유용하게 유지됐습니다.

예외 케이스:

  • 매우 기술적인 제품 렌더는 때때로 엣지를 잡기 위해 조금 더 높은 값 (5–5.5)을 원했습니다.
  • 회화적 질감은 여기서도 괜찮았지만, 3.5–4에서 더 잘 피어나는 경우도 있었습니다.

높은 CFG (7+): 과채도의 위험

7–9까지 밀어붙여서 어디서 망가지는지 봤습니다. 망가지지는 않았지만, 소리를 질렀습니다.

  • 채도가 썸네일에서 눈에 띄는 방식으로 올라갔다가 맥락 안에서는 피로해졌습니다.
  • 정반사 하이라이트가 거칠어졌습니다. 금속은 번쩍였고, 피부는 밀랍 같아졌습니다.
  • 평탄한 영역에 노이즈 패턴이 나타났습니다. 마치 모델이 너무 힘을 주는 것처럼요.

높은 CFG를 사용할 만한 경우가 있을까요? 몇 가지는 있습니다:

  • 뉘앙스보다 강렬한 인상이 중요한 썸네일용 에셋.
  • 포스트에서 색상을 잡고 노출을 잘 관리한다면, 타이트한 브랜드 제약이 있을 때.

하지만 “플라스틱 효과”나 교정하기 어려운 밝은 번짐이 생긴다면, 수정을 덧붙이기 전에 값을 낮추세요. 제 테스트에서, 7.5에서 5로 낮추는 것이 어떤 네거티브 프롬프트 목록보다 많은 문제를 해결했습니다.

일반적인 문제 진단

이미지 과채도 / 지나치게 밝은 색상

제가 본 것: 빨강과 청록이 튀어나오고, 그라데이션에 밴딩이 생기고, 전체 이미지가 HDR에 가까운 느낌이 됐습니다.

예상 원인: CFG가 너무 강하게 밀어붙이고, 때로는 대비가 강한 샘플러와 결합됩니다.

도움이 됐던 것:

  • 먼저 CFG를 1–2 포인트 낮추세요. 단순한 승리입니다.
  • 가벼운 네거티브 추가: “oversaturated, color clipping.” CFG 변경을 대체하지는 못했지만, 약간의 도움은 됐습니다.
  • 가능하다면 대비가 강한 후처리를 줄이거나, 미드톤을 더 잘 보존하는 샘플러로 전환하세요.

작업과의 연결: 에셋이 페이지 위의 실제 사진 옆에 더 잘 어울리기 시작했습니다. 포스트에서 색상과 씨름하는 일이 줄었습니다.

이미지 과노출 / 하이라이트 날림

제가 본 것: 흰 셔츠가 직물감을 잃고, 창문이 포털처럼 빛났습니다. 히스토그램이 오른쪽에 뭉쳤습니다.

예상 원인: 높은 CFG에 제약 없이 “밝은” 또는 “햇빛” 관련 프롬프트가 더해진 경우.

도움이 됐던 것:

  • CFG를 4–5 범위로 낮추세요.
  • 구체적으로 명시하세요: “부드러운 확산광,” “하이라이트 디테일 유지,” 또는 “하이라이트 날림 없음.”
  • 프롬프트를 통해 노출을 조정하세요 (“흐린 날”이 예상보다 더 효과적이었습니다). 툴이 허용한다면, 가이던스만으로 싸우는 대신 다른 곳에서 노출/대비를 약간 줄이세요.

결과: 정반사 하이라이트는 유지됐지만 질감이 살아났습니다. 이미지가 쇼룸 렌더보다 카메라에 가깝게 읽혔습니다.

디테일 손실 / 플라스틱 효과

제가 본 것: 피부가 밀랍처럼 보이고, 패브릭이 부드러운 그라데이션이 되고, 미세 질감이 사라졌습니다.

예상 원인: 높은 CFG와 “광택,” “시네마틱 라이팅,” “울트라 디테일”과 같은 스타일 용어의 조합 — 역설적으로 표면을 평탄하게 만드는.

도움이 됐던 것:

  • CFG를 ~4.5로 낮추세요.
  • “ultra-detailed”를 구체적인 질감 단서로 대체하세요: “fine linen weave,” “subtle pores,” “matte finish.”
  • “plastic, waxy, airbrushed” 같은 네거티브를 추가하세요.

실제로: 첫 번째 시도에서 시간을 절약해주지는 않았지만, 몇 장의 이미지를 거치면서 정신적 노력이 줄어드는 걸 느꼈습니다. 재생성 횟수 감소. “왜 이게 가짜처럼 보이지?” 하는 순간들 감소.

다양한 스타일에 대한 CFG 제안

사실적인 사진: CFG 4–5

포토리얼 프롬프트의 경우, 4–5가 “설정하고 잊어버리기”에 가장 가까웠습니다. 이 범위를 인물 사진, 책상 씬, 간단한 음식 사진에 사용했습니다. 4.5에서 피부 질감이 유지되고, 그림자가 뭉개지지 않았으며, 렌즈감이 자연스러웠습니다.

유용한 조정:

  • 조명을 사람처럼 묘사하세요: “창문 빛, 북향, 흐린 날.”
  • 작은 네거티브 사용: “oversaturated, plastic skin.”
  • 구도 용어는 단순하게: “35mm, f/2.8, 허리까지.” 지나치게 화려한 프롬프트는 스타일을 너무 강하게 밀어붙여 사실감과 충돌했습니다.

누구에게 맞는가: 생성된 이미지를 실제 사진과 혼합하는 마케터와 크리에이터. 브랜드 페이지에 튀지 않고 자연스럽게 들어맞습니다.

일러스트레이션 스타일: CFG 5–7

일러스트레이션은 좀 더 많은 가이던스를 선호했습니다. 5.5–6.5에서 선이 잘 유지되고, 팔레트가 네온으로 변하지 않으면서 의도적으로 보였습니다.

유용한 조정:

  • 매체에 대해 구체적으로: “과슈 워시,” “잉크 라인,” “스크린프린트 텍스처.” 그러면 가이던스가 그 아이디어에 고정됩니다.
  • 색상이 너무 강하면 CFG를 낮추고 팔레트 단서를 고정하세요 (“muted earth tones,” “limited palette”).
  • 컨셉 시트의 경우, 프레임 간 변주를 장려하기 위해 3.5까지 낮추세요.

누구에게 맞는가: 앱, 문서, 교육 자료 등 일관된 시각 시스템을 구축하는 팀 — 포토리얼 기법보다 스타일 일관성이 중요한 경우.

CFG와 다른 파라미터의 협력

CFG는 혼자 작동하지 않습니다. 저에게 계속 나타났던 몇 가지 상호작용:

  • 샘플러와 스텝: 스텝이 많아지면 높은 CFG 아티팩트가 약간 부드러워졌지만, 추가 시간을 정당화할 만큼은 아니었습니다. 스텝을 올리는 것보다 CFG를 낮추는 것에서 더 나은 결과를 얻었습니다.
  • 해상도: 높은 CFG에서 업사이징을 하면 플라스틱 광택이 과장됐습니다. 큰 출력물이 필요할 때는 CFG를 중간 수준(≈4.5)으로 유지하고 디테일은 별도의 업스케일러에 맡겼습니다.
  • 네거티브 프롬프트: 이건 양념이지 구조대가 아닙니다. 작고 타겟팅된 목록이 가장 잘 작동했습니다: “oversaturated, waxy skin, blown highlights.” 긴 목록은 이미지를 둔하게 만들었습니다.
  • 스타일 토큰: “studio strobe, glossy magazine” 같은 강한 스타일 단서를 포함하면, 높은 CFG의 펀치가 증폭될 것을 예상하세요. 스타일 언어를 부드럽게 하거나 CFG를 낮추세요.
  • 시드와 변주: 4.5에서 세 개의 시드를 돌리는 것이 7에서 하나의 시드보다 더 많은 사용 가능한 옵션을 줬습니다. 전자는 선택처럼 느껴졌고, 후자는 교정처럼 느껴졌습니다.

더 깊은 이유를 원한다면, 디퓨전 모델의 Classifier-Free Guidance 방식은 효과적으로 조건부 예측과 비조건부 예측 사이의 차이를 스케일링합니다. 너무 밀어붙이면 신호만이 아니라 노이즈와 고대비 표현으로의 편향도 증폭됩니다. 좋은 참고 자료: Classifier-Free Guidance 원본 논문과 Diffusers의 guidance_scale 노트. 이것들은 제가 관찰한 것과 일치합니다 — 가이던스를 강제하는 데가 아닌 방향을 잡는 데 사용하세요.

이 모든 것은 제가 지금 따르는 작은 실천으로 귀결됩니다: CFG 4.5에서 시작해서, 시드 두 개를 돌리고, 무엇이 문제인지 말할 수 있을 때만 (너무 밝다, 너무 광택 있다, 너무 모호하다) 다이얼을 움직입니다. 조용한 작업이지만, 나중에 모델과 씨름하는 것을 막아줍니다. 이것을 워크플로우나 API 파이프라인에 연결하고 있다면, 이 짧은 Z-Image-Base API 가이드가 guidance_scale의 위치와 깔끔하게 전달하는 방법을 보여줍니다.