← Blog

Real-ESRGAN Dijelaskan: Cara Kerjanya dan Kapan Menggunakannya

Real-ESRGAN dijelaskan: cara kerja model, kegunaannya, cara memulai, dan kapan menggunakannya dibanding alternatif lain. Sebuah tinjauan lengkap.

8 min read
Real-ESRGAN Dijelaskan: Cara Kerjanya dan Kapan Menggunakannya

Hei, ini Dora!Hari ini kita akan membahas Real-ESRGAN. Pertama kali saya memperhatikan Real-ESRGAN pada akhir 2022 ketika saya terus melihatnya muncul di catatan proyek dan bintang GitHub untuk tugas upscaling yang sederhana dan praktis. Saya tidak mencari demo yang mencolok, saya menginginkan sesuatu yang bisa diam-diam membuat screenshot beresolusi rendah, foto lama, dan thumbnail yang terkompresi menjadi lebih layak digunakan tanpa banyak pengaturan. Saya telah menghabiskan waktu menjalankannya pada build desktop dan klip video pendek, dan inilah yang kini saya gunakan ketika membutuhkan upscaler open-source yang jujur dan toleran terhadap input yang berantakan.

Apa sebenarnya Real-ESRGAN itu

Enhanced Super-Resolution GAN, apa artinya

Real-ESRGAN adalah singkatan dari “Enhanced Super-Resolution Generative Adversarial Network.” Pada intinya, ini adalah model neural yang dilatih untuk memprediksi gambar beresolusi lebih tinggi dari input beresolusi rendah. Bagian “enhanced” itu penting: para pengembangnya membangun di atas karya ESRGAN sebelumnya tetapi berfokus pada membuat model yang tahan terhadap degradasi dunia nyata, artefak kompresi, noise, blur, bukan hanya foto yang didownsample secara artifisial.

Saya suka memikirkannya sebagai upscaler yang mengutamakan restorasi. Alih-alih mengasumsikan setiap gambar beresolusi rendah adalah versi bersih yang didownsample dengan sempurna dari aslinya yang beresolusi tinggi, model ini mengharapkan input yang berantakan. Ekspektasi tersebut membentuk cara pelatihannya dan cara kerjanya dalam praktik.

Mengapa menjadi upscaler open-source andalan

Yang membuat Real-ESRGAN bertahan bagi saya adalah keseimbangannya. Ini bukan model yang paling mewah tampilannya, tetapi praktis: tersedia sebagai kode, dikemas dalam build komunitas, dan relatif ringan untuk dijalankan dibandingkan dengan beberapa model penelitian. Dari pengujian saya, tiga hal yang menonjol: default yang masuk akal, komunitas model yang dikelola (termasuk varian yang dilatih untuk wajah atau anime), dan hasil yang dapat diprediksi di berbagai gambar yang terdegradasi.

Dapat diprediksi itu sangat diremehkan. Ketika Anda sedang mengejar tenggat waktu konten, alat yang berperilaku konsisten lebih baik daripada yang sesekali memukau.

Yang mengejutkan saya sesaat adalah betapa seringnya satu kali pemrosesan sudah “cukup baik” untuk posting media sosial atau draf, menghemat waktu bolak-balik ke editor yang lebih berat.

Cara kerja Real-ESRGAN

Pipeline degradasi dijelaskan secara sederhana

Melatih model untuk memulihkan gambar memerlukan contoh-contoh. Real-ESRGAN menggunakan pipeline degradasi untuk membuat contoh-contoh tersebut: dimulai dari gambar beresolusi tinggi yang bersih, kemudian menerapkan campuran blur, noise, kompresi JPEG, dan downsampling, seringkali dalam urutan acak. Model kemudian belajar untuk membalikkan proses tersebut: diberikan gambar yang terdegradasi, prediksi versi yang lebih bersih dan beresolusi lebih tinggi.

Saya menyukai metafora pipeline ini: mereka tidak hanya memperkecil gambar secara seragam. Mereka mensimulasikan jenis kerusakan yang terlihat pada screenshot, scan lama, atau foto ponsel yang diambil dalam kondisi cahaya buruk. Variasi itulah mengapa model ini lebih baik digeneralisasikan ke input nyata.

Mengapa lebih baik menangani noise dunia nyata dibanding pendahulunya

Model super-resolusi sebelumnya mengasumsikan langkah downsampling sederhana yang sama untuk pelatihan. Itu membuat mereka rapuh: bagus pada data uji yang ideal, lemah dengan noise nyata. Set pelatihan Real-ESRGAN dengan sengaja mencampur distorsi. Dalam praktiknya, itu berarti lebih toleran terhadap JPEG yang berpiksel, chroma noise, dan motion blur. Ini bukan sihir: terkadang ia menciptakan tekstur di mana tidak ada. Namun demikian, cenderung menghasilkan lebih sedikit artefak yang jelas dan detail yang lebih masuk akal dibandingkan model yang hanya dilatih pada downsampling bersih.

Untuk apa Real-ESRGAN paling baik digunakan

Kasus penggunaan upscaling gambar

Saya menggunakan Real-ESRGAN untuk perbaikan cepat: membuat foto produk kecil lebih terbaca, meningkatkan screenshot untuk dokumentasi, dan memulihkan foto keluarga lama sebelum pengeditan yang lebih mendalam. Ini sangat berguna ketika Anda membutuhkan detail yang lebih baik tanpa menghabiskan waktu pada pengurangan noise secara manual.

Dalam alur kerja saya, pemrosesan 2x–4x sering kali menghilangkan hambatan visual, teks menjadi terbaca, wajah terlihat lebih baik, dan tepi yang terkompresi melunak dengan cara yang berguna.

Kasus penggunaan upscaling video

Saya juga menggunakan Real-ESRGAN untuk klip video pendek dan GIF. Ini bukan model temporal yang didedikasikan, tetapi upscaling frame-by-frame bisa berhasil ketika Anda tidak membutuhkan koherensi frame yang sempurna. Untuk klip pendek, highlight livestream, atau footage arsip di mana beberapa frame jitter dapat diterima, ini adalah solusi yang praktis. Saya biasanya memadukanya dengan pemrosesan stabilisasi frame sederhana untuk mengurangi flicker.

Di mana masih kesulitan

Ini kesulitan dengan tekstur yang halus dan berulang (seperti dedaunan lebat) dan dengan motion blur yang berat. Terkadang akan menghasilkan detail yang terlihat masuk akal tetapi salah. Untuk restorasi sinematik, pelestarian grain film, atau video bentuk panjang di mana konsistensi temporal penting, saya tidak mengandalkan Real-ESRGAN seorang diri.

Cara memulai

Unduh dan instal

Jika Anda lebih suka kontrol lokal, unduh dan instal rilis resmi atau fork komunitas: lihat real-esrgan-download untuk tautan dan paket.

Jalankan melalui API (tidak perlu setup lokal)

Anda juga dapat menggunakan layanan yang dihosting dan API sederhana untuk menjalankan Real-ESRGAN tanpa menginstal apa pun— misalnya di Replicate.. Itulah yang saya lakukan ketika saya membutuhkan pengujian cepat atau ketika GPU laptop saya tidak tersedia. Latensi dan biaya penting di sini: batch kecil murah dan cepat, tetapi menskalakan ratusan gambar mengubah perhitungannya.

Real-ESRGAN vs alternatif

vs Topaz

Topaz cenderung memberikan hasil yang lebih halus dan lebih polesan langsung dari awal, tetapi Real-ESRGAN adalah opsi open-source yang fleksibel dan layak dibandingkan, lihat real-esrgan-vs-topaz untuk perbandingan langsung secara hands-on.

vs upscaler cloud API

Upscaler cloud (API komersial) sering kali menambahkan batching, pemilihan model, dan temporal smoothing untuk video. Mereka bisa lebih konsisten untuk pipeline produksi, dan terkadang menyertakan preset yang dikurasi manusia. Real-ESRGAN, sebaliknya, memberi Anda kontrol dan transparansi: Anda dapat menjalankan varian model tertentu, mengubah parameter, dan melihat bobotnya. Itu penting ketika Anda menginginkan perilaku yang dapat diprediksi dan berulang tanpa ketergantungan pada vendor.

Singkatnya: pilih cloud ketika Anda membutuhkan skala dan dukungan; pilih Real-ESRGAN ketika Anda menginginkan kontrol dan eksperimentasi berbiaya rendah.

Memilih pendekatan yang tepat untuk kasus penggunaan Anda

Bagi saya, pilihannya bermuara pada trade-off. Jika saya memperbaiki segelintir gambar yang berantakan untuk catatan atau posting media sosial, proses lokal Real-ESRGAN cepat, murah, dan cukup baik. Jika saya menyiapkan video panjang atau membutuhkan konsistensi temporal yang ketat, saya cenderung ke alat komersial atau model temporal yang didedikasikan.

Aturan praktis yang saya gunakan: coba Real-ESRGAN terlebih dahulu untuk set sampel. Jika hasilnya terasa konsisten dan artefaknya dapat diterima, pertahankan. Jika Anda membutuhkan fidelitas yang lebih ketat atau khawatir tentang detail yang dihalucinasikan, pertimbangkan upscaler berbayar atau alur kerja dengan bantuan editor.

Saya tidak mengharapkan satu alat untuk menyelesaikan segalanya. Yang lebih penting bagi saya adalah menyesuaikan alat dengan tugas dan menerima ketidaksempurnaan kecil ketika waktu dan anggaran mengharuskannya. Satu pemikiran terakhir: bagian terbaik dari alat open source seperti Real-ESRGAN adalah bahwa ia mengundang iterasi. Saya akan terus menguji varian model baru saat mereka muncul, dan saya menduga Anda juga akan menemukan versi yang sesuai dengan keunikan dan batasan Anda sendiri.

FAQ

Apa itu Real-ESRGAN dan bagaimana cara kerjanya? Real-ESRGAN (Enhanced Super-Resolution Generative Adversarial Network) adalah model jaringan saraf yang dirancang untuk melakukan upscale gambar beresolusi rendah dengan memprediksi versi beresolusi lebih tinggi. Tidak seperti model upscaling tradisional, model ini dilatih untuk menangani noise dunia nyata, artefak kompresi, dan blur, sehingga lebih efektif untuk gambar dunia nyata. Model ini menggunakan pipeline degradasi untuk mensimulasikan distorsi gambar yang umum, memungkinkannya untuk memulihkan dan meningkatkan gambar dengan cara yang lebih praktis dan toleran.

Bagaimana Real-ESRGAN dibandingkan dengan alat upscaling gambar lain seperti Topaz? Topaz biasanya memberikan hasil yang lebih halus dan lebih polesan langsung dari awal, tetapi Real-ESRGAN menawarkan lebih banyak fleksibilitas sebagai alat open-source. Meskipun Topaz mungkin lebih mudah bagi pengguna yang mencari solusi yang sudah dipoles, Real-ESRGAN memberikan transparansi, memungkinkan pengguna untuk mengubah parameter dan memilih varian model tertentu. Ini membuat Real-ESRGAN ideal untuk eksperimentasi dan kontrol, sedangkan Topaz lebih cocok untuk pengguna yang mencari solusi siap pakai dengan pengaturan minimal.

Apa kasus penggunaan terbaik untuk Real-ESRGAN? Real-ESRGAN sangat bagus untuk perbaikan cepat seperti melakukan upscale foto produk kecil, meningkatkan screenshot untuk dokumentasi, dan memulihkan foto keluarga lama. Ini sangat berguna ketika Anda membutuhkan detail yang ditingkatkan tanpa perlu pengurangan noise yang berat. Selain itu, ini bekerja dengan baik untuk upscaling video, terutama untuk klip pendek atau footage arsip, meskipun tidak dirancang untuk konsistensi temporal atau restorasi video bentuk panjang.

Keterbatasan apa yang harus saya perhatikan saat menggunakan Real-ESRGAN? Meskipun Real-ESRGAN menangani noise dan artefak kompresi dengan baik, ia kesulitan dengan tekstur yang halus dan berulang seperti dedaunan lebat dan motion blur yang berat. Dalam beberapa kasus, ia mungkin menghasilkan detail yang terlihat masuk akal tetapi sebenarnya salah. Ini juga kurang cocok untuk restorasi sinematik, pelestarian grain film, dan video yang membutuhkan konsistensi temporal yang ketat, seperti film bentuk panjang.

Bagaimana cara memulai dengan Real-ESRGAN? Anda dapat mengunduh dan menginstal Real-ESRGAN secara lokal, atau menggunakan layanan yang dihosting dan API untuk akses cepat tanpa instalasi. Jika Anda hanya menguji atau tidak memiliki akses ke GPU, layanan berbasis cloud seperti Replicate menawarkan cara mudah untuk menjalankan Real-ESRGAN. Untuk penggunaan skala lebih besar atau pemrosesan batch, Anda mungkin perlu memperhitungkan latensi dan biaya, tetapi fleksibilitas dan kontrol yang ditawarkan oleh Real-ESRGAN menjadikannya pilihan yang bagus untuk eksperimentasi berbiaya rendah.