update

2023-12-24 15:32:27 +08:00
parent 0e5e16ba20
commit 371db2d771
31 changed files with 441 additions and 439 deletions
--- a/lama_cleaner/model/base.py
+++ b/lama_cleaner/model/base.py
@@ -41,7 +41,7 @@ class InpaintModel:
    @staticmethod
    @abc.abstractmethod
    def is_downloaded() -> bool:
-        ...
+        return False

    @abc.abstractmethod
    def forward(self, image, mask, config: Config):
@@ -67,6 +67,8 @@ class InpaintModel:

        logger.info(f"final forward pad size: {pad_image.shape}")

+        image, mask = self.forward_pre_process(image, mask, config)
+
        result = self.forward(pad_image, pad_mask, config)
        result = result[0:origin_height, 0:origin_width, :]

@@ -77,6 +79,9 @@ class InpaintModel:
            result = result * (mask / 255) + image[:, :, ::-1] * (1 - (mask / 255))
        return result

+    def forward_pre_process(self, image, mask, config):
+        return image, mask
+
    def forward_post_process(self, result, image, mask, config):
        return result, image, mask

@@ -400,6 +405,13 @@ class DiffusionInpaintModel(InpaintModel):
        scheduler = get_scheduler(sd_sampler, scheduler_config)
        self.model.scheduler = scheduler

+    def forward_pre_process(self, image, mask, config):
+        if config.sd_mask_blur != 0:
+            k = 2 * config.sd_mask_blur + 1
+            mask = cv2.GaussianBlur(mask, (k, k), 0)[:, :, np.newaxis]
+
+        return image, mask
+
    def forward_post_process(self, result, image, mask, config):
        if config.sd_match_histograms:
            result = self._match_histograms(result, image[:, :, ::-1], mask)
--- a/lama_cleaner/model/controlnet.py
+++ b/lama_cleaner/model/controlnet.py
@@ -17,14 +17,6 @@ from lama_cleaner.model.helper.cpu_text_encoder import CPUTextEncoderWrapper
 from lama_cleaner.model.utils import get_scheduler
 from lama_cleaner.schema import Config, ModelInfo, ModelType

-# 为了兼容性
-controlnet_name_map = {
-    "control_v11p_sd15_canny": "lllyasviel/control_v11p_sd15_canny",
-    "control_v11p_sd15_openpose": "lllyasviel/control_v11p_sd15_openpose",
-    "control_v11p_sd15_inpaint": "lllyasviel/control_v11p_sd15_inpaint",
-    "control_v11f1p_sd15_depth": "lllyasviel/control_v11f1p_sd15_depth",
-}
-

 class ControlNet(DiffusionInpaintModel):
    name = "controlnet"
@@ -49,9 +41,6 @@ class ControlNet(DiffusionInpaintModel):
        fp16 = not kwargs.get("no_half", False)
        model_info: ModelInfo = kwargs["model_info"]
        sd_controlnet_method = kwargs["sd_controlnet_method"]
-        sd_controlnet_method = controlnet_name_map.get(
-            sd_controlnet_method, sd_controlnet_method
-        )

        self.model_info = model_info
        self.sd_controlnet_method = sd_controlnet_method
@@ -113,12 +102,6 @@ class ControlNet(DiffusionInpaintModel):
                **model_kwargs,
            )

-        # https://huggingface.co/docs/diffusers/v0.7.0/en/api/pipelines/stable_diffusion#diffusers.StableDiffusionInpaintPipeline.enable_attention_slicing
-        self.model.enable_attention_slicing()
-        # https://huggingface.co/docs/diffusers/v0.7.0/en/optimization/fp16#memory-efficient-attention
-        if kwargs.get("enable_xformers", False):
-            self.model.enable_xformers_memory_efficient_attention()
-
        if kwargs.get("cpu_offload", False) and use_gpu:
            logger.info("Enable sequential cpu offload")
            self.model.enable_sequential_cpu_offload(gpu_id=0)
@@ -162,10 +145,6 @@ class ControlNet(DiffusionInpaintModel):
        scheduler = get_scheduler(config.sd_sampler, scheduler_config)
        self.model.scheduler = scheduler

-        if config.sd_mask_blur != 0:
-            k = 2 * config.sd_mask_blur + 1
-            mask = cv2.GaussianBlur(mask, (k, k), 0)[:, :, np.newaxis]
-
        img_h, img_w = image.shape[:2]
        control_image = self._get_control_image(image, mask)
        mask_image = PIL.Image.fromarray(mask[:, :, -1], mode="L")
@@ -190,8 +169,3 @@ class ControlNet(DiffusionInpaintModel):
        output = (output * 255).round().astype("uint8")
        output = cv2.cvtColor(output, cv2.COLOR_RGB2BGR)
        return output
-
-    @staticmethod
-    def is_downloaded() -> bool:
-        # model will be downloaded when app start, and can't switch in frontend settings
-        return True
--- a/lama_cleaner/model/instruct_pix2pix.py
+++ b/lama_cleaner/model/instruct_pix2pix.py
@@ -31,30 +31,15 @@ class InstructPix2Pix(DiffusionInpaintModel):
        use_gpu = device == torch.device("cuda") and torch.cuda.is_available()
        torch_dtype = torch.float16 if use_gpu and fp16 else torch.float32
        self.model = StableDiffusionInstructPix2PixPipeline.from_pretrained(
-            "timbrooks/instruct-pix2pix",
-            revision="fp16" if use_gpu and fp16 else "main",
-            torch_dtype=torch_dtype,
-            **model_kwargs
+            self.name, variant="fp16", torch_dtype=torch_dtype, **model_kwargs
        )

-        self.model.enable_attention_slicing()
-        if kwargs.get("enable_xformers", False):
-            self.model.enable_xformers_memory_efficient_attention()
-
        if kwargs.get("cpu_offload", False) and use_gpu:
            logger.info("Enable sequential cpu offload")
            self.model.enable_sequential_cpu_offload(gpu_id=0)
        else:
            self.model = self.model.to(device)

-    @staticmethod
-    def download():
-        from diffusers import StableDiffusionInstructPix2PixPipeline
-
-        StableDiffusionInstructPix2PixPipeline.from_pretrained(
-            "timbrooks/instruct-pix2pix", revision="fp16"
-        )
-
    def forward(self, image, mask, config: Config):
        """Input image and output image have same size
        image: [H, W, C] RGB
@@ -76,8 +61,3 @@ class InstructPix2Pix(DiffusionInpaintModel):
        output = (output * 255).round().astype("uint8")
        output = cv2.cvtColor(output, cv2.COLOR_RGB2BGR)
        return output
-
-    @staticmethod
-    def is_downloaded() -> bool:
-        # model will be downloaded when app start, and can't switch in frontend settings
-        return True
--- a/lama_cleaner/model/kandinsky.py
+++ b/lama_cleaner/model/kandinsky.py
@@ -24,7 +24,7 @@ class Kandinsky(DiffusionInpaintModel):
        }

        self.model = AutoPipelineForInpainting.from_pretrained(
-            self.model_name, **model_kwargs
+            self.model_id_or_path, **model_kwargs
        ).to(device)

        self.callback = kwargs.pop("callback", None)
@@ -40,9 +40,6 @@ class Kandinsky(DiffusionInpaintModel):
        self.model.scheduler = scheduler

        generator = torch.manual_seed(config.sd_seed)
-        if config.sd_mask_blur != 0:
-            k = 2 * config.sd_mask_blur + 1
-            mask = cv2.GaussianBlur(mask, (k, k), 0)[:, :, np.newaxis]
        mask = mask.astype(np.float32) / 255
        img_h, img_w = image.shape[:2]

@@ -66,20 +63,7 @@ class Kandinsky(DiffusionInpaintModel):
        output = cv2.cvtColor(output, cv2.COLOR_RGB2BGR)
        return output

-    @staticmethod
-    def is_downloaded() -> bool:
-        # model will be downloaded when app start, and can't switch in frontend settings
-        return True
-

 class Kandinsky22(Kandinsky):
-    name = "kandinsky-community/kandinsky-2-2-decoder-inpaint"
-    model_name = "kandinsky-community/kandinsky-2-2-decoder-inpaint"
-
-    @staticmethod
-    def download():
-        from diffusers import AutoPipelineForInpainting
-
-        AutoPipelineForInpainting.from_pretrained(
-            "kandinsky-community/kandinsky-2-2-decoder-inpaint"
-        )
+    name = "kandinsky2.2"
+    model_id_or_path = "kandinsky-community/kandinsky-2-2-decoder-inpaint"
--- a/lama_cleaner/model/paint_by_example.py
+++ b/lama_cleaner/model/paint_by_example.py
@@ -31,10 +31,6 @@ class PaintByExample(DiffusionInpaintModel):
            "Fantasy-Studio/Paint-by-Example", torch_dtype=torch_dtype, **model_kwargs
        )

-        self.model.enable_attention_slicing()
-        if kwargs.get("enable_xformers", False):
-            self.model.enable_xformers_memory_efficient_attention()
-
        # TODO: gpu_id
        if kwargs.get("cpu_offload", False) and use_gpu:
            self.model.image_encoder = self.model.image_encoder.to(device)
@@ -68,8 +64,3 @@ class PaintByExample(DiffusionInpaintModel):
        output = (output * 255).round().astype("uint8")
        output = cv2.cvtColor(output, cv2.COLOR_RGB2BGR)
        return output
-
-    @staticmethod
-    def is_downloaded() -> bool:
-        # model will be downloaded when app start, and can't switch in frontend settings
-        return True
--- a/lama_cleaner/model/sd.py
+++ b/lama_cleaner/model/sd.py
@@ -1,8 +1,5 @@
-import os
-
 import PIL.Image
 import cv2
-import numpy as np
 import torch
 from loguru import logger

@@ -49,23 +46,12 @@ class SD(DiffusionInpaintModel):
            self.model = StableDiffusionInpaintPipeline.from_pretrained(
                self.model_id_or_path,
                revision="fp16"
-                if (
-                    self.model_id_or_path in DIFFUSERS_MODEL_FP16_REVERSION
-                    and use_gpu
-                    and fp16
-                )
+                if self.model_id_or_path in DIFFUSERS_MODEL_FP16_REVERSION
                else "main",
                torch_dtype=torch_dtype,
-                use_auth_token=kwargs["hf_access_token"],
                **model_kwargs,
            )

-        # https://huggingface.co/docs/diffusers/v0.7.0/en/api/pipelines/stable_diffusion#diffusers.StableDiffusionInpaintPipeline.enable_attention_slicing
-        self.model.enable_attention_slicing()
-        # https://huggingface.co/docs/diffusers/v0.7.0/en/optimization/fp16#memory-efficient-attention
-        if kwargs.get("enable_xformers", False):
-            self.model.enable_xformers_memory_efficient_attention()
-
        if kwargs.get("cpu_offload", False) and use_gpu:
            # TODO: gpu_id
            logger.info("Enable sequential cpu offload")
@@ -88,10 +74,6 @@ class SD(DiffusionInpaintModel):
        """
        self.set_scheduler(config)

-        if config.sd_mask_blur != 0:
-            k = 2 * config.sd_mask_blur + 1
-            mask = cv2.GaussianBlur(mask, (k, k), 0)[:, :, np.newaxis]
-
        img_h, img_w = image.shape[:2]

        output = self.model(
@@ -114,17 +96,6 @@ class SD(DiffusionInpaintModel):
        output = cv2.cvtColor(output, cv2.COLOR_RGB2BGR)
        return output

-    @staticmethod
-    def is_downloaded() -> bool:
-        # model will be downloaded when app start, and can't switch in frontend settings
-        return True
-
-    @classmethod
-    def download(cls):
-        from diffusers import StableDiffusionInpaintPipeline
-
-        StableDiffusionInpaintPipeline.from_pretrained(cls.model_id_or_path)
-

 class SD15(SD):
    name = "sd1.5"
--- a/lama_cleaner/model/sdxl.py
+++ b/lama_cleaner/model/sdxl.py
@@ -45,16 +45,9 @@ class SDXL(DiffusionInpaintModel):
                self.model_id_or_path,
                revision="main",
                torch_dtype=torch_dtype,
-                use_auth_token=kwargs["hf_access_token"],
                vae=vae,
            )

-        # https://huggingface.co/docs/diffusers/v0.7.0/en/api/pipelines/stable_diffusion#diffusers.StableDiffusionInpaintPipeline.enable_attention_slicing
-        self.model.enable_attention_slicing()
-        # https://huggingface.co/docs/diffusers/v0.7.0/en/optimization/fp16#memory-efficient-attention
-        if kwargs.get("enable_xformers", False):
-            self.model.enable_xformers_memory_efficient_attention()
-
        if kwargs.get("cpu_offload", False) and use_gpu:
            logger.info("Enable sequential cpu offload")
            self.model.enable_sequential_cpu_offload(gpu_id=0)
@@ -65,14 +58,6 @@ class SDXL(DiffusionInpaintModel):

        self.callback = kwargs.pop("callback", None)

-    @staticmethod
-    def download():
-        from diffusers import AutoPipelineForInpainting
-
-        AutoPipelineForInpainting.from_pretrained(
-            "diffusers/stable-diffusion-xl-1.0-inpainting-0.1"
-        )
-
    def forward(self, image, mask, config: Config):
        """Input image and output image have same size
        image: [H, W, C] RGB
@@ -81,10 +66,6 @@ class SDXL(DiffusionInpaintModel):
        """
        self.set_scheduler(config)

-        if config.sd_mask_blur != 0:
-            k = 2 * config.sd_mask_blur + 1
-            mask = cv2.GaussianBlur(mask, (k, k), 0)[:, :, np.newaxis]
-
        img_h, img_w = image.shape[:2]

        output = self.model(
@@ -106,8 +87,3 @@ class SDXL(DiffusionInpaintModel):
        output = (output * 255).round().astype("uint8")
        output = cv2.cvtColor(output, cv2.COLOR_RGB2BGR)
        return output
-
-    @staticmethod
-    def is_downloaded() -> bool:
-        # model will be downloaded when app start, and can't switch in frontend settings
-        return True