训练自己的户型图扩散模型（附远程服务器配置）

2023-11-28

字数统计: 3k字 | 阅读时长≈ 12分

前言：上次做了户型图数据集调研，并构建了自己的户型图数据集，这次使用构建好的数据集训练自己的Diffusion Model

本次我训练了四个版本的Diffusion Model for Floor Plan datasets，分别是：

cubicasa5k-Simple-DM

cubicasa5k-Large-DM

RPLAN-DM

Myself-DM（自己从网上爬取的数据集）

训练伊始的踩坑

ok，我的训练从入门快进到了入土，看一下提示出来的信息吧：

2023-11-29 18:10:57 LAPTOP-56LC5HQ1 __main__[684] INFO [None]: Input params: Namespace(act='gelu', batch_size=2, cfg_scale=3, conditional=False, dataset_path='../datasets/RPLAN', distributed=False, epochs=300, fp16=False, image_size=64, load_model_dir='', lr=0.0003, lr_func='linear', main_gpu=0, num_classes=1, num_vis=-1, num_workers=0, optim='adamw', result_path='../results', resume=False, run_name='RPLAN_model', sample='ddim', save_model_interval=True, seed=0, start_epoch=-1, start_model_interval=-1, vis=True, world_size=2)
2023-11-29 18:10:57 LAPTOP-56LC5HQ1 utils.initializer[684] INFO The seed is initialized, and the seed ID is 0.
2023-11-29 18:10:57 LAPTOP-56LC5HQ1 utils.initializer[684] INFO Init program, it is checking the basic setting.
2023-11-29 18:10:58 LAPTOP-56LC5HQ1 utils.initializer[684] INFO {'is_init': False, 'device_count': 1, 'device_name': 'NVIDIA GeForce RTX 4070 Laptop GPU', 'device_cap': (8, 9), 'device_prop': _CudaDeviceProperties(name='NVIDIA GeForce RTX 4070 Laptop GPU', major=8, minor=9, total_memory=8187MB, multi_processor_count=36)}
2023-11-29 18:10:58 LAPTOP-56LC5HQ1 __main__[684] INFO [cuda]: Successfully Use normal training.
2023-11-29 18:10:59 LAPTOP-56LC5HQ1 __main__[684] INFO [cuda]: Fp32 training.
2023-11-29 18:10:59 LAPTOP-56LC5HQ1 __main__[684] INFO [cuda]: Start training.
2023-11-29 18:10:59 LAPTOP-56LC5HQ1 __main__[684] INFO [cuda]: Start epoch 0:
2023-11-29 18:10:59 LAPTOP-56LC5HQ1 __main__[684] INFO [cuda]: This epoch learning rate is 0.0003
  0%|          | 0/40394 [00:00<?, ?it/s]/home/ubuntu22/anaconda3/envs/cu121py38/lib/python3.8/site-packages/torch/nn/modules/conv.py:456: UserWarning: Applied workaround for CuDNN issue, install nvrtc.so (Triggered internally at ../aten/src/ATen/native/cudnn/Conv_v8.cpp:80.)
  return F.conv2d(input, weight, bias, self.stride,

我手里就一张4070，只有可怜的8GB显存，batch_size调大点，显存直接爆炸，batch_size调小点，训练一轮竟然要40分钟！！而且我之前也没有训练diffusion model的经验，也不知道大概训练多少轮会收敛，以300轮为例，要8天才能训练完，难顶。

主要是也没有做实验室的工作，用实验室的服务器说不过去，现在只能找一些其他的算力资源了，之前白嫖colab，但是这个靠运气，而且白嫖到的卡也一般，和我这4070半斤八两，那就只能租服务器了，正好也记录一下远程服务器的相关配置啥的。

租带卡服务器用于自己的训练

我选择的租服务器平台是：服务器平台

当前要花钱的，其实也还好，我比较推荐3090，显存大，单精双精都好，性价比挺高的。

我这里打算租一台两张3090的服务器

3块多一个小时，勉强可以接受~

镜像建议用基础镜像，每台机器对cuda和pytorch的兼容程度不一样，注意选择。

ok，这样我们就创建好了

用pycharm连接远程服务器

连接SSH

根据上面给出的SSH登陆填入pycharm中：

配置python解释器

服务器上后很多python环境，我们要选择我们想要的，现在的服务器一般都是miniconda

现在服务器终端中看一下python在哪

然后选取/root/miniconda3/bin/python复制到pycharm中：

同步文件夹

这里要把当前本地的工程文件上传到服务器中，最后自己命名一个文件夹

之后我们就等本地文件上传至服务器中（这个时间还是挺长的）

ok，经过漫长的等待，在服务器里已经有这个项目了：

很少能打这么富裕的仗，记录一下吧~

这个提示是显存不够（看来batch_zise=16对于2张3090还是太暴力了，那么最直接的办法是batch_size调小一点）

谢天谢地，终于训起来了，该说不说，这富裕仗打的就是爽，一个epoch就十几秒！以后高低得整个10张4090的服务器吧~

数据集预处理

上次已经找好数据集了，但是毕竟是在别的任务上的数据集，一般又以下几个问题：

分辨率过大（RPLAN数据集是256*256的，cubicasa5k是完全不规则的）
数据格式不统一
标注的问题

标注问题上次已经解决过了，现在我们手头的是纯图片数据集，这也正是image-to-image的Diffusion Model所需要的，那么下买面就来解决分辨率的问题，这个问题一开始我没有意识到，所以在我最开始的训练是即使把batch_size调到最小、选用fp16后，显存依旧会爆炸，在和老师沟通后了解到Diffusion Model一般是用64*64的，过大的分辨率会先下采样，那么下面就分数据集来说明对其的预处理。

RPLAN数据集

这个数据集本身就是纯图数据集，主要是本身为256*256的，那么我们只需要resize一下就行

import os
import cv2
import numpy as np
for filename in os.listdir(r"../RPLAN/class_1/"):
    print(filename)
    img = cv2.imdecode(np.fromfile('../RPLAN/class_1/'+filename, dtype=np.uint8), 1)
    img_new = cv2.resize(img,(64,64))
    cv2.imencode('.jpg', img_new)[1].tofile('../RPLAN_resized/class_1/'+filename)

这样就可以直接用了

cubicasa5k数据集

这个数据集比较麻烦，它的文件结构是这样的：

├── cubicasa5k
│       ├── colorful
│   		└── 30
│       		├── F1_original.png
│       		├── F1_scaled.png
│       		└── model.svg
│   		└── ...
│ 
│       ├── high_quality
│   		└── 17
│       		├── F1_original.png
│       		├── F1_scaled.png
│       		└── model.svg
│   		└── ...
│ 
│       ├── high_quality_architectural
│   		└── 1
│       		├── F1_original.png
│       		├── F1_scaled.png
│       		└── model.svg
│   		└── ...

我大概看了一下，其中的png格式的数据质量不一，colorful里的是彩色的，high_quality是黑白的，high_quality_architectural是较为复杂的，而且其中有的是标准的户型图，有的是手稿，所以我决定提取其中model.svg数据，这个矢量化数据还是比较标准的。

提取model.svg数据

把每个文件夹下的model.svg数据提取出来，放在一个文件夹中，然后转成png格式。

import os
import shutil

# 输入文件夹路径
# input_folder = './high_quality'
input_folder = './high_quality_architectural'
# input_folder = './colorful'
# 输出文件夹路径
# output_folder = './high_quality_clean'
output_folder = './high_quality_architectural_clean'
# output_folder = './colorful_clean'

# 确保输出文件夹存在，如果不存在则创建
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 遍历输入文件夹中的所有子文件夹
for subdir, dirs, files in os.walk(input_folder):
    for dir_name in dirs:
        dir_path = os.path.join(subdir, dir_name)
        # 找到每个子文件夹中的model.svg文件
        svg_file = os.path.join(dir_path, 'model.svg')
        # 如果找到了model.svg文件
        if os.path.exists(svg_file):
            # 构造输出文件的路径和新文件名
            output_file = os.path.join(output_folder, f'{len(os.listdir(output_folder)) + 1}.svg')
            # 复制model.svg到输出文件夹，并按照新的文件名进行重命名
            shutil.copy(svg_file, output_file)
            print(f'Copied {svg_file} to {output_file}')

转成png格式：

import cairosvg
import os

# inputFolder = "./high_quality_clean"  # 输入的文件夹，里面有svg
inputFolder = "./high_quality_architectural_clean"  # 输入的文件夹，里面有svg
# inputFolder = "./colorful_clean"  # 输入的文件夹，里面有svg

# outputFolder = "./high_quality_clean_png"  # 输出的文件夹，将把结果放到此文件夹中
outputFolder = "./high_quality_architectural_clean_png"  # 输出的文件夹，将把结果放到此文件夹中
# outputFolder = "./colorful_clean_png"  # 输出的文件夹，将把结果放到此文件夹中

# 确保输出文件夹存在，如果不存在则创建
if not os.path.exists(outputFolder):
    os.makedirs(outputFolder)

for root, dirs, files in os.walk(inputFolder):  # 遍历所有的文件
    for f in files:
        svgFile = os.path.join(root, f)  # svg文件名
        if f[-3:] == "svg":  # 确保是svg
            pngFile = outputFolder + "/" + f.replace("svg", "png")  # png文件名
            try:
                cairosvg.svg2png(url=svgFile, write_to=pngFile, dpi=1900, output_width=500)
            except:
                print('error =>' + pngFile)
            finally:
                print('file => ' + pngFile)

再把所有图片都resize成64*64的大小：

from PIL import Image
import os

# 输入文件夹路径
# input_folder = './high_quality_clean_png'
input_folder = './high_quality_architectural_clean_png'
# input_folder = './colorful_clean_png'

# 输出文件夹路径
# output_folder = './high_quality_clean_png_resize'
output_folder = './high_quality_architectural_clean_png_resize'
# output_folder = './colorful_clean_png_resize'

# 确保输出文件夹存在，如果不存在则创建
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 遍历输入文件夹中的所有png文件
for filename in os.listdir(input_folder):
    if filename.endswith(".png"):
        input_path = os.path.join(input_folder, filename)
        # 打开图像文件
        img = Image.open(input_path)
        # 调整图像大小为256x256
        resized_img = img.resize((64, 64))
        # 构造输出文件的路径
        output_path = os.path.join(output_folder, filename)
        # 保存调整大小后的图像
        resized_img.save(output_path)
        print(f'Resized {input_path} to {output_path}')

为了比较不同情况下的数据集训练出来的结果，我把cubicasa5k分为了cubicasa5k-simple和cubicasa5k-large两个版本

├── cubicasa5k-simple
│       ├── colorful
│       ├── high_quality
│ 
├── cubicasa5k-large
│       ├── colorful
│       ├── high_quality
│       ├── high_quality_architectural

ok，终于处理完了数据集，开始训练把~