圆明园历史照片的图像上色研究
陈一家1 孟宇飞1,2 曹新1
(1. 北京林业大学园林学院,北京,100083; 2.国际竹藤中心园林花卉与景观研究所,北京,100102)
摘 要:随着计算机视觉技术的发展,图像上色技术逐渐成熟。本文以DeOldify和RealSR为基础,对圆明园遗迹的历史照片进行图像颜色的预测和超分辨率的处理,在图像上色方面,本文采用的上色模型在训练方法上有所创新,提高了图像的质量,使图像上色模型更适用于圆明园历史照片的修复工作。在图像超分模型中,以RealSR实现高保真的图像放大。并探讨了这一组合技术在圆明园历史照片的试验中呈现的结果和有益的反映。这一组合模型有潜力用在遗址的历史景观研究和遗址保护上,有利于圆明园遗址和其他遗址的保护研究以及价值传播。
关键词:圆明园,历史照片,上色,历史景观,遗址保护
Research on image coloring of historical photos of Yuanmingyuan Garden
Yijia Chen1, Yufei Meng1,2, Xin Cao1
(1.School of Landscape Architecture, Beijing Forestry University, Beijing, 100083;
2.Research Institute of Ornamental Plants and Landscape, International Centre for Bamboo and Rattan, Beijing, 100102)
Abstract: With the development of computer vision technology, image colorization technology has gradually matured. In this paper, we use DeOldify and RealSR as the basis for image colorization and super-resolution of historical photos of the Old Summer Palace ruins. In image colorization, the colorization model used in this paper is innovative in the training method, which improves the quality of images and makes the image colorization model more applicable to the restoration work of the Old Summer Palace historical photos. In the image hyper-segmentation model, high-fidelity image enlargement is achieved with RealSR. The results and useful reflections presented by this combined technique in the experiments with historical photographs of the Old Summer Palace are also discussed. This combined model has the potential to be used in the historical landscape study of the site and site conservation, which will benefit the conservation study of the Old Summer Palace and other sites as well as value dissemination.
Key words: Yuan Ming Yuan, historical photos, coloring, historical landscape, heritage site conservation
1 引言
圆明园遗址是清代著名的皇家园林,被称为“万园之园”,汇聚了中国传统建筑的精华,而其中的西洋楼景区又体现了西方建筑的手法。自1860年圆明园被焚毁后,西洋楼建筑遗址及周围的园林环境从圆明园被毁至今历经多次人为和自然的破坏,被称为“火劫、木劫、石劫和土劫”四大劫难。圆明园遗址受到了巨大的破坏,而留下的历史照片是研究圆明园遗迹和实现圆明园数字化的宝贵资料。据史料记载,西洋楼的历史影像资料大多来源于国外的摄影师,至今发现圆明园最早的照片摄于1873年,圆明园被劫之前的照片还尚未发现。如何利用这些照片来保护圆明园遗址,是一个值得关注的问题。
深度学习技术不断的发展,图像上色和超分辨率技术日趋成熟。尤其是在计算机视觉领域引入了自注意力机制以后,生成图像的质量得到了很大的提升。本次任务基于无引导的自动上色模型,对图像进行上色处理,使黑白的历史照片转换成彩色照片。我们收集了相关的皇家园林的照片作上色模型的训练集,使上色模型学习图像的特征,最终实现对照片颜色的预测。受制于照片拍摄技术,历史照片大多存在分辨率过低、画面解析度过低等问题。因此,如果实现照片的上色和高保真的放大,对于圆明园历史遗迹的研究具有重要的意义。对于人工智能图像上色而言,由于图像的颜色具有多模态性质,即一张图像的颜色可以有多种可能,因此重要的不是色彩的完全复原,而是预测出合理的色彩。对历史的黑白照片进行上色的预测,可以拉近人与照片的距离,使人产生有身临其境的感觉。我们认为,实现历史照片的修复工作,具有突破时空限制充分发挥文物的价值,提高文物保护的技术手段,促进遗址的形态和色彩研究的积极作用。
2 相关研究
2.1 圆明园遗迹的历史照片研究
基于我们之前对于圆明园历史照片的研究[1],圆明园的历史照片主要集中于长春园,单长春园西洋楼景区就遗留有约303张历史照片,是拍摄频度最高的区域。西洋楼景区所有景点包括谐奇趣、蓄水楼、万花阵、养雀笼、方外观、竹亭、海晏堂、远瀛观、大水法、观水法、线法山、线法画均有历史照片留存,照片清晰度高且景观信息完整、系统,故而本篇论文选择西洋楼景区的历史照片作为上色研究的尝试。
西洋楼历史照片拍摄的时间范围从恩斯特·奥尔末拍摄圆明园的时间1873年起始,到20世纪五十年代止。漫长的拍摄时间段中,早期拍摄的照片景观破坏度较小,山水骨架完好,建筑还相对完整,局部景区还能看到具体的植物配置,景观完整性最高。早期1873年至1888年间拍摄照片的摄影师有恩斯特·奥尔末、泰奥菲勒·皮瑞、查尔斯·费雷德里克·摩尔、托马斯·查尔德、赖阿芳、罗伯特·德·赛玛耶、山本赞七郎等七人,选取恩斯特·奥尔末、泰奥菲勒·皮瑞、罗伯特·德·赛玛耶三位摄影师拍摄的西洋楼景区照片12张为上色对象,照片分属谐奇趣、万花阵、养雀笼、方外观、海晏堂、远瀛观、大水法、观水法、线法山9处景点,照片清晰度较高且景观信息充分,便于技术处理与照片内容的研究分析。
2.2 图像上色算法的相关研究
随着深度学习的不断发展,对于黑白图像的上色技术也不断成熟。一般而言,图像上色分为无引导上色和有引导上色。无引导指由算法自动完成图像上色,而有引导则在上色过程中有人为(其它参照)干预,比如给出一幅风格参考图像或指定某一区域为特定颜色。因此有引导上色存在许多局限性,多用于线稿上色中。而对于无引导上色,其优点在于上色效率高、人工干预少、有利于实现图像上色自动化的优点。目前的难点主要在于如何获取高质量数据集和如何实现上色的语义辨识性[2],前背景、各目标实例独立色彩效果。无引导的图像上色能够实现完整的自动化上色,通过学习数据集的真实图像,获得物体颜色上的特征。进行图像上色时,根据训练获得的先验知识实现对图像的预测。图像上色是指对于黑白照片的颜色进行预测,由于随机种子的策略,这一过程往往会生成多种上色方案,在实际使用时,需要结合相关文献史料,选择合理的上色方案,虽然并不是直接完全还原真实的图像颜色,但这种通过合理的预测生成的彩色图像将对场景产生积极的辅助认知的作用。
相比于传统无引导图像上色方案,生成对抗网络[3](Generative Adversarial Networks, GAN)更擅长图像上色这类图像转换任务。其模型的损失函数是经过生成—鉴别这一近似对抗的过程生成的,避免了人工设计损失函数的误差,有利于生成更加合理的上色图像[4]。自模型提出以来,其在图像上色方面的相关应用层出不穷,由于GAN模型结构的特性,其在无监督的机器学习领域表现突出。能够显著降低数据集的制作难度,提高训练效率。Yun Cao等人[5]为了防止单一灰色调的图像上色效果单一的问题,采用了能够生成丰富生动图像的条件生成对抗模型(Conditional GAN),以灰度作为条件输入进行上色任务。自注意力机制(self-attention, SA)由于存在多个注意力头,被证明能够有效解决模型输入的信息不同,但不同向量之间存在一定的关系,而在训练时却无法充分发挥这些关系的情况,有利于提升模型训练结果[6]。将这一机制引入到计算机视觉领域后,对于图像质量有很大的帮助。Xinyuan Chen等人[7]在GAN网络中引入自注意力机制,实现图像的端到端的转化,能够避免转化过程存在背景和主体关系不清的问题。由Antic等开发的DeOldify模型将SA和GAN结合,能够显著提高上色的质量和合理性。经过相关的测试,这一模型在图像上色任务上表现良好,我们希望将其运用在圆明园遗址的历史照片上色工作中,生成高质量的上色图像。
2.3 图像超分技术的相关研究
目前,图像超分技术已经成熟,相关的应用层出不穷。这一技术的目的在于,提高图像的分辨率和丰富图像的细节纹理。在图像超分辨率领域,生成对抗网络(GANs)已越来越多地用于类似的计算机视觉工作,传统网络采用欧几里得距离来衡量放大后的图像是否清晰,存在对于图片评价不准确的问题[8]。Ledig等人[9]提出了SRGAN,该模型对抗损失和内容损失,使用基于感知相似性的内容损失摈弃了在像素空间进行相似性衡量。Xintao Wang等人[10]提出了ESRGAN,对网络架构、内容损失和对抗损失进行改进,在图像质量和纹理上取得了更好的效果。他们采用了一种新的模型训练方式,首先通过一套GAN网络生成低分辨率图像,然后通过另一套GAN网络执行图像超分的任务。该网络可以有效地提高真实世界低分辨率图像的质量。良好的网络设计不仅决定了图像超分的效果,还有助于在有限的计算资源条件下学习数据的特征。GAN的生成-鉴别特性更接近于执行图像超分任务的真实环境,在各种图像超分任务中都有所使用。
历史照片是记录圆明园的重要资料,在查阅这些历史照片时,我们发现历史照片存在分辨率低、有噪点等问题,使用上色和超分模型实现对历史照片的上色、修复和超分将有利于遗产的深入研究和文化价值的传播。在本次实验中,我们使用了基于GAN的Deoldify和RealSR模型进行上色和超分处理,使用这一方法,能够提高图像的表现力和画面质量,对实验过程中遇到的问题提出了相应的解决方案。
3.1 实验原理
本次实验的组合模型内核基于生成对抗网络(Generative Adversarial Networks, GAN)搭建,这一网络由一组生成器和鉴别器组成,在训练时,生成器会接收到随机噪声,通过这个噪声生成一张图片G(z)。鉴别器会根据数据集中的真实照片判断生成图片的真假,得到一个标量D(G(z)),代表生成图片为真的概率,这个数值越大,说明生成的图片越真实。这一过程如图1所示。GAN的主要目的是让生成器尽量生成接近真实的图片去“欺骗”鉴别器D,让鉴别器无法分辨输入图像的真假。在理想状态下,当训练完成时,D(G(z))=0.5.鉴别器判断输入的照片为真/假的概率相等,即鉴别器无法判断输入的照片是真实照片还是生成的照片。此时,生成器已经学到了真实照片的相关特征,足以生成“以假乱真”的图片。
对于生成器存在
(1)
对于鉴别器存在
(2)
本次实验我们选用DeOldify模型进行上色处理,这一模型的基础与经典GAN模型相同,为了适应图像上色任务,该模型在结构上进行了一些调整,其生成器由多层采样器组成,有利于获取图像特征。在进行上色训练时,与传统的RGB颜色方案不同,这一模型采用了LAB颜色方案,其中L表现图片的纹理、轮廓和亮度信息,A,B通道表示不同亮度的颜色信息。在训练模型时,生成器只读取图像中L通道的内容,即只读取到了黑白图像。然后预测A和B两个通道的内容生成彩色照片。相比于传统的GAN训练过程,该模型对生成器和鉴别器分别进行了预训练,有利于在改善图像生成质量的同时缩短训练时间。另外,该模型的生成器和鉴别器的预训练过程是可以重复的和可分开的。如果发现模型整体训练的效果不好,还可以继续执行预训练的任务。训练过程如图2所示:其训练过程为,第一步,生成器参与训练,得到特征损失。第二步,对鉴别器进行训练,对第一步生成器的图像和真实图像进行真/假的二分类任务。第三步,训练整个网络,即同时训练生成器和鉴别器。当模型完成训练过程后,生成器和鉴别器已经学到了上色的相关特征。在执行上色任务时,只需调用模型训练完成的生成器,向模型中输入一张黑白的历史照片,生成器根据学到的特征,进行图像上色,最终得到彩色图片。
此外收集得到的历史照片往往分辨率较低、存在噪点,为了得到更生动的图像,还需要将照片进行无损放大处理。我们选择了真实世界图像超分辨率方向的模型,RealSR模型基于GAN采用了新型图像退化算法,在对数据预处理时,向训练集中加入模糊和噪声,模拟真实图片的退化过程[13]。这一模型的训练使用GAN完成图像退化的估计生成低分辨率的图像,然后训练图像超分模型,生成放大4倍的图像。
3.2 实验设计
圆明园历史照片是研究圆明园的一手史料,然而一些历史照片却存在噪点、模糊、分辨率低以及辨识度有限的问题,如果将黑白的历史照片转化为高分辨率的彩色照片,能够提高画面的表现力,拉近读者和照片的距离。因此,利用人工智能的相关技术实现对历史照片的上色和超分辨率工作,对于保护和传播遗址价值和文化具有重要的作用。
为了实现针对圆明园的历史照片上色研究工作,我们使用上色模型和超分模型。对于分辨率较高的历史照片(大于2000px),使用DeOldify上色模型完成上色任务,得到高分辨率的彩色照片。然而部分历史照片分辨率过低(小于800px),影响了历史研究和文化价值传播的效果。因此,还需要由RealSR超分辨率模型执行图像超分任务。DeOldify上色模型最初在ImageNet数据集上进行训练,这一数据集内含超过1千万张图片共计一千多类的图片。为了适应遗产保护这一下游任务,贴近遗产历史照片上色的场景,需要制作这些照片的数据集。我们从百度图片上爬取了五千多张颐和园、承德避暑山庄和圆明园等皇家园林现在的照片。由于涉及到色彩的表示,我们希望这些图片的颜色尽可能贴近真实的颜色,因此需要人工删除加上滤镜的照片。经过数据清洗,删除照片颜色失真、近似和低分辨率的图像,经过人工审查,删除带有水印的图片,得到本次任务的训练集,一共包含五千张图片。模型经过对生成器和鉴别器的预训练后,训练整个模型,得到贴近遗产保护这一特定场景的上色模型,最终实现对图像的颜色进行预测。值得一提的是,在上色时,我们使用的是当前条件下的彩色照片进行训练,这些照片拍摄的光线、颜色表现都无法与历史照片的拍摄条件完全相同,因此无法完全复原历史照片,只是对历史照片的颜色进行一种合理的预测。对于分辨率低的历史照片,需要使用超分辨率模型放大图像,我们从网上获取了训练完成后的模型,向超分模型中输入低分辨率的图像,模型可得到去除部分噪点的放大图像。
在进行图像上色的预测时,图片渲染上色的缩放因子(render factor)会影响画面的色彩风格。通常来说,缩放因子越小,计算速度越快,颜色看起来也更鲜活。当原始照片比较旧、图像质量较低时,往往采用较低的渲染缩放因子。渲染缩放因子越高,图像质量越好,但颜色可能会稍微褪色。由于每张图片所反映的信息都不同,为了达到最合理的上色效果,在进行上色处理时,往往每张照片缩放因子都是不同的。

如图3:进行图像上色任务时,往往需要对比使用多个缩放因子条件对应的图像效果。然后选择最合理的图像上色效果作为最终输出。
在进行圆明园历史照片研究时,受制于各种条件的限制,我们通过多种方式收集得到的部分图片存在分辨率较低的问题(分辨率大多在800px以内)。为了完成古建照片的修复和展示的工作,需进行图像的上色和超分的工作。经过实验,如果先进行图像的上色,后将图像放大,则会导致图像出现局部色彩失真的问题。

如图4,左图在门楣和墙上的砖石出现了偏粉红色的色块,这与现实的经验相差甚远,使得上色效果显得不真实。另外,树的叶缘、砖石存在过度锐化的问题。右图的图片中,建筑第二层和第一层的颜色差异过大。且第二层的砖墙颜色近似天空的颜色。我们猜测这是由于上色后的图像存在一定的局部色彩失真和上色模型没有识别出建筑边缘共同导致的。如果上色后图片的局部色彩失真的特征被超分模型捕捉并放大,就会导致更严重色彩失真和单一的问题。
因此,我们选择了先将照片放大4倍后,再进行图像上色处理的流程。本次任务的工作流程

如图5所示。相比于彩色图片,黑白图片更有利于表现图片的纹理、边缘、亮度和对比度等始信息。使用先放大黑白照片,再进行图像上色的流程,有利于保留原始信息,生成高可信度的照片。经过图像超分和上色的处理,我们得到了一系列上色后的高清照片,希望这些照片能够促进圆明园的历史研究和圆明园价值及文化的传播。
4.1 超分修复有助遗产细节呈现
经过照片超分修复以后,照片中凸显出景观要素、建筑及其装饰等个体形态,建筑纹样和植物叶片、树皮的细节清晰度更进一步,从建筑物的细节甚至可以推断出建筑材质,照片中的建筑表皮脱落,还可以根据照片确定露出的砖砌内部结构,是对遗产建筑细节甚至结构、植物形态和树皮肌理以及叶片形态等信息的精细化呈现。对于分辨率较低的历史照片,超分修复是下一步上色处理的基础,修复后的照片将利于照片景观要素个体边缘的识别优化,避免出现色彩溢出建筑或植物边缘。
4.2 上色处理有助景观空间呈现和细节判别
历史照片中的建筑、植物、水体、天空信息分别对应真实景观不同的颜色,上色后的历史照片中建筑、植物、水体等景观要素色块被区分识别出来,作为下一步建筑景观研究的重要信息源。色彩呈现出更加突出的景观空间、要素体块以及光影关系,色彩照片塑造出景观要素的景深信息,照片的上色对于理解景观遗产的空间边界和相互之间的关系很有裨益,而上色后对于细节的呈现也更加加强了对于材质、肌理等的判别。
4.3 典型实例
如奥尔末摄于1873年的谐奇趣北面的照片,经过超分修复和上色处理后,其空间感大大增强,建筑、圆柏、海棠水池的景深关系明了可见,遗址的建筑细节更为清晰,而庭院的喷泉水池的细部其质感和浮雕细部更加明确,火烧后遗留的圆柏其树冠的空间感也得到加强,真实感较黑白照片更好。皮瑞摄于1875年的海晏堂西的照片中的松树,赛玛耶摄于1882年前后的观水法正面可见的松树,经过修复和上色后,松树形态更加清晰可辨,使得之前的判断更为可信。赛玛耶摄于1882年前后的线法山门前的照片,其黑白照片呈现与铜版画中修剪树种一致的圆柏[11],虽经火烧但仍未死亡,由于不再修剪,树冠呈散开不整、自由生长的形态,在经过修复和上色后,圆柏的针叶形态和树干纹理突出,可辨识的细节增多,更可加强之前的判断。

5.结论
此次研究我们进行了圆明园遗址照片上色的初步尝试,从效果上来说,呈现出了一些相对于之前文献和图像研究的一个进一步的辅助判断材料,对于细节、空间、形态、材质等的判别都有一定的裨益,这是十分可喜的。但仍存在一些局限性,如由于底图不够清晰,导致细节不够;而有的照片模拟上色后边界不准的问题,在计算、机器学习以及模拟上色方面还需要进一步的探索;还有数据集种类过少,导致的应用场景太窄,很容易出现过拟合的现象;生成的上色图像存在多种合理的预测结果,这些仍需深入研究。
许多遗址都有或多或少的历史照片,由于遗址的历史照片经过超分和上色处理修复对于遗址的研究有着积极的帮助,更为有益的是,这种研究对于其价值认知和传播有着可预见的积极助力,这个方向有待更多的探索。
图片来源
图1~图7 作者自绘
参考文献
[1] 孟宇飞, 曹新. 圆明园历史照片对其景观真实性的研究价值: 圆明园研究与保护2021国际学术研讨会[C], 2021.
[2] Anwar S, Tahir M, Li C, et al. Image Colorization: A Survey and Dataset[Z]. 2020.
[3] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Nets[Z]. 2014.
[4] Gui J, Sun Z, Wen Y, et al. A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications[Z]. 2020.
[5] Ji X, Cao Y, Tai Y, et al. Real-World Super-Resolution via Kernel Estimation and Noise Injection[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2020.
[6] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[Z]. 2017.
[7] Chen X, Xu C, Yang X, et al. Attention-GAN for Object Transfiguration in Wild Images: Proceedings of the European Conference on Computer Vision (ECCV)[C], 2018.
[8] Bulat A, Yang J, Tzimiropoulos G. To learn image super-resolution, use a GAN to learn how to do image degradation first[Z]. 2018.
[9] Christian L, Lucas T, Ferenc H, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network.[J]. CoRR, 2016,abs/1609.04802.
[10] Xintao W, Ke Y, Shixiang W, et al. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks.[J]. CoRR, 2018,abs/1809.00219.
[11] 曹新等. 西洋楼景区环境和植被现状调查与历史景观研究课题报告[R]. 2015.



