面向未来的摄影技术:基于视网膜扫描的人工智能视觉滤镜系统研发概况
作者:秋凉 | 发布日期:最近网站和公众号更新很少,以至于有读者问我为什么视频不在B站上发布了。不是不在B站上发布,而是很久没有录新的视频了。究其原因,去年我给人民邮电出版社一共录制了二十四小时的Lightroom和Photoshop视频教程,说实话我个人真的不认为需要无限制无休止地不停去录新视频——当然,因为我个人也不清楚的原因,这套视频至今还没有上线——从某种程度来说,重复自己并不是我想做的事情。而在多数时候,不愿意重复自己是因为你有充足的理由去做其他事情。所以,在这个百花盛开的时节,我想跟你好好聊聊自己在过去两年时间里所开拓的新局面。我给自己的互联网定义是“会写摄影畅销书的临床医生”;而在过去两年里,正是这个定位给我带来了全新的体验,让我得以在这个岁数依然能够面对全新的开局。
事情开始于摄影与后期处理,却繁盛于生命科学,非常意外的体验。
在智能相机已经普及的年代,摄影其实比任何时候都更简单。但是,拍摄好照片的底层逻辑并没有改变。按照Ansel Adams的语言,这称为视觉预期。摄影是将三维世界印刻到二维平面的过程,所以你所见与你所拍毫无疑问是不同的。至于3D摄影和3D虚拟显示,既涉及到技术本身的问题,也涉及到大脑发育过程中的视觉预期,因此至少就现阶段而言,3D不是与传统照片等同的范畴。视觉预期最易于理解的是透视变形,这就是你在拍摄照片时需要考虑镜头焦段、相机水平位置、与拍摄对象的距离等多种不同元素的原因所在。
但是,视觉预期并不局限于透视。在真实世界中,除了空间结构以外,还有非空间结构的因素,比如光线、声音、风、温度等等。除此之外,拍摄者的心情和感情也是拍摄照片和后期处理过程中产生重要影响的部分。简单来说,照片的视觉预期是你期望看到的照片的最终形态。从前期拍摄到后期处理,所有的技术和过程,服务的都是这个核心目标。无论你使用的是专业可换镜头相机,还是口袋里的智能手机,这一点都是不变的事实。照片所表达的是某种情绪、心境,或者观点、生活方式,这其实是大多数拍摄者真正在意的,尽管很多时候我们以为我们在意的是相机瞄准的客体,然而这并不是事实。
由此,你可以理解滤镜为什么会成为不可或缺的部分。今天绝大多数人使用手机的自动照相机所拍摄的照片都是添加了各种滤镜的。以我自己的华为手机为例,哪怕切换到专业模式、关闭AI摄影大师等所有可以关闭的自动增强功能,拍摄出的照片色彩与我使用单反相机RAW格式的结果都大相径庭,我甚至可以在某些方面很明确地表述出手机内部所进行的色彩处理——滤镜,就是一种通过对真实的歪曲,从而呈现另一种真实:情绪和目的的真实。夏天可以是一种低对比度、偏青偏黄的色彩,冬天可以是一种低饱和度偏蓝的色彩,对不同的色相进行偏色达到色彩统一可以实现有所不同的目的。对于熟稔摄影原理和后期处理的人来说,可以非常准确地操作相应的参数来实现不同的目的;对于绝大多数人而言,在手机中拍摄照片后套用各种现成的滤镜,能够实现相似的效果。
但是,这些滤镜是否已经达到完美的境地了呢?差得非常远。所有的滤镜都是通过某种预置的参数来调节你的照片,例如为照片设置相应的曲线,在不同的色相区间内设置相应的色相、饱和度和亮度数值等等。问题在于,既定的预设与实际照片之间存在极大的不同。因此,预设是否能够达到预期效果,在多数时候基于无目的的尝试。对于手机里存在的数百个滤镜,经常需要逐个尝试,偶然发现“啊,这个是我要的效果”!而当你希望模拟某种风格的时候,就经常陷入“看起来很美丽,一试就崩溃”的窘境。这也是我在后期处理课程中多次提到过的:所有后期处理的案例都是经过非常认真的设计和反复实践的,千万不要被老师们的闲庭信步所欺骗。那么,有没有办法设计一套真正的滤镜系统,能够真实再现拍摄者的视觉预期,使用客观的拍摄对象简单获得“想象”中的情景再现呢?
事实上,这套滤镜系统需要解决两个关键问题:
第一,一套更为柔性的通过影调和色彩参数对某种风格的模拟方法。这一方法能够在不同的照片中获得相似的效果;
第二,是否能够了解拍摄者大脑中的“想象”情景与现实情境之间的差别,从而让滤镜系统做出正确的参数判断。
众所周知,可换镜头相机市场是一个快速萎缩的市场,而疫情加剧了这一趋势。我自己对摄影器材的热情近五年来已经差不多降到冰点,因为我不认为这个技术内卷的行业对我还有多大的吸引力。某些品牌的拥趸一个劲地鼓吹黑科技,我们最好客观理性地审视一下这些所谓的黑科技到底改变了哪些现状,解决了用户的哪些问题。相机产业面临的问题不是摄影市场的缺失,而是没能找到新时代下的用户问题。比谁的像素高、谁的对焦准、谁的连拍速度高,就好像汽车厂商相互比较谁的缸数多、谁的排量大、谁的零百加速快一样,这是一个逻辑与时代的失配。就如大多数汽车厂商目前都把未来的研发重点放在智能化上一样,相机需要的也是智能化。而在照片拍摄中,智能化的终极目标是什么?无非就是能够更为智能地实现拍摄者的视觉预期!
2018年,我在完成关于胎儿游离DNA检测中异常拷贝数变异与妊娠合并恶性肿瘤的研究并在Genet Med上发表了研究论文后,转向我的老本行发育与行为儿科学,将注意力集中到关于脑功能的研究领域上。众所周知,脑科学是正在快速发展的新兴学科,脑科学家们对于人类大脑功能的研究已经深入到令人发指的境地。功能磁共振、功能脑电图、脑功能近红外成像等技术的应用使得对人类大脑的研究进入了询证阶段。而正是在这里,我找到了基因技术与脑功能研究相结合、最终应用于摄影后期处理的某种可能。
在我上面提到的两个问题中,解决第一个问题的路径是清晰的,即基于大数据处理和机器学习,或者也可以在今天泛称为“人工智能”。目前照片滤镜的逻辑非常简单,一般通过采用固定参数替代照片的原始参数,从而模拟效果。而事实上,要获得更符合预期的效果,应该计算终点的数据分布,比如明度直方图和通道直方图,并根据照片像素的明度和色彩分布进行相应的拟合。这一过程类似于相机在曝光中所使用的场景识别系统,即需要在判断场景的情况下实现目标,因为不同场景会对应不同的目标。近几年包括Topaz、OnOne以及Adobe等厂商推出的各种“AI”处理技术,本质上都是基于大数据分析和机器学习获得的人工算法。
而我更感兴趣的是第二个问题,即是否有可能通过智能的方式“捕获”拍摄者大脑中对拍摄结果的视觉预期。这一设想基于一个基本逻辑,即我们在拍摄照片时往往是有某种心理参照的,即我们心中其实预先设定了某种结果,当然相机获得的结果可能和预期存在极大差距。如果能够捕捉到这种预期的结果,就可以在相机捕捉的数据和预期之间建立联系,从而通过对影调、色彩甚至照片透视的控制来获得更为接近预期的照片,即我所定义的“视觉心理滤镜”。
通过与脑科学家和心理科学家的讨论,我了解到荷兰脑科学家Von De Shaabi曾经成功开展过一项视觉心理脑功能研究,建立了一套基于脑功能分析的视觉信息标化系统。问题在于,无论使用红外光谱技术还是磁共振技术,这种视觉标化信息都无法在消费场合中被使用。一般而言,视觉信息的加工位于枕叶皮层。但是,近年的演化生物学研究证实视觉信息的主要加工场所位于视网膜上,视网膜传递给视觉中枢的信息是经过深度加工的。而视网膜上的神经信息可以通过视网膜波谱扫描技术获得。于是,我想到,有没有可能基于视网膜扫描再现Von De Shaabi等人的工作?
因此,我从2018年底开始开展了小规模的视网膜视觉信息捕获和分析研究。由于我前期一直从事基因组和表达谱数据分析,尤其是肿瘤基因克隆溯源和表达谱研究涉及的统计学算法非常适合这一视网膜视觉信息研究,研究进展得比预期的顺利。这一研究中最大的不确定性其实在于视网膜信息加工是否包括视觉预期和情绪信息,因为普遍认为这是在视觉信号传递到视觉中枢后再发生的高级反应。然而,前期研究却发现,通过视网膜波谱扫描所获得的数据经过结构与统计分析之后,能够非常好地再现Von De Shaabi团队的脑功能研究结果!也就是说,视网膜的加工不但是对感光信息的提炼,同时整合了个人的视觉预期信息,即人类传递给视觉中枢的图像是一种偏倚的、与心理情绪相关的视觉信号。
这意味着我们可以通过对视网膜的扫描和信息处理,部分获知拍摄者基于目标客体的视觉心理预期!进一步,如果在相机取景器内植入视网膜波谱扫描系统,并且将波谱解码算法植入相机处理器,就有可能实现智能化的滤镜系统。举例而言,当你在拍摄照片时,心中所想的是一片蓝天白云的愉快场景,系统就能通过对这一视觉预期的标化分析,随后结合机器学习建立的算法完成照片的最终渲染;而当你希望获得的是某种深沉的意境时,视觉分析系统能够从视网膜波谱中检索到相应的情绪信息,并通过相机CPU反馈进行滤镜渲染。当然,现阶段的工作距离实现“所想即所得”的目标还差了十万八千里,目前所能标化的视觉情绪信息也相对有限。但是,至少这是相机智能化的一个崭新方向,或者说也许会成为未来生物相机的某种雏形。
因为受到疫情的影响,所以在去年年初的一段时间里面研究工作放慢了步伐。但是,我也利用这段时间将之前的工作做了整理和总结,在律师朋友的协助下完成了PCT专利申报。在疫情缓解以后,我找到了愿意进一步研发的合作方。目前我们研发的方向依然限于视网膜识别生物反馈的准确性和标化,还没有考虑到未来与图像整合的技术问题。然而,在我们进行了多轮宣讲以后,于去年年底获得了一笔来自投资机构的风投,相当于天使轮吧。从天使轮的角度来看,这笔资金并不少。但是因为有投资机构介入,所以我在过去一段时间里处于一种被加速的状态,导致无暇顾及其他事情。
尽管我们当前的目标是通过扩大数据量获得更可靠的结果,并且在明年六月前完成A轮融资。但是我想融资、技术转让或者其他技术变现手段从来不是工作的目的。我所看到的是摄影技术的某种未来。我憧憬那种通过画面定格想象的场景,我相信大数据和人工智能是相机和摄影的未来发展方向。我想我们目前所做的这点技术研发能够契合行业发展的未来场景,但愿在摄影技术领域,我们也能藉由信息技术,实现某种程度的突破,成功弯道超车。我作为一个长期从事生命科学技术研究的资深摄影爱好者,非常激动自己能够在这一领域做出贡献。而且,居然能够应用生命科学研究基础服务于影像和后期处理,也令我备感欣喜。
非常抱歉,因为在工作之余还要从事极为繁杂的技术研发工作,所以只能慢待了网站和公众号。不得不承认,认真写作和录制视频教程是一件非常耗费精力的事情。你看到的十五分钟视频,背后可能是十五个小时的努力。但是我想我一定不会放弃,只要时间允许,我会为大家提供更多摄影和后期处理教程。
关于视网膜扫描视觉滤镜研发工作的进展,我会在明年的四月一日再向各位进行详细的汇报!