中国激光杂志社

生成式AI、物理模型与计算成像 | 邵晓鹏专栏第三季①

发布:ZSjie2130阅读:369时间:2024-3-18 20:31:17

 

宇宙的本质是信息。——惠勒

 

引文

 

       1、SORA出世

 

       2024年春节,科技界最炸裂的消息莫过于由几个00后为主导的年轻人研究的文本生成视频大数据模型SORA的横空出世,一段描述性语言就可以生成一分钟长度的如同真实多角度、多机位拍摄的1080P高清视频,场景栩栩如生,这就是号称物理世界模拟器的OpenAI新利器SORA的杰作。一石激起千层浪,全球都在热议人工智能的潜力和未来,就连NVIDIA的股票都能一天涨一个某著名白酒品牌的市值,可见其威力。结合春节前苹果发布的Vision Pro,8颗高清摄像头和8K的显示屏,将虚拟现实与真实世界有机结合到了一起;它的出现让人们重新认识了元宇宙,无疑也会改变人类的认知,再有生成式AI加持,未来会怎么样?

 

      在这里,我们注意有几个关键词:现实、物理、生成式AI和视频,这当然与成像有关系,那么,计算成像与它们的关系是什么呢?该如何去区分AI生成图像和视频?

 

 

       2、逻辑与哲学

 

       “某天早上,一位计算机科学家一觉醒来时,他惊奇地发现自己变成了哲学家。”这是一个学者对人工智能高速发展发出的由衷感慨。计算机的核心是什么?逻辑。哲学呢?也是逻辑。

 

       罗素上大学时选的是数学专业,后来,他认为所有数学的证明都不是严密的,因为有很多公理的存在;那么,该如何去解释这个世界呢?经过深入思考后,他最终选择了哲学。

 

 

       3、量子坍缩与维度

 

       量子最诡异的莫过于它似乎与人的意识密不可分,也就是当我们去观测量子态时,它呈现的是以“坍缩”模式,典型如薛定谔的猫,当然还有更难理解的HBT干涉。现在有一种对量子坍缩的解释是量子的高维度波函数经过探测后变成了低维度的投影过程:当没有观测量子态时,它呈现的是高维度模式,而一旦有人介入观察和测量时,波函数就从高维度投影到了低维度,让认知局限于三维世界的人类误以为是人的意识参与到了量子现象,其谬大焉。

 

 

       计算光学成像本质上是高维度光场信息的获取和解译,这其实也蕴含着维度“坍缩”的意思。惠勒说:宇宙的本质是信息。那么,量子就是信息的载体,犹如生物的存在是基因的容器一般;显然,计算成像的基因其实就是高维度光场。生物基因具有多样性,计算成像亦是如此,不同性质的光场就是不同的基因。

 

       人工智能不仅仅是计算机学科的事儿,它的威力从生成式AI的ChatGPT到SORA已略见一斑,一旦与计算成像“联姻”,则前途不可限量。

 

一、现实世界与物理、生成式AI

 

       1、物理的解释

 

       虚拟现实是对“现实”物理世界的仿真过程,也就是说现实与物理密不可分,但这个“物理”与物理学科的那个物理不是一回事,它更多的是表征现实的客观世界,一般为计算机学科之人所言,而对于从事与物理相关学科的人所说的“物理”,则更偏向于学科的概念,这个“物理”当然更复杂。

 

 

       显然,SORA这个物理世界模拟器指的是前者,但我想,随着更多学科的人参与到人工智能来,尤其是物理学科相关的学者参与后,AI也会懂热力学、懂电磁场,还懂光学,那真有可能是真正的物理世界了!那么,计算成像也必须要做出它该有的贡献。

 

 

       2、生成式人工智能

 

       生成式人工智能(GAI)是利用复杂的算法、模型和规则,从大规模数据集中学习,以创造新的原创内容的人工智能技术。这项技术能够创造文本、图片、声音、视频和代码等多种类型的内容,全面超越了传统软件的数据处理和分析能力。在人工智能领域,大模型是指拥有超过10亿个参数的深度神经网络,它们能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。

 

 

       生成式AI典型的成功案例是2022年末OpenAI推出的ChatGPT,标志着这一技术在文本生成领域取得了显著进展。接着,是音频、视频,甚至是编程代码,就像NVIDIA的创始人黄仁勋所言:人的语言就是编程语言,人类将无需再学习C++。

 

 

       3、SORA与物理世界

 

       SORA是生成式AI由文本生成视频的一个大模型,寥寥数语,即可生成电影大片般的视频,即符合文本语义,又活灵活现似现场拍摄一般,不仅可以创造出现实物理世界存在的场景,而且可以根据语义创造出前所未有的想象空间场景,更有人直言要失业了!于是,我们就看到了好莱坞8亿美元投资被迫终止,因为SORA这个初生小baby竟然能得心应手、随心所欲地“拍摄”出各种大片了!

  

       那么,SORA这个物理世界模拟器真的很“物理”吗?显然不是。网上有很多文章揭露其中问题,比如爬行的蚂蚁只有四只脚、玻璃杯破碎那一刻明显不符合物理规律、不符合逻辑等等。诚然,这些都是这个小baby幼儿期真实存在的问题,但谁能要求一个三岁小儿不仅能出口成章,还会解偏微分方程呢?相信随着时间的流逝、大模型的修正,这些问题将都会一一解决。

 

 

       我在这里要说的是SORA这个由计算机科学家发明出来的AI工具,喂给它的数据元素是以文本、声音、图像和视频的形式出现,也就是说它是以人的物理感受数据作为输入,并没有刻意地考虑到更多的物理元素,也许是因为那些是物理学家的事儿吧。但不管怎么样,SORA缺少物理元素是实,换句话来讲,物理会让AI更懂世界。当然,SORA模型中还有“逻辑”这个因素存在,如果一个视频看起来连贯,真实感强,那么,它其中蕴含的逻辑也很重要。

 

       SORA这么牛的背后的机理是不是特别复杂、难以描述呢?其实不然,因为简单才是模式设计的终极目标

接下来,我们就看看隐藏在SORA背后的模型是什么。

 

二、SORA的灵魂——扩散模型

 

       扩散模型(Diffusion model)是SORA的灵魂。

 

       简单描述一下,扩散模型就是在一幅清晰图像的基础上,一点点地重复添加高斯白噪声,直到噪声一片,“看”不出一点原图像痕迹时为止。此时,就构成了该图像的添加噪声从0到逐渐严重的序列。

 

 

       扩散模型是一个正向过程。接着,我们来看逆扩散模型,正好相反,刚才的噪声图像序列从噪声最严重的开始,逆向回溯逐渐清晰的路径。显然,这条路径不唯一,甚至说是无数条,那么,怎么才能保证路径回溯的唯一性或趋近唯一性呢?于是,大模型发挥了至关重要的作用,给它喂食海量标记训练数据,经过上万块GPU耗费大量电能的情况下,吐出一条我们所期望的趋近原图的路径,于是,就有了清晰的图像。大模型在这整个过程起的作用其实就是优化。

 

 

       当然,从文本生成图像到文本生成视频还需要一个更特别的大模型,尤其是物理世界的模拟,需要生成符合人类认知的三维物理空间数据,既有不同物体的自然属性,比如破碎的玻璃、海洋、森林、动物,还要有重力、流场、速度、不同视角镜头的变化等等,这些都是需要从喂食的数据中学习、训练,与人类学习过程一样,“总结”出一条规律,按照这个规律,就可以生成长达几十秒的视频数据。

 

       在这里,我们需要注意的是“文生视频”,也就是输入一段提示语句,AI大模型先做语义理解,然后模拟电影导演的思维模式,根据语义表达的环境,在大数据中优化搜寻最佳对象,模拟电影拍摄模式切换不同视角和不同焦段,得到一段连续的视频数据。与真实拍摄不同的,它允许自然界不可能存在的场景出现在同一段视频中,因为它要用图像忠实表达语义的真正含义。比如,在之前的云团巨人例子中,AI会通过视角和亮度的变化传递出“高耸如云”和“横亘在地球上空”的压迫感;而当输入提示语句“相机拍摄的是意大利布拉诺的五彩斑斓的建筑,其中一只可爱的斑点狗在一楼的窗户上张望,许多人沿着建筑物前的运河街道散步、骑自行车”,AI会根据提示词“五彩斑斓”在大数据中配合特定风格的建筑,而且视角也随着主角“斑点狗”切换。

 

 

       其实,这一点正是SORA强大的特点,什么科幻片、动画片、高难度环境视频拍摄,轻轻的“一句话”表达,就能在最原始的0、1高速计算中廉价获得价值不菲的大片!于是,SORA给大脑的想象插上了腾飞的翅膀。这,你就能理解为啥Tyler Perry无限期推迟8亿美元的好莱坞拍摄影棚的投资了。也许,不久的将来就能看到“输入一本小说,输出一部电影”的现象。

 

三、两个灵魂的碰撞

 

       其实,这些不是光学成像研究者的事儿,我们关心的是这里面的“物理”,同时也关心这里的“逻辑”。

 

       正如前文所言,光场是计算成像的灵魂,扩散模型是SORA的灵魂;于是,当这两个灵魂碰撞到一起之后,有趣的灵魂诞生了,那个“物理”也就变得更Solid(坚实)!

 

       那么,计算光学成像能给人工智能带来哪些新鲜内容?而诸如SORA这些人工智能大模型会给计算光学成像带来什么革命性的变化?从工业时代到信息时代,再到人工智能时代,我们该怎么应对呢?

 

 

       首先是计算成像确实能够给AI带来更“物理”的信息,更确切地说是更高维度光场的物理信息。我们可以清晰地看到,计算机视觉是以人类视觉为基础,也就是处在光的强度世界中,当然,更多的是采用了红绿蓝的彩色图像,而像偏振、光谱、相位等信息鲜有体现,更谈不上用高维度光场“图像”去喂食大模型。于是,在SORA问世后,就有人担心视频的真伪问题。诚然,在目前阶段,也许有一些方法能够识别其真伪,比如添加水印,然而“道高一尺,魔高一丈”的道理大家都懂,AI加这些水印更是小菜。那么,从光场的角度看呢?比如添加了偏振信息,也许需要更懂物理的人或者模型才能挖掘出它的存在和含义,赋以新的动能。其实,这仅仅也就是牛刀小试而已。同样地,即使单纯为大模型喂食高维光场这样物理特征明显的数据,AI也能学习到一些“物理”知识,但这些“物理”知识在AI的角度看,仅仅是一些特征而已。如果希望学习到更深奥的物理知识,人的介入不可避免,至少,从目前来看,AI尚不能主动学习,更无意识。

 

 

       然后看AI能给计算成像带来什么革命性的变化呢?AI擅长的是“知识汇编、深度加工”,经过大量的制式化训练,依靠着庞大的计算机硬件,拥有强大的大脑,记忆深度远超人类,尤擅长解决一般方法难以克服的问题。在大模型的加持下,AI更是如虎添翼,从几年前AI轻松赢得人类围棋对弈,到现如今的ChatGPT、SORA等生成式AI,更是超乎想象。既然都能从简单的文本中生成图像和视频,那么在输入计算成像的物理光场后,这些信息更加丰富,维度更高,理应可以生成更powerful的数据,而这个数据恰恰可以对应计算光学成像中“更高、更远、更广、更小、更强”的需求,一些原先我们认为不可能的事情,或许,在大数据和大模型的加持下,实现超越。

 

 

       我们捋一捋这两个灵魂的逻辑,深入思考一下,如何让这两个灵魂更好地碰撞?

 

       我在“元视觉与计算光学成像”一文中讲过:我们看到的都是视角,也提到了元视角的概念,也就是我们所有得到的都是光场的投影,“眼”见并不为实。在现在的光学成像的探测、识别过程中,主要还是依赖视觉特征,看不见就是看不见了,所以有了3~5 dB信噪比图像检测要求;而生成式AI却能依靠大数据和大模型,完成“mission impossible”的事情。这无疑给我们带来了很多的启示。

 

 

四、SORA对计算成像的启示

 

       SORA确实给我们带来了新的惊喜,它看起来是以某种场景提示生成视频,显示出来的是AI处理的智能:(1)善解人意:忠实文本内容;(2)以假乱真:从大数据中模拟物理世界;(3)自作主张:揣摩意图,以电影方式切换场景。当然,它的进化绝不仅仅限于上述三条内容,而我们关心的是它给我们带来的启示是什么。

 

       首先,模糊图像可不可以做目标的检测和识别?换句话来说,我们是不是一定要把像成得纤毫毕现呢?答案显然不是。典型的案例就是你老远看到一个人,尽管你看不清他的模样,但你可能从他高矮胖瘦、走路姿态往往就大概率地判断出他是张三还是李四;如果你能听到他一声咳嗽的话,此时的识别概率就会骤然陡升。这声咳嗽,何尝不是计算成像中多出的那一个维度呢?!

 

       我们来看SORA的逆扩散模型,不就是从噪声一片的图像模糊到清晰找出了一条优化的路径吗?在我们成像的过程中,图像的模糊程度大多时候并不严重,只是分辨率降低了一些,在这样的情况下,如果给它一点promote,即生成式AI的文本提示,那么,AI会不会给我们带来惊喜呢?答案是当然可以,而且,这种promote可以从高维度光场中轻松获得,此时,差的是该物理量的“语义描述”,当然,还有AI的生成式模型。这些,恰恰是未来可以研究的热点问题,因为它是计算成像到“智能”成像的基础。

 

 

       说到这里,我们不禁联想到“信噪比:计算成像的‘拦路虎’”一文中提到的信噪比问题,在很多情况下,成像遇到的噪声极其严重的问题,有的时候甚至是负dB信号探测问题。从逆扩散模型拓展开来,你看,SORA何尝不是从负dB信号恢复到高信噪比呢?!

 

       进一步地,点目标可不可以做识别?在远距离成像时,目标往往是一个点,就像我们看天上的繁星,那些一闪一闪甚至看起来有点暗淡的星,很有可能比太阳还要亮1000倍,只是因为距离远,我们看到的只是一个点而已。如果把“好奇”航天器拍摄的地球图像拿出来看一看,在浩瀚的宇宙中只有一个像素那么大,让我们认识到人到底有多么渺小,甚至我们开始怀疑人生。回到目标识别的问题上,目前的图像识别往往需要几百甚至更高像素,模糊当然更不行,那么,我们升维呢?也就是获取更高维度的光场数据,是不是可以用来识别点目标呢?再加上AI大模型的支持,梦是不是越来越近?

 

 

       说到这一点,我们不得不说目标特性的事情。在远距离探测时,一定是点目标或者小目标,目标特性细化到网格化很显然并无必要,而恰恰是高维度光场的目标特性才更为关键,正如那一声咳嗽一样。当然,这确实很难,但不意味着没有路,人家从一片噪声都能生成清晰图像,不能再说难和不可能了,人家至少走通了一条路。说到目标特性,我还得唠叨几句,那就是场景仿真的问题,这与SORA更近,都是生成图像和视频,只是目标特性要生成与物理相关的场景。可以说,无论是可见光还是红外,甚至是微波波段,生成式AI都有能力做出更优秀的仿真场景,这里缺的是物理场如何融入的问题。

 

 

       还有一点很重要,那就是按需成像。在“元视觉与计算光学成像”一文中,我讲到元视图的问题,有了成像的元数据(当然不一定非得是元视觉数据),我们完全可以把它作为输入,加上你所需要成出什么样像的promote,经过生成式AI,实现按需生成,得到**千面的“视图”,这当然更美。

 

       显然,AI赋能计算成像可以给我们带来很多的惊喜,可是,迫切面临的问题便是大模型和大数据,我们该怎么办?

 

五、大模型还是轻量化?

 

       大模型是以AI大基建为基础的,至少要几万块强大的GPU和强大的电力支撑,甚至有人直言,AI可能会耗尽整个太阳的能量。目前,国内外流行的大模型很多,干的活也不一样,能力更是千差万别,有人为了娱乐搞笑就去生成一些“夫妻肺片”、“过桥米线”、“麻婆豆腐”和“老婆饼”之类的菜谱。这些当然与模型本身相关,因为它对“语义”理解还不够透彻,还与喂食的大数据有关,也许,它的数据还不够“大”,标记也不够清晰,再加上“智力”上的缺陷,出现一些笑话一样的生成数据也不为奇。即使是诸如SORA优秀的模型,依然会出现六只手指的人这种违背常识的问题,别忘了,在智能时代,它们还只是个孩子

,宽容一点吧。

 

 

       很显然,这么复杂的系统是作为“大仪器”、“大基建”存在的,我们需要的是能轻装上阵的AI,就像超级计算机固然很重要,但我们更需要像智能手机一样能够满足日常应用的移动设备。于是,轻量化模型就很重要了。

 

       轻量化模型到底怎么设计,那是AI学者擅长的事情。但我这里说的是关于轻量化模型设计的几个基本原则,为的是给计算光学成像插上AI的翅膀。

 

       第一、目标设计,也就是轻量化模型到底要干什么。首先不能什么事都干,专心做好一件事比去干十件事要好。如果做超分辨率,就不要去做目标识别;做目标识别,就不要去做图像增强。然后是要做到什么程度,比如识别概率多少,达到任务目标就行,不要逞强,最后导致出现“拉缸”现象。

 

       第二、量力而行。有多大本事干多大的事儿,不能脱离实际应用的条件约束:1、算力:硬件能支撑多少Tops?2、SWaP限制:体积、重量和功耗多少?3、实时性:在可接受的时间内完成任务。

 

第一台电子计算机ENIAC

Mac mini

 

       第三、有哪些料可喂?这其实是高维度光场数据的问题,到底需要哪些物理量来支撑任务,这就涉及到了计算成像的范式问题,而它恰恰却是最重要的一环,因为它涉及到了物理模型的问题,如果在物理上不能支撑任务实现,一切都归零。

 

       如果我们能在大模型上做一些实验验证,当然更好。轻量化、本地化的AI主要面向任务性强的应用,裁剪模型、简化参数、目的性强的靶向数据都是重点,甚至设计出面向任务的专用AI芯片,只有这样,才能将AI用到卫星、飞机、导弹、车船等装备中,发挥AI的作用,才不至于与智能脱节。

 

       在人工智能时代,我们正确对待它的态度是要去拥抱它,而不是“躲进小楼成一统,管他冬夏与春秋”。

 

 

六、思考

 

       计算成像的本质是高维光场获取和解译,其面临最大问题是高维度光场的内涵到底是什么?它都能干什么?潜力有多大?还能拓展多少应用呢?这些需要我们从事计算成像技术的人员好好去发掘,也可以借助于AI拓展我们对高维度光场的认知能力。一个简单的例子就是偏振相机大家都说好,商家进了几台却很少能卖出去,就是因为大家对偏振成像的理解还远远不够。

 

       然后,我们来看人工智能,它归属在计算机科学学科中,但学科的划分在很多时候会严重影响科学体系的发展,因为我们人为地筑起了一道篱笆:守着自己不越界,也不想别人越界。学科划得越细,对人的限制越严重。看起来繁杂的世界,运行的基本规律却也着实简单,因为唯有简单才是通向科学自由的大道。自然科学的本质是哲学,打破学科的界限,虽然很难,但从哲学的角度考虑问题,注重逻辑,突破也不是难题。当然,最难的是破了心中的那道壁垒。

 

       无疑,人工智能是一个很好的工具,它带来的颠覆性变革会改变很多行业。对于计算成像而言,它既“物理”又有“逻辑”,不仅可以给人工智能、尤其是生成式AI带来更丰富的数据,让SORA之类的模型更符合物理规律,而且能给AI带来新的增量,拓展AI的应用范围。同时,在计算成像中,有机融合AI,也会带来颠覆性的结果。

 

下期预告:基因、光场与信息密码

 

       人是基因的载体,基因的本质是遗传密码。光场是计算成像信息的载体,我们习以为常的强度图像却只给我们带来了部分信息,还有很多信息隐藏在高维度光场中。那么,我们能否从基因的角度探索光场中的信息密码呢?

 

作者简介

 

 

       邵晓鹏,教授,西安电子科技大学光电工程学院院长,西安市计算成像重点实验室主任,173重点项目首席,科普作家。主要研究方向:计算光学成像技术、光电图像处理与模式识别、光电仪器研制与测试。现任国家部委专业组专家,中国光学工程学会常务理事、中国光学学会理事、陕西省光学学会副理事长、陕西省光学工程学会副理事长、西安市激光红外学会副理事长;光场调控及其系统集成应用福建省高校重点实验室学术委员会主任;**工业光电信息控制和安全技术等10余个重点实验室学术委员会委员。Advanced Imaging主编,Ultrafast Science副主编,《应用光学》副主任委员,《激光与光电子学进展》《光学精密工程》《光子学报》《系统工程与电子技术》《数据采集》《光电技术应用》《激光与红外》《集成技术》《西安电子科技大学学报》等期刊编委。

 

 

       张桐,准聘副教授,现工作于西安电子科技大学光电工程学院计算成像研究所。主要研究方向包括X射线断层成像技术和编码光谱成像技术。近年来参与了国家自然科学基金重点项目、面上项目及国家重点研发计划课题等项目研究,取得了多项具有重要学术意义和应用价值的研究成果。在Opt. Express、IEEE Trans. Comput. Imaging、IEEE Geosci. Remote Sens. Lett. 等国际重要学术期刊发表SCI论文6篇,申请/授权发明专利6项。

 

 

       相萌,准聘副教授,现工作于西安电子科技大学光电工程学院计算成像研究所。主要从事计算成像在空间遥感、工业检测、生物医学等典型交叉学科的应用研究,具体研究方向为光学合成孔径成像、傅里叶叠层超分辨成像等;近年来主持或参与了包括国家自然科学基金、JKW预研基金、高分辨率对地观测系统重大专项、重点实验室基金等国家及省部级纵/横向项目十余项。在Optics Letters、Frontiers in Physics等国内外重要学术期刊共发表SCI论文多篇,任Optics Letters, Applied Optics,JOSA A等多个国际期刊审稿人。

 

原文链接:https://mp.weixin.qq.com/s/yD2x2qJG4cRyjpSbiTtMlQ