假如有人让你画一只小鸟,你年夜概得先线条起稿、弥补细节,然后着色,全部进程也得个把小时。微软比来宣布了一项新的人工智能项目,名为绘画机械人(drawing bot),可以将文字转换成丹青(text-to-image)。
1
反抗生成收集
何晓东是微软深度进修技巧中间的担任人,也是 text-to-image 项目标焦点人员之一。他说,跟收集搜刮获得的图片分歧,绘画机械人给你的图案都是依照必定的指令一点一点画出来的,也有能够它画出来的器械这个世界上其实不存在。
绘画机械人的焦点技巧是反抗生成收集(Generative Adversarial Network,即 GAN),听这个是否是感到很难明想溜,别急,微软亚洲研讨院在知乎专栏里举了个很好的例子。
女生拉男票给本身摄影,拍完第一张,女生说:你要学一下谁谁谁的构图;
拍完第二张,女生又说,你要学一下谁谁谁的调色;
拍完第三张,女生再说,你要学一下谁谁谁的感到;
……重复几回,女生才终究承认了男票拍出来的照片。
这个男朋友摄影血泪史就是生成反抗收集。生成反抗收集它有两个任务模子,一个担任依据文字生成图片(generator),另外一个依据文字评判生成的图片(discriminator),这两个模子赓续互相博弈、又互相进修,直到 discriminator 再也没有才能断定这个图形,「生成模子」便可以班师了。
2
研讨过程
这个项目其实不是比来新出的,何晓东与他的团队曾经研讨了 5 年了。
他们最早推出过一个 Captionbot,只需你上传一张图,这小我工智能就会主动为图片配一段文字;接着,他们又将这个技巧进一步成长,你可以依据图片上的事物停止发问,人工智能会答复你提出的成绩。这个时代的技巧,有点像小先生的看图作文、看图答复成绩。
早在 2017 年 1 月份,在 arXiv.org 上就何晓东团队刊登了一篇引见 text-to-image 的论文,这项技巧名为生成反抗收集(Attentional ,简称 AttnGAN)。而比来微软正在停止的 text-to-image 项目,生成的丹青质量将是之前的 3 倍。
与依据图片停止文字描写技巧比拟,text-to-image 的难点在于,绘画机械人要描写出更多细节,而这些细节是文字论述中所没有的,这就请求你的人工智能主动「脑补」。
研讨绘画机械人有极年夜的科研意义,这是盘算机视觉研讨(computer vision)和天然说话处置(natural language)这两个研讨范畴的一次融会。怎样懂得呢?盘算机视觉研讨的是机械若何去看,也就是说让机械像人眼一样去对待这个世界、而且停止图象处置;而天然说话处置,研讨的就是人与人工智能之间若何用我们平常的说话停止交换。
3
绘画机械人的现实运用
绘画机械人固然今朝仍处在研讨阶段,然则界内猜测,它一旦涌现,将会有极年夜的现实用处。
好比,它可以作为画家或许设计师的助理,乃至可以帮他们完成草图。
依据何晓东的想象,绘画机械人还可以赞助片子任务者,可以依据片子脚本直接生成影片,这可以节俭年夜量的人力。片子从业人员莫哭。
人类为营生斗争了这么多年,没想到最年夜的竞争敌手倒是机械人。而何晓东表现,人类和人工智能配合生涯在这个地球上,两边是须要找到一种沟通的方法的,而最好的沟通方法就是说话和图象。这话似乎很顺耳,然则你有无认为有细思极恐的感到?