2014年的1月上旬,正值辞旧迎新之际,孟繁岐手头的诸多事宜有快有慢,都恰巧在这个时间点上到了收获的时候。
重生归来之后,孟繁岐一直不确定自己这只扇动翅膀的蝴蝶,究竟可以改变世界多少。
自己之所以可以取得这些资本,创办这两家公司,完全依赖于这个世界的人无法观察到的另一个时空,这和“视界”这个物理意义颇有些类似。
并且,“视界”也与“世界”谐音,暗含了后续走向世界的决心。
因此,他将自己初次创办的两家公司,按照针对的技术方向分别注册为,视界视觉技术有限公司和视界智能医疗有限公司。
其中,智能医疗完全还只是空壳,暂时没有任何事情在推进当中。
而深度视觉这边,虽然相机App,相关滤镜、功能接口,和支付之类的功能已经在紧锣密鼓地准备。
可实际上,真正核心的模型部分却还在训练当中。
孟繁岐在自己的公司那边处理完起步初期的一些事务之后,再一次回到了谷歌尚海分部。
一方面是为了将推荐广告算法的后续两板斧挥完,二是为了验收一下自己的FaceGAN脸部生成模型。
“我这算不算是公器私用?”孟繁岐还真说不清楚。
FaceGAN是基于孟繁岐之前生成式网络的细分方向变体,主要用庞大的人脸图像数据集训练而成,其目的是为了针对人脸这一单一的元素进行逼真的生成拟合。
该技术目前并不具有非常强力的变现效果,一是因为所支持的像素还远远不够,二是因为想要达到足够好的效果,所需要的运算能力相当之大。
后续能够做到视频换脸,AI作画,各种图片的风格切换又或者是图片的高清修复之后,才具备实际商业价值。
因此,该技术将会是孟繁岐在与谷歌大脑签订合同之后,第一个贡献出去的正经视觉技术成果。
虽然该版本不具备很高的商业价值,可其所实现的功能很有象征意义,可以说已经给人类社会敲响了警钟。
在当初伊恩迟了孟繁岐一步,提出这个想法的那一天,本吉奥就已经预测到了类似的难题,不远的将来人们会开始面临和人工智能有关的伦理问题。
这些足以以假乱真的人工智能生成内容究竟如何监管,如何定义,如何限制又如何处理。
人类在这方面还是一片空白。
加州山景城,接到孟繁岐发来的FaceGAN论文,辛顿顿时感到一阵宽慰。
前段时间他也听说了,孟繁岐在谷歌尚海专营推荐广告算法,捞钱去了,这让他非常痛心。
在他看来,这些捞钱的事情谁都可以去做,可孟繁岐的才能不用来推进人工智能,尤其是视觉智能,反而跟着广告团队去捞钱。
这简直就是暴殄天物,瞎胡闹!根本不像话。
可谷歌毕竟是一家商业公司,广告又是拳头营收产品。
辛顿作为雇员,于情于理不方便表达什么意见,只得作罢。
此刻看到FaceGAN这个工作,得知孟繁岐还是在视觉智能上非常用心的,顿时老怀大慰。
“孟!好久不见!很高兴你在做推荐广告算法之余,没有忘记你的视觉算法!”视频电话拨通之后,辛顿喜悦表情溢于言表。
“我刚刚看完了你的论文,你的想法和操作非常巧妙。将生成器输入的随机噪声改为低分辨率版本的人脸图像,让生成器自己做上采样和微调修复。”
孟繁岐的生成式技术已经公布有两个多月的时间了,目前为止却还没有特别像样的跟进工作发表出来。
辛顿看了最为眼前一亮的,还得是GAN作者本人,孟繁岐针对人脸的这一系列操作。
“生成网络变种的潜力还是非常大的,我这次除了在结构和组件上做了一些微调,也对计量损失的函数稍微做了一些修改,增加了对抗损失以鼓励生成器做出高分辨率的人脸去欺骗判别器。”
孟繁岐和辛顿深入交流讨论了一番,但都是“生成”这方面的内容。
GAN系列网络的另一个强大的功能,“编辑”,孟繁岐则故意没有去提及。
这部分将会是相机App这几个月的首要买点,孟繁岐并不希望节外生枝。
由于时间的关系,他没有那么多精力做非常详尽的对比测试,并做出网站发布。
细致的实验部分,以及[这些人都不存在]这个假脸生成网站,都被委托给了谷歌大脑团队的其他同事去做。
隐而未发的隐藏层编辑功能,则和模型一起交给了自己的视界公司那边,如此一来明天就可以有一个最初测试版本了。
“你又做了两版推荐广告算法的更新?”周桓假期回来见到孟繁岐,招呼还没打完呢,就听到了一个让自己下巴掉在地上的消息。
“上回那个夸张的结果我到现在还没能消化完呢。”陈灰在旁边有些酸溜溜地说道,真是人比人会死啊。
自己两人圣诞连着元旦过完都还没能从先前的震惊当中缓过神来,这小子倒好,又带来两枚重磅炸弹来了。
“这回不会又闹个鸡飞狗跳吧?”周桓还记得上次的更新全部上线之后,虽然营收是增加了,可由于流量惩罚的打击面太广,相关的一些客服辅助员工全都被累爆了。
有不少缺德的垃圾场网站成员,装作无辜的样子不依不饶,非常折磨。
“这次还好,移动端的优化基本上是润物细无声的。语言理解方面也只是为了给用户更好的搜索体验,影响不会像上次那么大。”
谷歌和白度目前的搜索模式,只是机器无法理解语言含义的临时产物,过渡产物。
有点像电话发明前的电报,电话发明前曾有很多人觉得“电报已经足够好了,没有人会用电话这样的东西”。
但电话才更接近人们的真实需求。
搜索引擎也应该逐步拥有智能,而非只是机械性地检索用户输入的一字一句。
例如,相同的关键词在不同的语句和语境当中含义完全不同,这个现象在中文中尤其严重。
早期互联网用户在搜索东西的时候,经常使用几个关键词加空格的方式,就是因为搜索引擎无法理解长句。
如果你的句子太长内容太多,搜索出来的东西反而杂乱异常,或者干脆搜不出来。
不过现在一切都不一样了。
有了这个雏形的t方法模型,搜索引擎不但可以处理长句。
并且还可以非常好的处理那些,一字之差,含义天差地别的情况。
当然了,那种一个字都不需要改变,却又多种意思的,仍旧比较难办。
比如[喜欢上一个人]就有至少四种截然不同的含义。