贝尔链

沈向洋:“一言胜千图”年代到来,人工智能GC将发生颠覆式变化

快讯 2022-11-23 20:1394www.jiubaohm.com未知

出处:澎湃新闻

记者 邵文

·“单从技术角度而言,人工智能GC所拥有的能力还不够全方位,目前只不过从文字生成图像,但事实上大家想要的可能更多,譬如对已经生成的图像进行交互式编辑。而对专业范围如服饰设计,则需要很特定的模型。这个故事才刚最初。”IDEA研究院讲席科学家、“盖亚计划”负责人张家兴在采访中表示。

首个中文Stable Diffusion模型“太乙”依据油画“君不见黄河之水天上来”生成的图片。

11月22日,在深圳举行的2022 IDEA大会上,粤港澳大湾区数字经济研究院创院理事长沈向洋在发布会上推荐了他对前沿技术的怎么看与对将来趋势的判断,其中他谈到了当下人工智能进步的技术趋势,提到风头正劲的人工智能GC,将其概括为“从一图胜千言到一言胜千图”。沈向洋觉得,随着算力和数据的数目级增长,与大模型持续迭代, 人工智能GC范围将发生颠覆式变化,怎么样用好人工智能数字生产力,是各类企业和创业团队下面要考虑的问题。

IDEA研究院公布了专注于人工智能GC范围的项目——“盖亚计划”,这一项目已于今年11月1日正式开源了自主研发的首个中文Stable Diffusion模型“太乙”,旨在更好地帮助中国人工智能GC文化产业数字化转型的革新进步。

DALL.E依据语言描述生成的牛油果形状扶手椅。

“每一个人都是达芬奇”

人工智能GC,即便用语言描述就能通过AI自动生成生动的图片甚至视频,譬如Open人工智能的图像生成模型DALL-E。

“AI大模型进步的规模和速度,都到了今天大家不可忽略的地步。最新的技术可以通过一句话,创造出数不清的图像,每张都有我们的特征。可谓从一图胜千言,到了一言胜千图。”沈向洋在IDEA大会上说, “我从事计算机视觉研究这么多年,假如三五年前告诉我能做出如此的成效我是不会相信的。”

沈向洋谈到,AI技术将在文本生成图像等范围开启新的技术趋势。今年发布的DALL-E 2、最近备受热议的Stable Diffusion等模型,为大家展示了人工智能数字生产力在图像生成乃至艺术创作上的强大力量。

“人工智能GC非常重要的是,可以帮助每一个人在有艺术创作冲动时做一些事情。”沈向洋说,“有人研究过历史上为何有的艺术家一辈子只能画几张画,而其他艺术家可以画不少画,这其中最著名的就是达芬奇。艺术史研究者专⻔研究后发现:达芬奇那样多的作品不是他自己画的,而是带了不少徒弟。”而到了目前,“每一个人都是‘达芬奇’,AI就是每一个人的小徒弟。”

沈向洋觉得,现在人工智能GC能达成如此的成效有三个技术基础:巨大的数据量、庞大的算力和新的深度学习算法。“这个结果代表了今天AI可以达到的高度和方向。”

“这个故事才刚最初”

这个突破是怎么样达成的呢?IDEA研究院讲席科学家、“盖亚计划”负责人张家兴对澎湃科技表示,从整个人工智能的进步经历来讲,“此前大家更多在研究人工智能怎么样剖析和理解,譬如图像辨别、人脸辨别、文本情感剖析等。然后这个技术趋于成熟,这个时候大伙亟待有一个新的人工智能能力出现。”

在人工智能GC的探索过程中有一个要紧的思路转换:不是用人工智能理解内容,而是用人工智能来直接生成内容。“原来的技术趋势,如卷积神经互联网从输入基本图像到输出大家想要的结果,过程就是对原始输入有愈加抽象的理解。而当下的生成,事实上是一个反向的过程——从一张完全模糊的图像开始想象,最后呈现明确的图像。”张家兴对澎湃科技解答道,这个过程大概从2015年左右开始,尝试了六七年的时间后,终于目前有一些模型上的进步,如Diffusion模型,于是才有了如此一个大的突破。

Diffusion模型通过概念一个不断加噪声的前向过程来将图片逐步变为高斯噪声,再通过概念一个逆向过程将高斯噪声逐步去噪变为明确图片以得到采样。

Diffusion模型在用上一个很大的限制就是采样速度,模型采样需要从纯噪声图片出发,一步一步不断地去噪,最后得到明确的图片。据11月发布的最新研究,清华大学计算机系教授朱军带领的TS人工智能L团队将扩散模型的迅速采样算法提高到了极致:不需要额外练习,只需要10到25步就能获得极优质的采样,采样8张图片的时间从原来的8秒钟被缩短至4秒钟。

此外,对于当下存在的问题,张家兴表示,“单从技术角度而言,人工智能GC所拥有的能力还不够全方位,目前只不过从文字生成图像,但事实上大家想要的可能更多,譬如对已经生成的图像进行交互式编辑。此外,对专业范围如服饰设计,那就需要很特定的模型。”

“这个故事才刚最初。”张家兴说。

“中文人工智能GC年代”

现在在国内,大多数团队主要基于翻译API+英文Stable Diffusion模型进行开发,Stable Diffusion被叫做当下最强的人工智能图像生成器。然而,因为中英文之间的文化差异,在遇见中文独特的叙事和表达时,这种模型就非常难正确匹配图片内容。

为知道决这个问题,“盖亚计划”最近开源了首个中文Stable Diffusion模型“太乙”。“大家这个项目的开源也标志着中文人工智能GC年代的到来。”沈向洋说。

“盖亚计划”由IDEA研究院认知计算与自然语言研究中心发起,致力于在预练习大模型年代建设认知智能的基础设施,是国内现在唯一以开源为目的的技术团队。

为何这样重视开源?和人工智能GC本身的技术门槛有关。

“人工智能GC必须要依靠于预练习模型,而预练习模型的练习本身就是一个巨大的技术门槛。由于要想得到一个真的优质的人工智能模型,需要聚集很多的算力、数据与在练习模型方面有经验的人才。从这一点来讲,现在可以聚集如此资源的团队并不多。整个人工智能GC的预练习模型生产也呈现高本钱化的状况。”张家兴对澎湃科技表示。

而开源就意味着,下游的所有公司都可以免费用这个模型完成其商品革新。“这件事情尤为重要。其实这次国际上为何人工智能GC会如此兴起?这跟Stability 人工智能开源了其模型很有关。所以大家期望通过开源让整个产业成长。”张家兴介绍称这是IDEA研究院的一个长期目的。

张家兴提到的Stability 人工智能在十月宣布获得了1.01亿USD超额筹资,此轮筹资后,Stability 人工智能估值到达10亿USD,成为新晋独角兽。其资金将用于开发图、文、视频、音频和3D等多模态开源模型。

IDEA大会由IDEA研究院创院理事长、美国国家工程院外籍院士、前Microsoft公司全球实行副总裁沈向洋发起,致力在粤港澳大湾区搭建一个推荐AI技术和凝聚数字产业力量的国际化交流平台,发布年度科技趋势与革新商品,将前沿对话落实到数字经济年代的实践中。

上一篇:Stargate上线USD稳定币M人工智能流动性池 下一篇:没有了

贝尔链-Baer Chain (BRC)最新价格,行情走势图,币值分析 Copyright © 2002-2021 贝尔链 (http://www.yebogroup.cn/) 网站地图 TAG标签 备案号