清华计算机系副教授、系党委副书记贾珈介绍“华智冰”的三种表情设计。本文图片澎湃新闻记者程婷图
近日,清华大学计算机系知识工程实验室的一名特殊新生——中国首个原创虚拟学生“华智冰”,引发社会关注。
数字虚拟人“华智冰”拥有持续的学习能力,能够逐渐“长大”,不断“学习”数据中隐含的模式,包括文本、视觉、图像、视频等,就像人类能够不断从身边经历的事中来学习行为模式一样。随着时间的推移,“华智冰”可以从新场景中学到新能力,并有机地融入自己的模型中,从而变得越来越聪明。
6月15日,清华计算机系举行“华智冰”成果发布会,正式宣布“华智冰”入学清华计算机系,师从清华计算机系副主任唐杰教授,并开启在清华的学习和研究生涯。
“华智冰”为何被设定为一名清华本科生?她在清华的“本科学习”计划是怎么样的?相比一般虚拟人,“华智冰”有哪些过人之处?未来“华智冰”能否投身社会服务工作?她会不会被打造成能够真正行走在清华校园的实体机器人?对于澎湃新闻提出的这些问题,研发团队的老师们一一进行了解答。
“华智冰”的老师、清华计算机系副主任唐杰教授介绍希望“华智冰”具备的9种能力。
“华智冰”的人设为何是一名本科生?
“华智冰”为何被定义为本科生?
“其实目前也可以说‘华智冰’还是小学生。”唐杰告诉澎湃新闻,“我们把它定义为一名本科生,是因为她非常聪明,而且在快速成长,但她好像又没那么聪明,还有很多东西要学。她可以作诗,写短文章,做音乐,但是她又并没有一下子就完全超越了我们。”
事实上,现在的“华智冰”已经会四种舞姿,可以根据音乐的急缓调整动作,可以根据某个字作诗,也可以根据某几个关键词创作一幅画,甚至可以写一些短的文章了。
研发团队告诉澎湃新闻,在下一阶段会向“华智冰”输入大量的琴棋诗画数据,以及一些其它目标数据,让她变得越来越聪明。
谈及“华智冰”为何被设定为清华学生,唐杰解释道,“我们研发团队的大部分人是清华人,大家觉得如果设计一个AI(人工智能)主体进入清华,让她不断成长,这是一件很让人引以为豪的事。”
多才多艺的“华智冰”会不会写新闻报道?唐杰告诉澎湃新闻,“让她写一篇关于某件事的一两百字的消息稿,她能写得比较准确。我们在教育她的过程当中,展示一些内容给大家猜是‘华智冰’写的还是人写的,很多时候大家已经很难猜出来了。但让她写一篇高考作文还有点难,或者说她可以写得出来,但得不了高分。这方面还需要不断培养,我们会向她输入大量的语料数据,让她不断进行学习——她可以24小时不断学习,成长速度会非常快。”
关于“华智冰”的学习任务安排,她的导师唐杰表示,一年内希望华智冰能“泛读”天下书,把现有的所有数据都读进去,学习足够多的语料;第二年希望“华智冰”从数据中挖出一些隐含模式,把一些深层的知识学下来;第三年希望她能够像我们人一样创新、产生新的知识。远期目标是,希望“华智冰”具有认知能力,像人一样思考,甚至在很多任务上超越图灵测试,获得通用机器学习的认知能力。
研发团队希望,“华智冰”能够依靠一个大模型,在面对不同的学习阶段和应用场景时,不是重新训练模型,而是反过来丰富、增强模型。
虚拟人“华智冰”会否被打造成实体机器人?
近期“华智冰”的宣传短片出来后,一些网友误以为“华智冰”是一个能穿着白球鞋行走在清华校园中的具象仿真机器人。
未来,“华智冰”是否会被打造成实体机器人?她将以什么为载体来与大众见面?
对此,唐杰告诉澎湃新闻,“华智冰”2D和3D的形象后续会发布,那是一个完全类似真人的虚拟形象。
至于是否打造实体机器人,唐杰表示,这是一个有争议的问题。
“实体机器人到底给AI提供了多少智力上的改变?需不需要做这件事?这些我们还在探讨,还没有得出一个100%的结论。”唐杰说,“我们尝试过将‘华智冰’装进一些实体机器人中,但这并不表示她就是一个实体,或者她因此获得了多大增量。”
“华智冰”与其他虚拟人有何区别?
谈及“华智冰”与其他虚拟人的区别,唐杰说,“‘华智冰’相当于把形象和大脑结合起来了。我个人的想法是将它真正主体化,让她能够像自然人一样与人交流互动。这种交流对话是基于她所具备的条理性与逻辑性,结合上下文自己新生成的,而非针对预设问题与答案检索出来一些既定的回答或语句。”
尽管未来是否会有实体机器人版的“华智冰”尚无定论,但唐杰认为,未来十年各种实体机器人会越来越常见,或许会迎来一个实体机器人的时代。
类似真人的仿生机器人,唐杰认为未来也会有很多,但做成一个非常接近真人的实体机器人并非科研的终极目标,而把一个人工智能人做成什么形态,更多是要看它的功能定位。比如一个送餐机器人,它在功能设计中是托盘越大越好、安全性越高越好,而非越像真人越好。
“华智冰”的出现会对人工智能领域的发展产生哪些影响?在唐杰看来,最大的影响就是人工智能将由原来的算法为主,变为未来的AI主体为主。“这算是一项开创性的研究,未来可能有很多人会以‘AI主体’的思维,来重新思考和定位人工智能的发展。”唐杰说。
“算法为主”与“AI主体为主”之间有何区别?唐杰解释,人脸识别体现的就是以算法为主体的思维,而AI主体思维,就是将人工智能的大脑看作一个主体,这个主体会有自己的人设,会自己学习、成长,甚至具备智商与情商,能够自己做一些决策。
“华智冰”背后:百人团队24小时轮流熬夜攻关
“华智冰”是由清华计算机系、北京智源研究院、智谱AI和小冰公司联合培养的。其核心组件是利用数据和知识的双轮驱动,打造了一个“智能数字脑”,这一数字脑不仅能搭载在实体机器人上,未来还能装在数字人、全息人、手机和电脑上,可以更加方便地进入人们的日常生活。
这背后靠的强大研发团队支撑。唐杰介绍,有100多人参加“华智冰”项目的研发攻关。这100多人中,有七八十名清华学生。在算法部分,比如将文字转为图画,或者通过文字生成文字等很多工作,是清华的博士生及青年教师等参与完成的。
在“华智冰”的诞生过程中,研发团队也克服了很多困难和问题。
唐杰说,研究之初,团队想做一个大模型,但面临着没数据、没算力、人不够等诸多问题,后来找了很多数据公司合作,希望通过共享模式推动合作,一步步解决问题。
“为了解决研究人员的问题,我们也找了很多校内校外的老师,后来很多老师全凭兴趣自愿‘自带干粮’一起加入到了项目中。”唐杰说。
此外,做大模型后台需要很多CPU,需要强大算力。为了解决算力问题,研发团队成员合作,在一个CPU的基础上重新进行了底层开发,设计模型。
“那段时间我们的学生也跟着轮流熬夜,到了晚上12点,一拨人回去休息,换另一拨人来继续编程,跑程序,基本每天24小时都有人在工作。”唐杰回忆。
“华智冰”的整个研发工作已持续了一年多时间的。现在的“华智冰”依托于有着超大规模人工智能预训练模型“悟道2.0”,达到1.75万亿参数,创下了全球当今最大预训练模型纪录。
尽管“华智冰”已入学清华,师从唐杰,但唐杰表示,“华智冰”未来成长还将继续实行多方联合培养。
“我们研发‘华智冰’是以情怀为主,并且她不是属于某人的资产,所以我们希望团结和协调各方一起共同努力,探究人工智能的极限,让‘华智冰’变得越来越聪明。”唐杰说。
清华计算机系主任尹霞表示,推出虚拟学生“华智冰”,是希望把清华计算机系目前在人工智能领域的各项技术融合在一起,借助“华智冰”,实现数据、知识双轮驱动的应用系统,并力争让她成为计算机理论和应用研究深度融合的典型示范。