2023-09-20 威尼斯9499登录入口

多模态人工智能前沿技术讲习班

主办：中国自动化学会模式识别与机器智能专委会

承办：威尼斯9499登录入口

协办：云南云上云大数据产业发展有限公司昆明市人工智能计算中心

时间：2023年9月22号-24号

地点：云南省昆明市呈贡区南亚豪生酒店·南亚厅

近年来，人工智能理论、方法和技术快速发展，尤其是深度学习技术带动了智能任务的性能快速提升和在社会多个领域的成功应用。由于实际应用场景数据动态变化、多模态协同的特点，多模态人工智能成为人工智能理论方法发展的重要方向。多模态人工智能面向复杂动态多模态场景的数据理解、学习和推理，涉及自然语言处理、计算机视觉、模式识别、语音识别和多模态融合等领域。人工智能大模型的发展和应用在人工智能领域产生了巨大的影响，也将在多模态人工智能中发挥关键作用。

为了给本领域研究者、技术开发人员和研究生介绍多模态人工智能前沿理论方法和最新进展，中国自动化学会模式识别与机器智能专业委员会主办这次前沿技术讲习班。本次讲习班由威尼斯9499登录入口承办，中国科学院自动化研究所刘成林研究员、华南理工大学金连文教授、威尼斯9499登录入口陶大鹏教授担任学术主任，邀请了多名人工智能领域的知名专家作报告，使学员在了解学科热点和基础理论方法、提高学术水平的同时，增进与多模态人工智能领域顶尖学者之间的学术交流。

特邀讲者

刘知远

清华大学教授

Elsevier中国高被引学者

讲座题目：语言基础模型的重要特性

摘要：近年来以BERT、GPT为代表的预训练语言基础模型，使人工智能技术进入“预训练-微调”的全新范式，特别是最近ChatGPT引爆了全社会对基础模型技术的关注。本报告重点介绍语言基础模型的基本原理，在智能能力方面体现的强大通用特性，在模型框架、微调适配、推理计算等方面体现的模块化计算特性，以及在多模态、工具学习、群体智能、安全性等方面体现的全新智能特性，并探讨大模型未来的研发应用范式。报告提纲：1. 人工智能与大模型；2. 大模型的通用特性；3. 大模型的参数模块化计算特性；4. 大模型支持的多模态、工具学习、群体智能等智能特性；5. 大模型安全问题；6. 总结与未来展望。

讲者介绍：刘知远，清华大学计算机系副教授、博士生导师，主要研究方向为自然语言处理。2011年获得清华大学博士学位，已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇，Google Scholar统计引用超过3.2万次。曾获教育部自然科学一等奖（第2完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖（第2完成人）、中国中文信息学会汉王青年创新奖，入选国家青年人才项目、北京智源研究院青年科学家、2020-2022连续3年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。

特邀讲者

王井东

百度计算机视觉首席科学家

IEEE/IAPR Fellow

讲座题目：视觉大模型：自监督预训练以及在文心·CV大模型中的实践

摘要：本报告首先回顾计算机视觉领域里的自监督预训练算法最近几年的进展，包括对比学习和图像掩码建模等。其次，介绍文心·CV大模型中的自监督表征学习算法Context Autoencoder（CAE）和基于预训练的目标检测算法Group DETR等，同时，从学习物体部件的角度，给出几个典型的自监督预训练算法（BEiT、MAE、CAE、MoCo v3及DINO）的特点（TMLR）。再次，讲述基于CAE和Group DETR的工业视觉大模型、OCR文字识别大模型（MaskOCR）、人体大模型等。最后，分享图文对比预训练大模型在自动驾驶数据挖掘中的应用和基于多任务学习的交通感知大模型。

讲者介绍：王井东，百度计算机视觉首席科学家，负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前，曾任微软亚洲研究院视觉计算组首席研究员。2001年和2004年在清华大学获得学士和硕士学位，2007年在香港科技大学获得博士学位。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络HRNet、基于transformer的图像语义分割网络OCRNet、以及基于近邻图的大规模最近邻搜索SPTAG（最早把近邻图的方法用于实际搜索和推荐业务，是Bing搜索底层向量搜索的核心技术）等。在微软工作期间，科研成果10多次转化到微软的关键产品和业务中去，包括搜索、广告、OCR、小冰聊天机器人等。在百度带领团队研发的技术已经广泛应用于百度的搜索、智能云以及自动驾驶等重要产品和业务中。他曾担任过许多人工智能会议的领域主席，如 NeurIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。他现在是IEEE TPAMI和IJCV的编委会成员，曾是IEEE TMM和IEEE TCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献，他被遴选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE/IAPR Fellow)、国际计算机协会杰出会员 (ACM Distinguished Member)。

特邀讲者

刘静

中国科学院自动化研究所研究员，中国科学院大学教授

国家优青

讲座题目：多模态预训练的研究进展回顾与展望

摘要：近年来，从预训练模型到预训练大模型，从文本、音频、视觉等单模态大模型，到现在的图文、图文音等多模态预训练大模型，无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行模型学习，其发展在多模态理解、搜索、推荐、问答，语音识别与合成，人机交互等应用领域中具有潜力巨大的市场价值。本报告主要包含三方面内容：分析多模态预训练模型的重要性与必要性；回顾当前多模态预训练的最新研究进展；多模态预训练模型主要应用场景与未来展望。

讲者简介：刘静，中科院自动化所研究员/博导，中国科学院大学岗位教授，国家优青获得者。研究方向多模态分析与理解，紫东太初大模型。曾获中国电子学会自然科学一等奖，图像图形学会科学技术二等奖，2022年世界人工智能大会“卓越人工智能引领者奖SAIL”。承担或参与多项国家自然科学基金项目、国家973课题、国家基金重大研究计划、国家重点研发等。已发表高水平学术论文150余篇，谷歌学术引用12000+次，SCI他引次数5000+次，其中有三篇被ESI列为Top1%高被引论文。在视觉计算相关领域的多项国际学术竞赛中荣获冠军10+项。

特邀讲者

纪荣嵘

厦门大学教授

国家杰青，中组部万人计划青年拔尖人才

福建省“闽江学者”特聘教授

讲座题目： 从ChatGPT到国产多模态基础大模型

摘要：随着深度学习技术的快速发展，ChatGPT作为自然语言处理领域的重要突破，引起了广泛关注。本次探讨ChatGPT在自然语言处理领域中的重要性以及其所具有的优秀特性，继而引出国产多模态基础大模型的研发意义，以及如何通过结合多模态数据和深度学习技术来实现新型国产化基础模型的构建。具体来说，将讨论多模态数据的处理方法、模型构建的关键技术以及如何实现紧致化部署等相关技术点。本讲座的研究成果将为解决多模态大模型的部署难题和提高模型性能和效率提供借鉴和参考。

讲者介绍：纪荣嵘，厦门大学南强特聘教授，科技处处长，人工智能研究院负责人。国家杰出青年科学基金获得者、国家优秀青年科学基金获得者。长期从事计算机视觉与机器学习等人工智能领域前沿技术研究，近年来发表TPAMI、IJCV、ACM汇刊、IEEE汇刊、CVPR、NeurIPS等会议长文百余篇。论文谷歌学术引用1.9万余次。曾获2016年教育部技术发明一等奖、2018年省科技进步一等奖、2020年省科技进步一等奖、2021年教育部技术发明二等奖、2022年霍英东青年科学奖。曾/现主持科技部科技创新2030重大项目、军科委基础加强项目、国家自然科学基金联合重点、教育部装备预研创新团队项目等。任中国计算机学会A类国际会议CVPR和ACM Multimedia领域主席、中国图象图形学学会学术工委副主任、教育部电子信息类教指委委员，人工智能国家标准工作组联合组长。

特邀讲者

李崇轩

中国人民大学高瓴人工智能学院助理教授

吴文俊人工智能自然科学奖获得者

讲座题目：扩散模型与视觉内容生产

摘要：扩散模型与AIGC 摘要：扩散概率模型逐步地对先验分布去噪恢复数据分布。目前，这类模型在数据合成质量、采样的多样性和数据密度估计等指标下取得了超越 VAE、GAN、FLOW 等经典深度生成模型的结果，也部署于诸多的图像、跨模态大规模生成模型。本次报告会介绍扩散概率模型的基本原理、加速推断算法、大规模训练和可控生成等AIGC应用的前沿进展。

讲者介绍：李崇轩，中国人民大学高瓴人工智能学院助理教授，博士生导师。研究方向为概率机器学习。他的代表性工作有Triple-GAN，Analytic-DPM，ProlificDreamer等。李崇轩获机器学习领域重要国际会议 ICLR杰出论文奖、吴文俊人工智能自然科学奖一等奖、吴文俊人工智能优秀青年奖、北京市科技新星计划、中国博士后创新人才支持计划、中国计算机学会优秀博士论文，主持国家自然科学基金面上项目。

特邀讲者

王兴刚

华中科技大学教授

国家“四青”人才

国家“四青”人才，Elsevier Image and Vision Computing期刊联合主编

讲座题目：高性能视觉目标检测分割和跟踪

摘要：视觉目标检测分割和跟踪技术是计算机视觉中的基础任务，具有重要的应用价值。本次报告将围绕视觉目标检测分割和跟踪技术，梳理近年来的技术发展路径，并从预训练大模型、开放场景感知、模型轻量化部署等方向做前沿技术介绍。

讲者介绍：王兴刚，华中科技大学，电信学院，教授，博导，国家“四青”人才计划入选者, Elsevier Image and Vision Computing期刊联合主编。主要研究方向为计算机视觉和深度学习，研究工作见：https://xwcv.github.io。分别于2009年和2014年在华中科技大学获得学士和博士学位，博士期间在美国天普大学、加州大学洛杉矶分校（UCLA）访问研究。在IEEE TPAMI、CVPR、ICML等顶级期刊会议发表学术论文60余篇。谷歌学术引用次数超过1.7万次，单篇论文最高引用1800余次。担任CVPR 2022, ICCV 2023领域主席，Pattern Recognition (IF 7.196), Electronics (IF 2.412)期刊编委。入选中国科协“青年托举人才工程”、获CSIG青年科学家奖、吴文俊人工智能优秀青年奖、“微软学者”奖（全亚洲10名获奖者）、CCF-腾讯犀牛鸟科研基金优秀奖、华为优秀技术合作项目奖、湖北省自然科学二等奖（4/4），主持国家自然科学基金项目3项。

特邀讲者

林倞

中山大学教授，国家杰青

万人计划青年拔尖人才

IET Fellow, IEEE THMS编委

讲座题目：视觉场景理解与推理问答

摘要：近年来，以Transformer为核心的神经网络架构快速发展，网络规模日益庞大，并以此为基础推动了无监督/自监督学习技术的跳跃式发展，逐步形成一套被称为大模型或者基础模型的技术范式。本报告将梳理这套基础模型技术在视觉场景和推理问答中的应用。

讲者介绍：林倞，中山大学计算机学院教授/博导，国际模式识别学会会士(IAPR Fellow)，英国工程技术学会会士(IET Fellow)。长期从事计算机视觉、机器学习及智能机器人领域的应用基础研究，承担国家2030科技创新重大项目。在国际顶级学术期刊和会议发表论文300余篇，论文被引用累计3万次；获权威期刊Pattern Recognition年度最佳论文奖，多媒体计算旗舰会议ICME最佳论文钻石奖，计算机视觉旗舰会议ICCV最佳论文奖提名；获中国图像图形学会科学技术一等奖、吴文俊人工智能自然科学奖，省级自然科学一等奖。

特邀讲者

刘成林

中国科学院自动化研究所研究员

模式识别国家重点实验室主任

国家杰青、IEEE Fellow, IAPR Fellow

讲座题目：鲁棒自适应模式识别

摘要：模式识别是人工智能领域的核心研究方向。传统的模式识别和机器学习假设闭合类别集、独立同分布、大数据训练。然而在开放环境下，包括深度学习在内的已有方法面临一系列新的技术挑战。尤其是，识别对象从闭合世界扩展到了开放世界，对新类别模式、异常和噪声模式的建模与处理成为困难，由此产生了开放集识别、置信度估计、持续学习等大量研究工作。本报告对开放环境模式识别的研究问题进行分析，并专门针对开放鲁棒性和类别增量学习进行深入讨论。主要内容包括：开放环境鲁棒模式识别的研究问题，开放集识别的模型和算法，深度模型置信度校准，类别增量学习，开放环境模式识别的未来发展趋势。

讲者介绍：刘成林，中国科学院自动化研究所副所长，模式识别国家重点实验室主任，研究员、博士生导师，中国科学院大学人工智能学院副院长。1989年、1992年、1995年分别在武汉大学、北京工业大学、中国科学院自动化研究所获学士、硕士和博士学位。1996年至2004年先后在韩国科学技术院、日本东京农工大学、日立中央研究所从事博士后和研发工作。2005年起在中国科学院自动化研究所任研究员。2008年获得国家杰出青年科学基金。研究兴趣包括模式识别、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇，合著英文专著一本。现任Pattern Recognition期刊和《自动化学报》的副主编，以及多个期刊的编委。任国际模式识别学会副主席，中国人工智能学会副理事长、会士，中国自动化学会会士、模式识别与机器智能专委会主任，中国图象图形学学会常务理事。美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)

讲习班学术主任

刘成林

中国科学院自动化研究所研究员

模式识别国家重点实验室主任

国家杰青、IEEE Fellow, IAPR Fellow

刘成林，中国科学院自动化研究所副所长，模式识别国家重点实验室主任，研究员、博士生导师，中国科学院大学人工智能学院副院长。1989年、1992年、1995年分别在武汉大学、北京工业大学、中国科学院自动化研究所获学士、硕士和博士学位。1996年至2004年先后在韩国科学技术院、日本东京农工大学、日立中央研究所从事博士后和研发工作。2005年起在中国科学院自动化研究所任研究员。2008年获得国家杰出青年科学基金。研究兴趣包括模式识别、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇，合著英文专著一本。现任Pattern Recognition期刊和《自动化学报》的副主编，以及多个期刊的编委。任国际模式识别学会副主席，中国人工智能学会副理事长、会士，中国自动化学会会士、模式识别与机器智能专委会主任，中国图象图形学学会常务理事。美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。

讲习班学术主任

金连文

华南理工大学教授

教育部新世纪优秀人才

广东省“珠江学者”特聘教授

金连文，华南理工大学二级教授，兼任广东省图像图形学学会理事长、中国图像图形学学会（CSIG）常务理事、CSIG文档图像分析与识别专委会主任、中国自动化学会模式识别与机器智能专委会常委委员等职。主要研究领域为人工智能、计算机视觉、文字识别、文档图像理解等，在重要学术期刊及国际会议上发表学术论文300余篇，其中SCI Q1区+CCF A类论文100余篇，Google Scholar论文被引用数12000余次，H-Index 58，获得授权发明专利70余项目。获省部级科技奖5项（其中一等奖2项，二等奖3项）；指导学生参加权威国际国内学术竞赛荣获冠军20余次。

讲习班学术主任

陶大鹏

威尼斯9499登录入口教授

陶大鹏，教授、博士生导师，中国认知科学学会认知与类脑专委会委员，中国科学院深圳先进技术研究院客座研究员，中国科学院大学博导。主要从事人工智能、大数据、机器人等领域的研究工作，现任国际刊物IEEE Transactions on Emerging Topics in Computational Intelligence, IEEE Internet of Things编委。在SCI JCR1区和国际顶级会议发表论文超过50篇（其中包括ICCV、ECCV、CVPR、IEEE汇刊T-IP、T-NNLS、T-GRS、T-MM、T-IFS、T-CSVT等）。主持包括国家自然科学基金、云南省重点研发计划等在内的科研项目10余项。已获省部级奖励8项，2020年获云南省科学技术奖（自然科学）二等奖，2017年获得教育部高等学校科学研究优秀成果奖（自然科学）二等奖，2016年获得广东省科学技术奖（技术进步）二等奖，2015年度陕西省科学技术奖（自然科学）一等奖。