唐胜  研究员  

研究方向:多媒体内容分析与检索;计算机视觉与深度学习;模式识别与人工智能

所属部门:前瞻研究实验室

导师类别:博导计算机应用技术

联系方式:ts@ict.ac.cn

个人网页:http://people.ucas.ac.cn/~shengtang

简       历:

    2006年3月博士毕业于中国科学院计算技术研究所(简称计算所)后留所工作,2008年3月起先后任副研究员和研究员、硕士生导师和博士生导师,中国计算机学会和中国图象图形学会多媒体专委会委员,国家重点研发计划“社会治理与智慧社会科技支撑”专项305项目专家。带领团队长期从事多媒体内容分析与检索、计算机视觉与深度学习、模式识别与人工智能研究;作为负责人主持10余项国家级科研项目,包括国家重点研发计划课题、国家自然科学基金项目等;发表多媒体、计算机视觉和人工智能的国际顶级会议和国际顶级期刊论文30余篇。研发的多项图像视频分析、检索与识别系统已经在国家相关部门获得大规模应用。主持了2014年全国首届特定音视频检索识别挑战赛视频评测;带领团队在美国NIST举办的视频检索国际评测TRECVID 2008和国际著名的ImageNet大规模视觉识别挑战赛(ILSVRC 2016)中取得优异成绩,并应邀做大会报告;在CCF A类国际顶级会议ICCV 2019长尾实例分割挑战赛、ACM Multimedia 2021多模态商品识别挑战赛夺冠。荣获国家自然科学二等奖1项、北京市科学技术一等奖3项、中国计算机学会科学技术一等奖1项、中国电子学会科学技术一等奖2项。

主要论著:

期刊文章(CCF A类期刊5篇,CCF B类期刊10篇,*表示通讯作者):

[1] Ziyao Huang, Fan Tang, Yong Zhang, Juan Cao, Chengyu Li, Sheng Tang, Jintao Li, Tong-Yee Lee: Identity-Preserving,Face Swapping via Dual Surrogate Generative Models. ACM Trans. Graph. 43(5): 161:1-19 (2024) .(CCF A类期刊)

[2] Linghui Li, Yongdong Zhang, Sheng Tang, Lingxi Xie, Xiaoyong Li, Qi Tian; “Adaptive Spatial Location With Balanced Loss for Video Captioning”; IEEE Transactions on Circuits and Systems for Video Technology, 32(1): 17-30, 2022. (CCF B类国际期刊)

[3] Lixi Deng, Jingjing Chen, Chong-Wah Ngo, Qianru Sun, Sheng Tang, Yongdong Zhang, Tat-Seng Chua; “Mixed Dish Recognition With Contextual Relation and Domain Alignment”; IEEE Transactions on Multimedia, 24: 2034-2045,2022. (CCF B类国际期刊)

[4] Tianyi Wu, Sheng Tang*, Rui Zhang, Guodong Guo; “Consensus Feature Network for Scene Parsing”;IEEE Transactions on Multimedia, 24: 3208-3217, 2022. (CCF B类国际期刊)

[5] Tianyi Wu, Sheng Tang*, Rui Zhang, Juan Cao, Yongdong Zhang; “CGNet: A Light-Weight Context Guided Network for Semantic Segmentation”; IEEE Transactions on Image Processing, 30: 1169-1179, 2021(CCF A类图像处理国际顶级期刊, 高被引论文)

[6] Rui Zhang, Sheng Tang*, Yongdong Zhang*, Jintao Li, Shuicheng Yan, "Perspective-adaptive Convolutions for Scene Parsing", IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), 42(4): 909 – 924, April, 2020. (CCF A类人工智能著名国际顶级期刊)

[7] Yu Li, Sheng Tang*, Rui Zhang, Yongdong Zhang, Jintao Li, Shuicheng Yan, “Asymmetric GAN for Unpaired Image-to-image Translation”, IEEE Transactions on Image Processing, 28(12):5881-5896, December, 2019. (CCF A类图像处理国际顶级期刊)

[8] Yu Li, Sheng Tang*, Min Lin, Yongdong Zhang, Jintao Li, Shuicheng Yan, "Implicit Negative Sub-categorization and Sink Diversion for Object Detection", IEEE Transactions on Image Processing, 27(4):1561-1574, April, 2018.(CCF A类图像处理国际顶级期刊)

[9] Linghui Li, Sheng Tang*, Lixi Deng, Yongdong Zhang and Qi Tian; “GLA: Global-local Attention for Image Description”, IEEE Transactions on Multimedia, 20(3): 726-737, March, 2018. (CCF B类多媒体国际期刊)

[10] Sheng Tang, Yu Li, Lixi Deng, Yong-Dong Zhang; “Object Localization Based on Proposal Fusion”, IEEE Transactions on Multimedia, 19(9):2105-2116, September 2017. (CCF B类多媒体国际期刊)

[11] YongDong Zhang, Yu Wang, Sheng Tang*, Steven C. H. Hoi, JinTao Li; “FSpH: Fitted Spectral Hashing Exploring Entropy Maximizing Criterion for Efficient Retrieval”, Computer Vision and Image Understanding (CVIU), Computer Vision and Image Understanding (CVIU), 124: 3-11, 2014. (CCF B类国际著名期刊)

[12] Wu Liu, Yongdong Zhang, Sheng Tang, Jinhui Tang, Richang Hong and Jintao Li; "Accurate Estimation of Human Body Orientation From RGB-D Sensors," IEEE Transactions on Cybernetics, vol.43, no.5, pp.1442-1452, Oct. 2013. (CCF B类国际期刊)

[13] Sheng Tang, Yan-Tao Zheng, Yu Wang and Tat-Seng Chua, “Sparse Ensemble Learning for Concept Detection”, IEEE Transactions on Multimedia, 14(1):43-54, Feb. 2012. (CCF B类多媒体国际期刊)

[14] Hongtao Xie, Ke Gao, Yongdong Zhang, Sheng Tang, Jintao Li, and Yizhi Liu; “Efficient Feature Detection and Effective Post-Verification for Large Scale Near-Duplicate Image Search”, IEEE Transactions on Multimedia, 13(6):1319-1332, Dec. 2011. (CCF B类多媒体国际期刊)

[15] Yan Song, Yan-Tao Zheng, Sheng Tang, Xiangdong Zhou, Yongdong Zhang, Shouxun Lin, and Tat-Seng Chua; “Localized Multiple Kernel Learning for Realistic Human Action Recognition in Videos”, IEEE Transactions on Circuits and Systems for Video Technology, 21(9):1193-1202, Sept.2011. (CCF B类国际期刊)

会议文章(国际顶级会议长文19篇,其中CCF A类会议15篇, *表示通讯作者):

[16] Haipeng Fang, Sheng Tang, Juan Cao, Enshuo Zhang, Fan Tang, Tong-yee Lee; “Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration”, CVPR 2025 (CCF A类计算机视觉国际顶级会议长文, Accepted)

[17] Ruize Zhang, Sheng Tang*, Juan Cao; “Self-Supervised Adversarial Training via Diverse Augmented Queries and Self-Supervised Double Perturbation”. In NeurIPS, 2024. (CCF A类机器学习顶级会议,通讯作者)

[18] Zhang Wan, Sheng Tang*, Jiawei Wei, Ruize Zhang, Jun Cao. “DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships”. In Proc. ACM Multimedia, 2024: 108-116. ( CCF A类多媒体顶级会议, Oral, 接收率3.97%,通讯作者)

[19] Tianyun Yang, Danding Wang, Fan Tang, Xinying Zhao, Juan Cao, Sheng Tang, Progressive Open Space Expansion for Open-Set Model Attribution. CVPR 2023: 15856-15865 (CCF A类计算机视觉国际顶级会议长文)

[20] Zijie Yang, Lingxi Xie, Xinyue Huo, Sheng Tang*, Qi Tian, Yongdong Zhang; “Finding the Host from the Lesion by Iteratively Mining the Registration Graph”; ACM Multimedia 2022: 5913-5922( CCF A类多媒体顶级会议)

[21] Yu Li, Tao Wang, Bingyi Kang, Sheng Tang*, Chunfeng Wang, Jintao Li, Jiashi Feng; “Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax”; IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2020), Seattle, Washington, USA. June 16-18, 2020. (CCF A类计算机视觉国际顶级会议长文, Oral)

[22] Junbin Xiao, Xindi Shang, Xun Yang, Sheng Tang, Tat-seng Chua; “Visual Relation Grounding in Videos”; 16th European Conference on Computer Vision (ECCV'20), 23-28 August 2020. (CCF B类计算机视觉国际顶级会议长文, Spotlight)

[23] Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Jun Hao Liew, Sheng Tang, Steven Hoi, Jiashi Feng; “The Devil is in Classification: A Simple Framework for Long-tail Instance Segmentation”; 16th European Conference on Computer Vision (ECCV'20) : 728-744, 23-28 August 2020. (CCF B类计算机视觉国际顶级会议长文)

[24] Rui Zhang, Sheng Tang*, YongDong Zhang, Jintao Li, Shuicheng Yan; “Scale-adaptive Convolutions for Scene Parsing”, The 2017 IEEE International Conference on Computer Vision (ICCV) 2017, Pages: 2050-2058, Venice, Italy, October 22-29, 2017. (CCF A类计算机视觉国际顶级会议长文)

[25] Bin Wang, Guojun Qi, Sheng Tang*, Tianzhu Zhang, Yunchao Wei, Linghui Li, Yongdong Zhang; “Boundary Perception Guidance: A Scribble-Supervised Semantic Segmentation Approach”, The 28th International Joint Conference on Artificial Intelligence (IJCAI 2019), Pages: 3663-3669, August 10-16, 2019, Macao, China (CCF A类人工智能国际顶级会议长文).

[26] Rui Zhang, Sheng Tang*, Luoqi Liu, Yongdong Zhang, Jintao Li, Shuicheng Yan; “High Resolution Feature Recovering for Accelerating Urban Scene Parsing”, The 27th International Joint Conference on Artificial Intelligence (IJCAI 2018), Pages: 1156-1162, Stockholm, Sweden, July 13-19, 2018(CCF A类人工智能国际顶级会议长文)

[27] Rui Zhang, Sheng Tang*, Min Lin, Jintao Li, Shuicheng Yan; “Global-residual and Local-boundary Refinement Networks for Rectifying Scene Parsing Predictions”, The 26th International Joint Conference on Artificial Intelligence (IJCAI 2017),Pages:3427-3433,Melbourne, Australia, August 19-25, 2017(CCF A类人工智能国际顶级会议长文)

[28] Yuchen Guo, Guiguang Ding, Jungong Han, Sheng Tang; “Zero-shot Learning with Attribute Selection”, The 32th AAAI Conference on Artificial Intelligence (AAAI 2018), February 2-7, 2018, New Orleans, USA. (CCF A类人工智能国际顶级会议长文)

[29] Xiaohan Ding, Guiguang Ding, Jungong Han, Sheng Tang; “Auto-balanced Filter Pruning for Efficient Convolutional Neural Networks”, The 32th AAAI Conference on Artificial Intelligence (AAAI 2018), February 2 - 7, 2018, New Orleans, USA. (CCF A类人工智能国际顶级会议长文)

[30] Linghui Li, Sheng Tang*, Lixi Deng, Yongdong Zhang, Qi Tian; “Image Caption with Global-Local Attention”, The 31th AAAI Conference on Artificial Intelligence (AAAI 2017), Pages: 4133-4139, San Francisco, California USA, February 4–9, 2017 (CCF A类人工智能国际顶级会议长文)

[31] Lixi Deng, Jingjing Chen, Qianru Sun, Xiangnan He, Sheng Tang, Zhaoyan Ming, Yongdong Zhang, Tat Seng Chua; “Mixed-dish Recognition with Contextual Relation Network”, ACM Multimedia 2019, Pages: 112-120, Nice, France, 21-25 October, 2019. (CCF A类多媒体国际顶级会议长文)

[32] Rui Zhang, Sheng Tang*, Yu Li, Junbo Guo, Yongdong Zhang, Jintao Li, Shuicheng Yan; “Style Separation and Synthesis via Generative Adversarial Networks”, ACM Multimedia 2018, Pages: 183-191, Oct.22-26, 2018, Seoul, Korea. (CCF A类多媒体国际顶级会议长文).

[33] Lixi Deng, Sheng Tang*, Huazhu Fu, Bin Wang, Yongdong Zhang; “Spatiotemporal Breast Mass Detection Network (MD-Net) in 4D DCE-MRI Images”, International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2019), LNCS 11767, Pages: 271-279, Oct. 13-17, 2019, Shenzhen, China. (医疗影像处理国际顶级会议长文)

[34] Bin Wang, Guo-Jun Qi, Sheng Tang*, Liheng Zhang, Lixi Deng, Yongdong Zhang; “Automated Pulmonary Nodule Detection: High Sensitivity with Few Candidates”, International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2018), LNCS 11071, Pages:759–767, September 16-20, 2018, Granada, Spain. (医疗影像处理国际顶级会议长文)

授权专利12项:

[1] 唐胜;万大千;曹娟;李锦涛,人物丑化图像识别和模型训练方法与装置, CN202110854800.X,授权公告日:2024年3月12日

[2] 唐胜;李瑜;李锦涛;曹娟;张勇东,一种长尾目标检测方法与系统,CN202010508103.4,授权公告日:2022年12月6日

[3] 唐胜;伍天意;李锦涛;张勇东,基于一致性特征的场景分割方法和系统,CN201910604601.6,授权公告日:2022年1月21日

[4] 唐胜;王斌;张勇东,一种基于涂鸦的弱监督语义分割方法与系统,CN201910588880.1,授权公告日:2021年9月7日

[5] 唐胜;伍天意;李锦涛,基于上下文信息指导的场景分割方法和系统,CN201811309249.5,授权公告日:2021年4月27日

[6] 唐胜;伍天意;李锦涛,基于克罗内克卷积的场景分割方法和系统,CN201811309245.7,授权公告日:2021年4月6日

[7] 唐胜;张蕊;李锦涛,基于特征图恢复的场景分割方法和系统,CN201810664250.3,授权公告日:2020年12月11日

[8] 唐胜;张蕊;李锦涛,融合全局信息的场景分割修正方法与系统,CN201710650525.3,授权公告日:2020年9月11日

[9] 唐胜;张蕊;李锦涛,融合局部信息的场景分割修正方法与系统,CN201710650541.2,授权公告日:2020年6月26日

[10] 唐胜;肖俊斌;李锦涛,一种基于目标检测的视觉目标检索方法与系统,CN201710574741.4,授权公告日:2020年6月5日

[11] 唐胜;李灵慧;张勇东;李锦涛,一种生成描述图像内容的自然语言的方法与系统,CN201711265210.3,授权公告日:2020年1月21日

[12] 唐胜;张勇东;李锦涛;徐作新,字典学习、视觉词袋特征提取方法及检索系统,CN201410287639.2,授权公告日:2017年6月30日


科研项目:

主要科研项目如下:

1、 国家其他任务,AIGC鉴定项目,2025-03至2025-12,486万元,主持

2、 国家其他任务,关联视频识别技术研究,2024-12至2025-12,200万元,主持

3、 国家其他任务,多维度感知系统软件开发项目(E471108),2023-12至2025-12,300万元,主持

4、 国家其他任务,基于AIGC词典的图像识别研究(E371087), 2023-12至2024-12,100万元,结题,主持

5、 中国科学院,自监督视频深伪检测关键技术研究(E141020),2021-05至2023-12,80万元,主持

6、 国家重大科技专项,深度伪造检测应用验证(E221300), 2021-12至2023-11,400万元,参与

7、 国家其他任务,视频检测系统设计开发(E179029),2021-07至2023-12,159万元,主持

8、 计算所创新重点课题,软硬跨层优化的互联网视频深伪检测专用设备研发 (E161020),2021-06至2023-05,500万元,子课题负责人

9、 国家其他任务,面向图片的信息识别技术研究(E071010),2020-08至2021-06,120万元,主持

10、 国家其他任务,面向人物及场景的图片识别关键技术研究(Y907191), 2019-04至2020-04,110万,项目负责人。

11、 国家重点研发计划项目,跨媒体资源库构建与测评技术(Y808321),354万,2018-02至 2021-12,课题负责人。

12、  国家重点研发计划项目,音视频监测与分析技术研究(Y908241),289万,2019-02至2022-01,课题负责人。

13、 国家自然科学基金面上项目,基于稀疏表示和深度学习的大规模目标检测(61572472),78.4万,2016-01至2019-12,项目负责人。

14、 国家自然科学基金面上项目,基于跨域迁移学习的网络视频检索技术研究(61173054),57万元,2012-01至2015-12,项目负责人。

15、 国家自然科学基金面上项目,融合显式和隐含语义概念的视频检索技术研究(60873165),30万,2009-01至2011-12,项目负责人。

16、  北京市自然科学基金面上项目,基于稀疏表示的大规模移动视觉搜索技术研究(4152050),18万,2015-01至2017-12,项目负责人。



获奖及荣誉:

科研获奖:

1、2019年国家自然科学奖二等奖,获奖项目为“互联网视频流的高通量计算理论与方法”。

2、 2020年北京市科技进步奖一等奖,获奖项目为“开放环境下数字伪造内容检测关键技术与服务平台建设”。

3、2018年中国电子学会科学技术奖(自然科学类)一等奖,获奖项目为“互联网视频的高效流式计算理论与方法”。

4、2017年中国电子学会科学技术奖(技术发明类)一等奖,获奖项目为“视觉大数据检索与智能分析关键技术及应用”。

5、2014年北京市科学技术奖一等奖,获奖项目为“大规模网络视频处理与内容分析关键技术及应用”。

6、2012年首届中国计算机学会科学技术奖,获奖项目为“大规模网络视频内容分析关键技术及应用”。

7、2006年北京市科学技术奖一等奖,获奖项目为“面向体育训练的三维人体运动模拟与视频分析系统”。

国际竞赛:

1、ACM Multimedia 2021多模态商品识别挑战赛,冠军。

2、ICCV 2019大规模长尾实例分割挑战赛,冠军。

3、2016年国际ImageNet大规模视觉识别挑战赛(ILSVRC),获视频目标检测和语义分割任务全球第三。