唐胜--中国科学院计算技术研究所

唐胜研究员

研究方向：

所属部门：前瞻研究实验室

导师类别：博导计算机应用技术

联系方式：ts@ict.ac.cn

个人网页：http://people.ucas.ac.cn/~shengtang

简历：

2006年3月博士毕业于中国科学院计算技术研究所（简称计算所）后留所工作，2008年3月起先后任副研究员和研究员、硕士生导师和博士生导师，中国计算机学会和中国图象图形学会多媒体专委会委员，国家重点研发计划“社会治理与智慧社会科技支撑”项目专家。带领团队长期从事多媒体内容分析与检索、计算机视觉与深度学习、模式识别与人工智能研究；作为负责人主持10余项国家级科研项目，包括国家重点研发计划课题、国家自然科学基金项目等；发表多媒体、计算机视觉和人工智能的国际顶级会议和国际顶级期刊论文30余篇。研发的多项图像视频分析、检索与识别系统已经在国家相关部门获得大规模应用。主持了2014年全国首届特定音视频检索识别挑战赛视频评测；带领团队在美国NIST举办的视频检索国际评测TRECVID 2008和国际著名的ImageNet大规模视觉识别挑战赛(ILSVRC 2016)中取得优异成绩，并应邀做大会报告；在CCF A类国际顶级会议ICCV 2019长尾实例分割挑战赛、ACM Multimedia 2021多模态商品识别挑战赛夺冠。荣获国家自然科学二等奖1项、北京市科学技术一等奖3项、中国计算机学会科学技术一等奖1项、中国电子学会科学技术一等奖2项。

主要论著：

期刊文章(CCF A类期刊5篇，CCF B类期刊11篇，*表示通讯作者)：

[1] Haipeng Fang, Sheng Tang*, Zhihao Sun, Ziyao Huang, Juan Cao, Fan Tang, Yongdong Zhang. “MoAnimate: Bridging the Motion-Oriented Latent Representation Gaps in Human Video Animation”, IEEE Transactions on Circuits and Systems for Video Technology. Accepted on Nov.24, 2025. (CCF B类国际期刊)

[2] Ziyao Huang, Fan Tang, Yong Zhang, Juan Cao, Chengyu Li, Sheng Tang, Jintao Li, Tong-Yee Lee: Identity-Preserving，Face Swapping via Dual Surrogate Generative Models. ACM Trans. Graph. 43(5): 161:1-19 (2024) .(CCF A类期刊)

[3] Linghui Li, Yongdong Zhang, Sheng Tang, Lingxi Xie, Xiaoyong Li, Qi Tian; “Adaptive Spatial Location With Balanced Loss for Video Captioning”; IEEE Transactions on Circuits and Systems for Video Technology, 32(1): 17-30, 2022. (CCF B类国际期刊)

[4] Lixi Deng, Jingjing Chen, Chong-Wah Ngo, Qianru Sun, Sheng Tang, Yongdong Zhang, Tat-Seng Chua; “Mixed Dish Recognition With Contextual Relation and Domain Alignment”; IEEE Transactions on Multimedia, 24: 2034-2045,2022. (CCF B类国际期刊)

[5] Tianyi Wu, Sheng Tang*, Rui Zhang, Guodong Guo; “Consensus Feature Network for Scene Parsing”；IEEE Transactions on Multimedia, 24: 3208-3217, 2022. (CCF B类国际期刊)

[6] Tianyi Wu, Sheng Tang*, Rui Zhang, Juan Cao, Yongdong Zhang; “CGNet: A Light-Weight Context Guided Network for Semantic Segmentation”; IEEE Transactions on Image Processing, 30: 1169-1179, 2021(CCF A类图像处理国际顶级期刊, 高被引论文)

[7] Rui Zhang, Sheng Tang*, Yongdong Zhang*, Jintao Li, Shuicheng Yan, "Perspective-adaptive Convolutions for Scene Parsing", IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), 42(4): 909 – 924, April, 2020. (CCF A类人工智能著名国际顶级期刊)

[8] Yu Li, Sheng Tang*, Rui Zhang, Yongdong Zhang, Jintao Li, Shuicheng Yan, “Asymmetric GAN for Unpaired Image-to-image Translation”, IEEE Transactions on Image Processing, 28(12):5881-5896, December, 2019. (CCF A类图像处理国际顶级期刊)

[9] Yu Li, Sheng Tang*, Min Lin, Yongdong Zhang, Jintao Li, Shuicheng Yan, "Implicit Negative Sub-categorization and Sink Diversion for Object Detection", IEEE Transactions on Image Processing, 27(4):1561-1574, April, 2018.(CCF A类图像处理国际顶级期刊)

[10] Linghui Li, Sheng Tang*, Lixi Deng, Yongdong Zhang and Qi Tian; “GLA: Global-local Attention for Image Description”, IEEE Transactions on Multimedia, 20(3): 726-737, March, 2018. (CCF B类多媒体国际期刊)

[11] Sheng Tang, Yu Li, Lixi Deng, Yong-Dong Zhang; “Object Localization Based on Proposal Fusion”, IEEE Transactions on Multimedia, 19(9):2105-2116, September 2017. (CCF B类多媒体国际期刊)

[12] YongDong Zhang, Yu Wang, Sheng Tang*, Steven C. H. Hoi, JinTao Li; “FSpH: Fitted Spectral Hashing Exploring Entropy Maximizing Criterion for Efficient Retrieval”, Computer Vision and Image Understanding (CVIU), Computer Vision and Image Understanding (CVIU), 124: 3-11, 2014. (CCF B类国际著名期刊)

[13] Wu Liu, Yongdong Zhang, Sheng Tang, Jinhui Tang, Richang Hong and Jintao Li; "Accurate Estimation of Human Body Orientation From RGB-D Sensors," IEEE Transactions on Cybernetics, vol.43, no.5, pp.1442-1452, Oct. 2013. (CCF B类国际期刊)

[14] Sheng Tang, Yan-Tao Zheng, Yu Wang and Tat-Seng Chua, “Sparse Ensemble Learning for Concept Detection”, IEEE Transactions on Multimedia, 14(1):43-54, Feb. 2012. (CCF B类多媒体国际期刊)

[15] Hongtao Xie, Ke Gao, Yongdong Zhang, Sheng Tang, Jintao Li, and Yizhi Liu; “Efficient Feature Detection and Effective Post-Verification for Large Scale Near-Duplicate Image Search”, IEEE Transactions on Multimedia, 13(6):1319-1332, Dec. 2011. (CCF B类多媒体国际期刊)

[16] Yan Song, Yan-Tao Zheng, Sheng Tang, Xiangdong Zhou, Yongdong Zhang, Shouxun Lin, and Tat-Seng Chua; “Localized Multiple Kernel Learning for Realistic Human Action Recognition in Videos”, IEEE Transactions on Circuits and Systems for Video Technology, 21(9):1193-1202, Sept.2011. (CCF B类国际期刊)

会议文章(国际顶级会议长文21篇，其中CCF A类会议17篇， *表示通讯作者)：

[17] Haipeng Fang, Yu Li, Fan Tang, Yixing Lu, Juan Cao, Sheng Tang; “ResCa: Residual Caching for Diffusion Transformers Acceleration”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver Convention Center, Denver, Colorado, United States, June 3–7, 2026. (CCF A类计算机视觉国际顶级会议长文)

[18] Chenming Zhou, Jiaan Wang, Yu Li, Lei Li, Juan Cao, Sheng Tang, "Beyond Semantic Features: Pixel-level Mapping for Generalized AI-Generated Image Detection", The 40th AAAI Conference on Artificial Intelligence (AAAI 2026), Singapore, January 29-31, 2026. (CCF A类人工智能国际顶级会议长文)

[19] Haipeng Fang, Sheng Tang, Juan Cao, Enshuo Zhang, Fan Tang, Tong-yee Lee; “Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2025), Music City Center, Nashville, Tennessee, United States, June 11-15, 2025. (CCF A类计算机视觉国际顶级会议长文)

[20] Ruize Zhang, Sheng Tang*, Juan Cao; “Self-Supervised Adversarial Training via Diverse Augmented Queries and Self-Supervised Double Perturbation”. In NeurIPS, 2024. (CCF A类机器学习顶级会议，通讯作者)

[21] Zhang Wan, Sheng Tang*, Jiawei Wei, Ruize Zhang, Jun Cao. “DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships”. In Proc. ACM Multimedia, 2024: 108-116. ( CCF A类多媒体顶级会议, Oral, 接收率3.97%，通讯作者)

[22] Tianyun Yang, Danding Wang, Fan Tang, Xinying Zhao, Juan Cao, Sheng Tang, Progressive Open Space Expansion for Open-Set Model Attribution. CVPR 2023: 15856-15865 (CCF A类计算机视觉国际顶级会议长文)

[23] Zijie Yang, Lingxi Xie, Xinyue Huo, Sheng Tang*, Qi Tian, Yongdong Zhang; “Finding the Host from the Lesion by Iteratively Mining the Registration Graph”; ACM Multimedia 2022: 5913-5922( CCF A类多媒体顶级会议)

[24] Yu Li, Tao Wang, Bingyi Kang, Sheng Tang*, Chunfeng Wang, Jintao Li, Jiashi Feng; “Overcoming Classiﬁer Imbalance for Long-tail Object Detection with Balanced Group Softmax”; IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2020), Seattle, Washington, USA. June 16-18, 2020. (CCF A类计算机视觉国际顶级会议长文, Oral)

[25] Junbin Xiao, Xindi Shang, Xun Yang, Sheng Tang, Tat-seng Chua; “Visual Relation Grounding in Videos”; 16th European Conference on Computer Vision (ECCV'20), 23-28 August 2020. (CCF B类计算机视觉国际顶级会议长文, Spotlight)

[26] Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Jun Hao Liew, Sheng Tang, Steven Hoi, Jiashi Feng; “The Devil is in Classification: A Simple Framework for Long-tail Instance Segmentation”; 16th European Conference on Computer Vision (ECCV'20) : 728-744, 23-28 August 2020. (CCF B类计算机视觉国际顶级会议长文)

[27] Rui Zhang, Sheng Tang*, YongDong Zhang, Jintao Li, Shuicheng Yan; “Scale-adaptive Convolutions for Scene Parsing”, The 2017 IEEE International Conference on Computer Vision (ICCV) 2017, Pages: 2050-2058, Venice, Italy, October 22-29, 2017. (CCF A类计算机视觉国际顶级会议长文)

[28] Bin Wang, Guojun Qi, Sheng Tang*, Tianzhu Zhang, Yunchao Wei, Linghui Li, Yongdong Zhang; “Boundary Perception Guidance: A Scribble-Supervised Semantic Segmentation Approach”, The 28th International Joint Conference on Artificial Intelligence (IJCAI 2019), Pages: 3663-3669, August 10-16, 2019, Macao, China (CCF A类人工智能国际顶级会议长文).

[29] Rui Zhang, Sheng Tang*, Luoqi Liu, Yongdong Zhang, Jintao Li, Shuicheng Yan; “High Resolution Feature Recovering for Accelerating Urban Scene Parsing”, The 27th International Joint Conference on Artificial Intelligence (IJCAI 2018), Pages: 1156-1162, Stockholm, Sweden, July 13-19, 2018(CCF A类人工智能国际顶级会议长文)

[30] Rui Zhang, Sheng Tang*, Min Lin, Jintao Li, Shuicheng Yan; “Global-residual and Local-boundary Refinement Networks for Rectifying Scene Parsing Predictions”, The 26th International Joint Conference on Artificial Intelligence (IJCAI 2017),Pages:3427-3433,Melbourne, Australia, August 19-25, 2017(CCF A类人工智能国际顶级会议长文)

[31] Yuchen Guo, Guiguang Ding, Jungong Han, Sheng Tang; “Zero-shot Learning with Attribute Selection”, The 32th AAAI Conference on Artificial Intelligence (AAAI 2018), February 2-7, 2018, New Orleans, USA. (CCF A类人工智能国际顶级会议长文)

[32] Xiaohan Ding, Guiguang Ding, Jungong Han, Sheng Tang; “Auto-balanced Filter Pruning for Efficient Convolutional Neural Networks”, The 32th AAAI Conference on Artificial Intelligence (AAAI 2018), February 2 - 7, 2018, New Orleans, USA. (CCF A类人工智能国际顶级会议长文)

[33] Linghui Li, Sheng Tang*, Lixi Deng, Yongdong Zhang, Qi Tian; “Image Caption with Global-Local Attention”, The 31th AAAI Conference on Artificial Intelligence (AAAI 2017), Pages: 4133-4139, San Francisco, California USA, February 4–9, 2017 (CCF A类人工智能国际顶级会议长文)

[34] Lixi Deng, Jingjing Chen, Qianru Sun, Xiangnan He, Sheng Tang, Zhaoyan Ming, Yongdong Zhang, Tat Seng Chua; “Mixed-dish Recognition with Contextual Relation Network”, ACM Multimedia 2019, Pages: 112-120, Nice, France, 21-25 October, 2019. (CCF A类多媒体国际顶级会议长文)

[35] Rui Zhang, Sheng Tang*, Yu Li, Junbo Guo, Yongdong Zhang, Jintao Li, Shuicheng Yan; “Style Separation and Synthesis via Generative Adversarial Networks”, ACM Multimedia 2018, Pages: 183-191, Oct.22-26, 2018, Seoul, Korea. (CCF A类多媒体国际顶级会议长文).

[36] Lixi Deng, Sheng Tang*, Huazhu Fu, Bin Wang, Yongdong Zhang; “Spatiotemporal Breast Mass Detection Network (MD-Net) in 4D DCE-MRI Images”, International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2019), LNCS 11767, Pages: 271-279, Oct. 13-17, 2019, Shenzhen, China. (医疗影像处理国际顶级会议长文)

[37] Bin Wang, Guo-Jun Qi, Sheng Tang*, Liheng Zhang, Lixi Deng, Yongdong Zhang; “Automated Pulmonary Nodule Detection: High Sensitivity with Few Candidates”, International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2018), LNCS 11071, Pages:759–767, September 16-20, 2018, Granada, Spain. (医疗影像处理国际顶级会议长文)

授权专利12项：

[1] 唐胜;万大千;曹娟;李锦涛，人物丑化图像识别和模型训练方法与装置, CN202110854800.X，授权公告日：2024年3月12日

[2] 唐胜;李瑜;李锦涛;曹娟;张勇东，一种长尾目标检测方法与系统，CN202010508103.4，授权公告日：2022年12月6日

[3] 唐胜;伍天意;李锦涛;张勇东，基于一致性特征的场景分割方法和系统，CN201910604601.6，授权公告日：2022年1月21日

[4] 唐胜;王斌;张勇东，一种基于涂鸦的弱监督语义分割方法与系统，CN201910588880.1，授权公告日：2021年9月7日

[5] 唐胜;伍天意;李锦涛，基于上下文信息指导的场景分割方法和系统，CN201811309249.5，授权公告日：2021年4月27日

[6] 唐胜;伍天意;李锦涛，基于克罗内克卷积的场景分割方法和系统，CN201811309245.7，授权公告日：2021年4月6日

[7] 唐胜;张蕊;李锦涛，基于特征图恢复的场景分割方法和系统，CN201810664250.3，授权公告日：2020年12月11日

[8] 唐胜;张蕊;李锦涛，融合全局信息的场景分割修正方法与系统，CN201710650525.3，授权公告日：2020年9月11日

[9] 唐胜;张蕊;李锦涛，融合局部信息的场景分割修正方法与系统，CN201710650541.2，授权公告日：2020年6月26日

[10] 唐胜;肖俊斌;李锦涛，一种基于目标检测的视觉目标检索方法与系统，CN201710574741.4，授权公告日：2020年6月5日

[11] 唐胜;李灵慧;张勇东;李锦涛，一种生成描述图像内容的自然语言的方法与系统，CN201711265210.3，授权公告日：2020年1月21日

[12] 唐胜;张勇东;李锦涛;徐作新，字典学习、视觉词袋特征提取方法及检索系统，CN201410287639.2，授权公告日：2017年6月30日

科研项目：

1、国家科技创新2030子课题，鉴伪模型的软件加速方法，2025-12至2028-11，228.5万元，主持

2、国家其他任务，AIGC鉴定项目(ARP项目编号：E572029)，2025-03至2026-12，486万元，主持

3、国家其他任务，关联视频识别技术研究(E571078)，2024-12至2025-12，200万元，主持

4、国家其他任务，多维度感知系统软件开发项目(E471108)，2023-12至2025-12，300万元，主持

5、国家其他任务，基于AIGC词典的图像识别研究(E371087)， 2023-12至2024-12，100万元，结题，主持

6、中国科学院，自监督视频深伪检测关键技术研究(E141020)，2021-05至2023-12，80万元，主持

7、国家重大科技专项，深度伪造检测应用验证(E221300)， 2021-12至2023-11，400万元，参与

8、国家其他任务，视频检测系统设计开发(E179029)，2021-07至2023-12，159万元，主持

9、计算所创新重点课题，软硬跨层优化的互联网视频深伪检测专用设备研发 (E161020)，2021-06至2023-05，500万元，子课题负责人

10、国家其他任务，面向图片的信息识别技术研究(E071010)，2020-08至2021-06，120万元，主持

11、国家其他任务，面向人物及场景的图片识别关键技术研究(Y907191), 2019-04至2020-04，110万，项目负责人。

12、国家重点研发计划项目，跨媒体资源库构建与测评技术(Y808321)，354万，2018-02至 2021-12，课题负责人。

13、国家重点研发计划项目，音视频监测与分析技术研究(Y908241)，289万，2019-02至2022-01，课题负责人。

14、国家自然科学基金面上项目，基于稀疏表示和深度学习的大规模目标检测(61572472)，78.4万，2016-01至2019-12，项目负责人。

15、国家自然科学基金面上项目，基于跨域迁移学习的网络视频检索技术研究(61173054)，57万元，2012-01至2015-12，项目负责人。

16、国家自然科学基金面上项目，融合显式和隐含语义概念的视频检索技术研究(60873165)，30万，2009-01至2011-12，项目负责人。

17、北京市自然科学基金面上项目，基于稀疏表示的大规模移动视觉搜索技术研究(4152050)，18万，2015-01至2017-12，项目负责人。

获奖及荣誉：

科研获奖：

1、2019年国家自然科学奖二等奖，获奖项目为“互联网视频流的高通量计算理论与方法”。

2、 2020年北京市科技进步奖一等奖，获奖项目为“开放环境下数字伪造内容检测关键技术与服务平台建设”。

3、2018年中国电子学会科学技术奖（自然科学类）一等奖，获奖项目为“互联网视频的高效流式计算理论与方法”。

4、2017年中国电子学会科学技术奖（技术发明类）一等奖，获奖项目为“视觉大数据检索与智能分析关键技术及应用”。

5、2014年北京市科学技术奖一等奖，获奖项目为“大规模网络视频处理与内容分析关键技术及应用”。

6、2012年首届中国计算机学会科学技术奖，获奖项目为“大规模网络视频内容分析关键技术及应用”。

7、2006年北京市科学技术奖一等奖，获奖项目为“面向体育训练的三维人体运动模拟与视频分析系统”。

国际获奖：

1、人工智能国际顶级会议AAAI 2026 Outstanding Senior Program Committee Award (Top 2%)

2、多媒体国际顶级会议ACM Multimedia 2021多模态商品识别挑战赛，冠军。

3、计算机视觉国际顶级会议ICCV 2019大规模长尾实例分割挑战赛，冠军。

4、2016年国际ImageNet大规模视觉识别挑战赛(ILSVRC)，获视频目标检测和语义分割任务全球第三。

唐胜 研究员

简 历：

主要论著：

科研项目：

获奖及荣誉：

唐胜研究员

简历：