Lin Ma | Publications

•	UITron: Foundational GUI Agent with Advanced Perception and Planning Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, and Lin Ma [arXiv Link][Source Code]
•	UITron-Speech: Towards Automated GUI Agents Based on Speech Instructions Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chao Yao, Jingyuan Chen, and Lin Ma [arXiv Link][Source Code]
•	ScaleTrack: Scaling and back-tracking Automated GUI Agents Jing Huang, Zhixiong Zeng, Wenkang Han, Yufeng Zhou, Liming Zheng, Shuai Fu, Jingyuan Chen, and Lin Ma [arXiv Link]
•	Metis-HOME: Hybrid Optimized Mixture-of-Experts for Multimodal Reasoning Xiaohan Lan, Fanfan Liu, Haibo Qiu, Siqi Yang, Delian Ruan, Peng Shi, and Lin Ma [arXiv Link][Source Code]
•	Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning Haibo Qiu, Xiaohan Lan, Fanfan Liu, Xiaohu Sun, Delian Ruan, Peng Shi and Lin Ma [arXiv Link][Source Code]
•	Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner Lei Chen, Xuanle Zhao, Zhixiong Zeng, Jing Huang, Yufeng Zhong, and Lin Ma [arXiv Link][Source Code]
•	DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios Yufeng Zhong, Zhixiong Zeng, Lei Chen, Longrong Yang, Liming Zheng, Jing Huang, Siqi Yang, and Lin Ma [arXiv Link][Source Code]
•	Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput Bo Zhang, Shuo Li, Runhe Tian, Yang Yang, Jixing Tang, Jinhao Zhou, and Lin Ma [arXiv Link][Source Code]
•	FlashCommunication V2: Bit Splitting and Spike Reserving for Any Bit Communication Qingyuan Li, Bo Zhang, Hui Kang, Tianhao Xu, Yulei Qian, Yuchen Xie, and Lin Ma [arXiv Link]
•	Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference Qingyuan Li, Bo Zhang, Liang Ye, Yifan Zheng, Wei Wu, Yerui Sun, Lin Ma, and Yuchen Xie [arXiv Link]
•	Boosting Robotic Manipulation Generalization with Minimal Costly Data Liming Zheng, Feng Yan, Fanfan Liu, Chengjian Feng, Yufeng Zhong, and Lin Ma [arXiv Link][Source Code]
•	TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability Shimin Chen, Xiaohan Lan, Yitian Yuan, Zequn Jie, and Lin Ma [arXiv Link][Source Code]
•	VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models Xiaohan Lan, Yitian Yuan, Zequn Jie, and Lin Ma [arXiv Link]
•	InstructionBench: An Instructional Video Understanding Benchmark Haiwan Wei, Yitian Yuan, Xiaohan Lan, Wei Ke, and Lin Ma [arXiv Link][Source Code]
•	Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding Jiaming Li, Jiacheng Zhang, Zequn Jie, Lin Ma, and Guanbin Li [arXiv Link][Source Code]
•	Counting Hallucinations in Diffusion Models Shuai Fu, Jian Zhou, Qi Chen, Huang Jing, Huy Anh Nguyen, Xiaohan Liu, Zhixiong Zeng, Lin Ma, Quanshi Zhang, and Qi Wu [arXiv Link]
•	STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation Xiaoxiao Ma, Haibo Qiu, Guohui Zhang, Zhixiong Zeng, Siqi Yang, Lin Ma, and Feng Zhao [arXiv Link][Source Code]
•	RIV: Recursive Introspection Mask Diffusion Vision Language Model Yuqian Li, Limeng Qiao, and Lin Ma [arXiv Link][Source Code]
•	InstructVEdit: A Holistic Approach for Instructional Video Editing Chi Zhang, Chengjian Feng, Feng Yan, Qiming Zhang, Mingjin Zhang, Yujie Zhong, Jing Zhang and Lin Ma [arXiv Link][Source Code]
•	MRStyle: A Unified Framework for Color Style Transfer with Multi-Modality Reference Jiancheng Huang, Yu Gao, Zequn Jie, Yujie Zhong, Xintong Huang, and Lin Ma [arXiv Link]
•	RFSR: Improving ISR Diffusion Models via Reward Feedback Learning Xiaopeng Sun, Qinwei Lin, Yu Gao, Yujie Zhong, Chengjian Feng, Dengjie Li, Zheng Zhao, Jie Hu, and Lin Ma [arXiv Link][Source Code]
•	Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models Zhaochen Liu, Kaiwen Gao, Shuyi Liang, Bin Xiao, Limeng Qiao, Lin Ma, and Tingting Jiang [arXiv Link]
•	AP-CAP: Advancing High-Quality Data Synthesis for Animal Pose Estimation via a Controllable Image Generation Pipeline Lei Wang, Yujie Zhong, Xiaopeng Sun, Jingchun Cheng, Chengjian Feng, Qiong Cao, Lin Ma, Zhaoxin Fan [arXiv Link]

•	M4V: Multi-Modal Mamba for Text-to-Video Generation Jiancheng Huang, Gengwei Zhang, Zequn Jie, Siyu Jiao, Yinlong Qian, Ling Chen, Yunchao Wei, and Lin Ma IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv Link][Source Code]
•	Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR Yufeng Zhong, Lei Chen, Zhixiong Zeng, Xuanle Zhao, Deyang Jiang, Liming Zheng, Jing Huang, Haibo Qiu, Peng Shi, Siqi Yang, and Lin Ma IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv Link][Source Code]
•	UniComp: Rethinking Video Compression Through Informational Uniqueness Chao Yuan, Shimin Chen, Minliang Lin, Limeng Qiao, Wan Guanglu, and Lin Ma IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv Link][Source Code]
•	Perceptual-Evidence Anchored Reinforced Learning for Multimodal Reasoning Chi Zhang, Haibo Qiu, Qiming Zhang, Yufei Xu, Zhixiong Zeng, Siqi Yang, Peng Shi, Lin Ma, and Jing Zhang IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv Link][Source Code]
•	SO(3)-Equivariant ViT-Adapter for Data-Efficient Zero-Shot Sim-to-Real Indoor Panoramic Depth Estimation Ziyan He, Qiudan Zhang, Lin Ma, and Xu Wang IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026.
•	OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, and Zhong Ming IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026.
•	Cross-Modal Attention Calibration for LVLM Hallucination Mitigation Jiaming Li, Jiacheng Zhang, ZEQUN JIE, Lin Ma, Ming Li, Xiaonan Luo, and Guanbin Li IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026.
•	Learning When to Look: A Disentangled Curriculum for Strategic Perception in Multimodal Reasoning Siqi Yang, Zilve Gao, Haibo Qiu, Fanfan Liu, Peng Shi, Zhixiong Zeng, Qingmin Liao, and Lin Ma IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Findings, 2026. [arXiv Link][Source Code]
•	DeepSketcher: Internalizing Visual Manipulation for Multimodal Reasoning Chi Zhang, Haibo Qiu, Qiming Zhang, Zhixiong Zeng, Lin Ma, and Jing Zhang IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Findings, 2026. [arXiv Link][Source Code]
•	Metis-SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based Cold Start Kun Chen, Peng Shi, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao, and Lin Ma International Conference on Learning Representations (ICLR), 2026. [arXiv Link][Source Code]
•	Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation Lei Chen, Xuanle Zhao, Zhixiong Zeng, Jing Huang, Liming Zheng, Yufeng Zhong, and Lin Ma International Conference on Learning Representations (ICLR), 2026. [arXiv Link][Source Code]
•	OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds Longrong Yang, Zhixiong Zeng, Yufeng Zhong, Huang Jing, Liming Zheng, Lei Chen, Haibo Qiu, Zequn Qin, Lin Ma, and Xi Li International Conference on Learning Representations (ICLR), 2026. [arXiv Link]
•	Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization Yifan Chang, Jie Qin, Limeng Qiao, Xiaofeng Wang, Zheng Zhu, Lin Ma, and Xingang Wang International Conference on Learning Representations (ICLR), 2026. [arXiv Link][Source Code]
•	A Circular Window-based Cascade Transformer for Online Action Detection Shuqiang Cao, Weixin Luo, Bairui Wang, Ran Song, Wei Zhang, and Lin Ma IEEE Transactions on Multimedia (TMM). Accepted [arXiv Link]
•	DBGroup: Dual-Branch Point Grouping for Weakly Supervised 3D Semantic Instance Segmentation Xuexun Liu, Xiaoxu Xu, Qiudan Zhang, Lin Ma, and Xu Wang The Fortieth AAAI Conference on Artificial Intelligence (AAAI), 2026. [arXiv Link][Source Code]
•	X-SAM: From Segment Anything to Any Segmentation Hao Wang, Limeng Qiao, Zequn Jie, Zhijian Huang, Chengjian Feng, Qingfang Zheng, Lin Ma, Xiangyuan Lan, and Xiaodan Liang The Fortieth AAAI Conference on Artificial Intelligence (AAAI), 2026. [arXiv Link][Source Code]

•	UniViTAR: Unified Vision Transformer with Native Resolution Limeng Qiao, Yiyang Gan, Bairui Wang, Jie Qin, Shuang Xu, Siqi Yang, and Lin Ma The Thirty-ninth Annual Conference on Neural Information Processing Systems (NeurIPS), 2025. [arXiv Link][Source Code]
•	VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction-Editing Data and Long Captions Ziteng Wang, Siqi Yang, Limeng Qiao, and Lin Ma The Thirty-ninth Annual Conference on Neural Information Processing Systems (NeurIPS), 2025. [arXiv Link][Source Code]
•	Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy Xiaoxiao Ma, Feng Zhao, Pengyang Ling, Haibo Qiu, Zhixiang Wei, Hu Yu, Jie Huang, Zhixong Zeng, and Lin Ma The Thirty-ninth Annual Conference on Neural Information Processing Systems (NeurIPS), 2025. [arXiv Link][Source Code]
•	GUIDED: Granular Understanding via Identification, Detection, and Discrimination for Fine-Grained Open-Vocabulary Object Detection Jiaming Li, Zhijia Liang, Weikai Chen, Lin Ma, and Guanbin Li The Thirty-ninth Annual Conference on Neural Information Processing Systems (NeurIPS), 2025.
•	FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction Siyu Jiao, Gengwei Zhang, Yinlong Qian, JIancheng Huang, Yao Zhao, Humphrey Shi, Lin Ma, Yunchao Wei, Zequn Jie The Thirty-ninth Annual Conference on Neural Information Processing Systems (NeurIPS), 2025. [arXiv Link][Source Code]
•	TopoDiT-3D: Topology-Aware Diffusion Transformer with Bottleneck Structure for 3D Point Cloud Generation Zechao Guan, Feng Yan, Shuai Du, Lin Ma, and Qingshan Liu The 36th British Machine Vision Conference (BMVC), 2025. [arXiv Link][Source Code]
•	RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation Feng Yan, Fanfan Liu, Yiyang Huang, Zechao Guan, Liming Zheng, Yufeng Zhong, Chengjian Feng, and Lin Ma International Conference on Computer Vision (ICCV), 2025. [arXiv Link][Source Code]
•	RoboTron-Drive: All-in-One Large Multimodal Model for Autonomous Driving Zhijian Huang, Chengjian Feng, Feng Yan, Baihui Xiao, Zequn Jie, Yujie Zhong, Xiaodan Liang, and Lin Ma International Conference on Computer Vision (ICCV), 2025. [arXiv Link][Source Code]
•	RoboTron-Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction Yufeng Zhong, Chengjian Feng, Feng Yan, Fanfan Liu, Liming Zheng, and Lin Ma International Conference on Computer Vision (ICCV), 2025. [arXiv Link][Source Code]
•	RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case Baihui Xiao, Chengjian Feng, Zhijian Huang, Feng Yan, Yujie Zhong, and Lin Ma International Conference on Computer Vision (ICCV), 2025. [arXiv Link][Source Code]
•	DisTime: Distribution-based Time Tokenizer for Temporal Localization with Video Large Language Model Yingsen Zeng, Zepeng Huang, Yujie Zhong, Chengjian Feng, Jie Hu, Lin Ma, and Yang Liu International Conference on Computer Vision (ICCV), 2025. [arXiv Link][Source Code]
•	Dadu-Corki: Algorithm-Architecture Co-Design for Embodied AI-powered Robotic Manipulation Yiyang Huang, Yuhui Hao, Bo Yu, Feng Yan, Yuxin Yang, Feng Min, YInhe Han, Lin Ma, Shaoshan Liu, Qiang Liu, and Yiming Gan International Symposium on Computer Architecture (ISCA), 2025. [arXiv Link][Source Code]
•	Towards Efficient Foundation Model for Zero-shot Amodal Segmentation Zhaochen Liu, Limeng Qiao, Xiangxiang Chu, Lin Ma, and Tingting Jiang IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025. [arXiv Link][Source Code]
•	Unitoken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding Yang Jiao, Haibo Qiu, Zequn Jie, Shaoxiang Chen, Jingjing Chen, Lin Ma, and YU-Gang Jiang IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2025 Workshop "What is Next in Multimodal Foundation Models?" [arXiv Link][Source Code]
•	A Visual-Linguistic Approach for Robust RGB-Thermal Tracking with Dynamic Template Adaptation Xu Wang, Huanxin Zheng, Haohong Liao, Qiudan Zhang, Lin Ma, and Jianmin Jiang IEEE Transactions on Multimedia (TMM). Accepted
•	Weakly-Supervised 3D Visual Grounding based on Visual Language Alignment Xiaoxu Xu, Yitian Yuan, Qiudan Zhang, Wenhui Wu, Zequn Jie, Lin Ma, and Xu Wang IEEE Transactions on Multimedia (TMM). Accepted [arXiv Link][Source Code]
•	CO-MOT: Boosting End-to-end Transformer-based Multi-object Tracking via Coopetition Label Assignment and Shadow Sets Feng Yan, Weixin Luo, Yujie Zhong, Yiyang Gan, and Lin Ma International Conference on Learning Representations (ICLR), 2025. [arXiv Link][Source Code]
•	Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts Yunxin Li, Shenyuan Jiang, Baotian Hu, Longyue Wang, Wanqi Zhong, Wenhan Luo, Lin Ma, and Min Zhang IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). Accepted [arXiv Link][Source Code]
•	A Pyramid Fusion MLP for Dense Prediction Qiuyu Huang, Zequn Jie, Lin Ma, Li Shen, and Shenqi lai IEEE Transactions on Image Processing (TIP). Accepted [arXiv Link][Source Code]
•	Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation Jiaqi Chen, Bingqian Lin, Xinmin Liu, Lin Ma, Xiaodan Liang, Lin Ma, and Kwan-Yee K. Wong The thirty-ninth AAAI Conference on Artificial Intelligence (AAAI), 2025. [arXiv Link][Source Code]

•	LESS: Label-Efficient and Single-Stage Referring 3D Segmentation Xuexun Liu, Xiaoxu Xu, Jinlong Li, Qiudan Zhang, Xu Wang, Nicu Sebe, and Lin Ma The Thirty-eighth Annual Conference on Neural Information Processing Systems (NeurIPS), 2024. [arXiv Link][Source Code]
•	Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, and Yu-Gang Jiang The Thirty-eighth Annual Conference on Neural Information Processing Systems (NeurIPS), 2024. [arXiv Link][Source Code]
•	UniMD: Towards Unifying Moment retrieval and temporal action Detection Yingsen Zeng, Yujie Zhong, Chengjian Feng, and Lin Ma European Conference on Computer Vision (ECCV), 2024. [arXiv Link][Source Code]
•	3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance Xiaoxu Xu, Yitian Yuan, Jinlong Li, Qiudan Zhang, Zequn Jie, Lin Ma, Hao Tang, Nicu Sebe, and Xu Wang European Conference on Computer Vision (ECCV), 2024. [arXiv Link][Source Code]
•	Making Large Language Models Better Planners with Reasoning-Decision Alignment Zhijian Huang, Tao Tang, Shaoxiang Chen, Sihao Lin, Zequn Jie, Lin Ma, Guangrun Wang, and Xiaodan Liang European Conference on Computer Vision (ECCV), 2024. [arXiv Link]
•	LMEye: An Interactive Perception Network for Large Language Models Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, Yong Xu, and Min Zhang IEEE Transactions on Multimedia (TMM). Accepted [arXiv Link][Source Code]
•	Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment Xu Wang, Yifan Li, Qiudan Zhang, Wenhui Wu, Mark Junjie Li, Lin Ma, and Jianmin Jiang IEEE Transactions on Multimedia (TMM). Accepted [arXiv Link][Source Code]
•	IGCN: A Provably Informative GCN Embedding for Semi-Supervised Learning with Extremely Limited Labels Lin Zhang, Ran Song, Wenhao Tan, Lin Ma, and Wei Zhang IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). Accepted [Paper]
•	DeTAL: Open-Vocabulary Temporal Action Localization with Decoupled Networks Zhiheng Li, Yujie Zhong, Ran Song, Tianjiao Li, Lin Ma, and Wei Zhang IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). Accepted [Paper][Source Code]
•	InstaGen: Enhancing Object Detection by Training on Synthetic Dataset Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, and Lin Ma IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024. [arXiv Link][Source Code]
•	Misalignment-Robust Frequency Distribution Loss for Image Transformation Zhangkai Ni, Juncheng Wu, Zian Wang, Wenhan Yang, Hanli Wang, and Lin Ma IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024. [arXiv Link][Source Code]
•	AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning Duojun Huang, Xinyu Xiong, Jie Ma, Jichang Li, Zequn Jie, Lin Ma, and Guanbin Liu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024. [Arxiv Link]
•	A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation Yunxin Li, Baotian Hu, Wenhan Luo, Lin Ma, Yuxin Ding and Min Zhang International Conference on Computational Linguistics (COLING), 2024. [arXiv Link][Source Code]
•	Aux-NAS: Exploiting Auxiliary Labels with Negligibly Extra Inference Cost Yuan Gao, Weizhong Zhang, Wenhan Luo, Lin Ma, Jin-Gang Yu, Gui-Song Xia, and Jiayi Ma International Conference on Learning Representations (ICLR), 2024. [arXiv Link][Source Code]
•	Instance-aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning Yang Jiao, Zequn Jie, Shaoxiang Chen, Lechao Cheng, Jingjing Chen, Lin Ma, Yu-Gang Jiang The thirty-eighth AAAI Conference on Artificial Intelligence (AAAI), 2024. [arXiv Link]
•	ColNeRF: Collaboration for Generalizable Sparse Input Neural Radiance Field Zhangkai Ni, Peiqi Yang, Wenhan Yang, Hanli Wang, Lin Ma, Sam Kwong The thirty-eighth AAAI Conference on Artificial Intelligence (AAAI), 2024. [arXiv Link][Source Code]

•	Punctuation-level Attack: Single-shot and Single Punctuation Can Fool Text Models Wenqiang Wang, Chongyang Du, Tao Wang, Kaihao Zhang, Wenhan Luo, Lin Ma, Wei Liu, Xiaochun Cao The Thirty-seventh Annual Conference on Neural Information Processing Systems (NeurIPS), 2023.
•	Suspected Objects Matter: Rethinking Model's Prediction for One-stage Visual Grounding Yang Jiao, Zequn Jie, Jingjing Chen, Lin Ma, and Yu-Gang Jiang The 31st ACM International Conference on Multimedia (ACM MM), 2023.
•	MARN: Multi-level Attentional Reconstruction Networks for Weakly Supervised Video Temporal Grounding Yijun Song, Jingwen Wang, Lin Ma, Jun Yu, Jinxiu Liang, Liu Yuan, and Zhou Yu Neurocomputing (NC), vol. 554, Oct. 2023.
•	E2E-LOAD: End-to-End Long-form Online Action Detection Shuqiang Cao, Weixin Luo, Bairui Wang, Wei Zhang, and Lin Ma International Conference on Computer Vision (ICCV), 2023.
•	Zero-Shot Semantic Segmentation with Decoupled One-Shot Network Cong Han, Yujie Zhong, Kai Han, Dengjie Li, and Lin Ma International Conference on Computer Vision (ICCV), 2023.
•	A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from Linguistically Complex Text Yunxin Li, Baotian Hu, Yuxin Ding, Lin Ma, and Min Zhang The 61st Annual Meeting of the Association for Computational Linguistics (ACL), 2023.
•	A Multi-Modal Context Reasoning Approach for Conditional Inference on Joint Textual and Visual Clues Yunxin Li, Baotian Hu, Xinyu Chen, Yuxin Ding, Lin Ma, and Min Zhang The 61st Annual Meeting of the Association for Computational Linguistics (ACL), 2023.
•	AeDet: Azimuth-Invariant Multi-View 3D Object Detection Chengjian Feng, Zequn Jie, Yujie Zhong, Xiangxiang Chu, and Lin Ma IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
•	Adaptive Sparse Pairwise Loss for Object Re-Identification Xiao Zhou, Yujie Zhong, Zhen Chen, Fan Liang, and Lin Ma IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
•	MSMDFusion: Fusing LiDAR and Camera at Multiple Scales With Multi-Depth Seeds for 3D Object Detection Yang Jiao, Zequn Jie, Shaoxiang Chen, Jingjing Chen, Lin Ma, and Yu-Gang Jiang IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
•	TriDet: Temporal Action Detection With Relative Boundary Modeling Dingfeng Shi, Yujie Zhong, Qiong Cao, Lin Ma, Jia Li, and Dacheng Tao IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
•	Curriculum Multi-Negative Augmentation for Debiased Video Grounding Xiaohan Lan, Yitian Yuan, Hong Chen, Xin Wang, Zequn Jie, Lin Ma, Zhi Wang, and Wenwu Zhu The Thirty-seventh AAAI Conference on Artificial Intelligence (AAAI), 2023.
•	Beyond Monocular Deraining: Parrallel Stereo Deraining Network via Semantic Prior Kaihao Zhang, Wenhan Luo, Yanjiang Yu, Wenqi Ren, Fang Zhao, Changsheng Li, Lin Ma, Wei Liu, and Hongdong Li Internatinal Journal of Computer Vision (IJCV). Accepted [arXiv Link]
•	Syntax Customized Video Captioning by Imitating Exemplar Sentences Yitian Yuan, Lin Ma, and Wenwu Zhu IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). Accepted [arXiv Link]
•	A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach Xiaohan Lan, Yitian Yuan, Xin Wang, Long Chen, Zhi Wang, Lin Ma, and Wenwu Zhu ACM Transactions on Multimedia Computing Communications and Applications (TOMM). Accepted
•	Weakly Supervised Semantic Segmentation via Progressive Patch Learning Jinglong Li, Zequn Jie, Xu Wang, Yu Zhou, Xiaolin Wei, and Lin Ma IEEE Transactions on Multimedia (TMM). Accepted [arXiv Link][Source Code]
•	Fast and Robust Online Handwritten Chinese Character Recognition with Deep Spatial & Contextual Information Fusion Network Yunxin Li, Yunxin Li, Qian Yang, Qingcai Chen, Baotian Hu, Xiaolong Wang, Yuxin Ding, and Lin Ma IEEE Transactions on Multimedia (TMM). Accepted

•	Disentangled Feature Networks for Facial Portraits Generation Kaihao Zhang, Wenhan Luo, Lin Ma, Wenqi Ren, and Hongdong Li IEEE Transactions on Multimedia (TMM), vol. 24, pp. 1378-1388, 2022.
•	Expansion and Shrinkage of Localization for Weakly-Supervised Semantic Segmentation Jinlong Li, Zequn Jie, Xu Wang, Xiaolin Wei, and Lin Ma The Thirty-sixth Annual Conference on Neural Information Processing Systems (NeurIPS), 2022. [arXiv Link][Source Code]
•	Semantic Conditioned Dynamic Modulation for Temporal Sentence Grounding in Videos Yitian Yuan, Lin Ma, Jingwen Wang, Wei Liu, and Wenwu Zhu IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol. 44, no. 5, pp. 2725-2741, May 2022.
•	Content-aware Recommendation via Dynamic Heterogeneous Graph Convolutional Network Tingting Liang, Lin Ma, Weizhong Zhang, Haoran Xu, Congying Xia, and Yuyu Yin Knowledge-Based Systems (KBS). Accepted
•	Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis Wen Liu, Zhixin Piao, Zhi Tu, Wenhan Luo, Lin Ma, and Shenghua Gao IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). Accepted
•	PromptDet: Expand Your Detector Vocabulary with Uncurated Images Chengjian Feng, Yujie Zhong, Zequn Jie, Xiangxiang Chu, Haibing Ren, Xiaolin Wei, Weidi Xie, and Lin Ma European Conference on Computer Vision (ECCV), 2022. [arXiv Link][Project Homepage][Source Code]
•	MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, and Yu-Gang Jiang European Conference on Computer Vision (ECCV), 2022. [arXiv Link][Source Code]
•	ReAct: Temporal Action Detection with Relational Action Queries Dingfeng Shi, Yujie Zhong, Qiong Cao, Jing Zhang, Lin Ma, Jia Li, and Dacheng Tao European Conference on Computer Vision (ECCV), 2022. [arXiv Link][Source Code]
•	Contrastive Video-Language Learning with Fine-grained Frame Sampling Zixu Wang, Yujie Zhong, Yishu Miao, Lin Ma, and Lucia Specia The 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing (AACL-IJCNLP), 2022.
•	Cycle-Interactive Generative Adversarial Network for Robust Unsupervised Low-Light Enhancement Zhangkai Ni, Wenhan Yang, Hanli Wang, Shiqi Wang, Lin Ma, and Sam Kwong The 30th ACM International Conference on Multimedia (ACM MM), 2022. [arXiv Link][Project Homepage]
•	Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations Qian Yang, Yunxin Li, Baotian Hu, Lin Ma, Yuxin Ding, and Min Zhang The 30th ACM International Conference on Multimedia (ACM MM), 2022. [arXiv Link]
•	Explore Inter-Contrast Between Videos via Composition for Weakly Supervised Temporal Sentence Grounding Jiaming Chen, Weixin Luo, Wei Zhang, and Lin Ma The Thirty-sixth AAAI Conference on Artificial Intelligence (AAAI), 2022. [Full Text]
•	Visual Consensus Modeling for Video-Text Retrieval Shuqiang Cao, Bairui Wang, Wei Zhang, and Lin Ma The Thirty-sixth AAAI Conference on Artificial Intelligence (AAAI), 2022. [Full Text]

•	CASNet: A Cross-attention Siamese Network for Video Salient Object Detection Yuzhu Ji, Haijun Zhang, Zequn Jie, Lin Ma, and Jonathan Wu IEEE Transactions on Neural Networks and Learning Systems (TNNLS), vol. 32, no. 6, pp. 2676-2690, Jun. 2021.
•	Progressive Point Cloud Upsampling via Differentiable Rendering Pingping Zhang, Xu Wang, Lin Ma, Shiqi Wang, Sam Kwong, and Jianmin Jiang IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), vol. 31, no. 12, pp. 4673-4685, Dec. 2021.
•	Coupled Network for Robust Pedestrian Detection with Gated Multi-Layer Feature Extraction and Deformable Occlusion Handling Tianrui Liu, Wenhan Luo, Lin Ma, Jun-jie Huang, Tania Stathaki, and Tianhong Dai IEEE Transactions on Image Processing (TIP), vol. 30, pp. 754-766, 2021.
•	Pyramid Global Context Network for Image Dehazing Dong Zhao, Long Xu, Lin Ma, Jia Li, and Yihua Yan IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), vol. 31, no. 8, pp. 3037-3050, Aug. 2021.
•	PFAN++: Bi-Directional Image-Text Retrieval with Position Focused Attention Network Yaxiong Wang, Hao Yang, Xiuxiu Bai, Xueming Qian, Lin Ma, Jing Lu, Biao Li, and Xin Fan IEEE Transactions on Multimedia (TMM), vol. 23, pp. 3362-3376, Sept. 2021.
•	Unsupervised Text-to-Image Synthesis Yanlong Dong, Ying Zhang, Lin Ma, Zhi Wang, and Jiebo Luo Pattern Recognition (PR), vol. 110, 107573, Feb. 2021.
•	Quality Evaluation for Image Retargeting with Instance Semantics Leida Li, Yixuan Li, Jinjian Wu, Lin Ma, and Yuming Fang IEEE Transactions on Multimedia (TMM), vol. 23, pp. 2757-2769, 2021.
•	Two-stage Visual Cues Enhancement Network for Referring Image Segmentation Yang Jiao, Zequn Jie, Weixin Luo, Jingjing Chen, Yu-Gang Jiang, Xiaolin Wei, and Lin Ma The 29th ACM International Conference on Multimedia (ACM MM), 2021. [arXiv Link]
•	Cross-modality Discrepant Interaction Network for RGB-D Salient Object Detection Chen Zhang, Runmin Cong, Qinwei Lin, Lin Ma, Feng Li, Yao Zhao, and Sam Kwong The 29th ACM International Conference on Multimedia (ACM MM), 2021. [arXiv Link]
•	Relation-aware Instance Refinement for Weakly Supervised Visual Grounding Yongfei Liu, Bo Wan, Lin Ma, and Xuming He IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021. [Full Text][Source Code]
•	Neural Symbolic Representation Learning for Image Captioning Xiaomei Wang, Lin Ma, Yanwei Fu, and Xiangyang Xue ACM International Conference on Multimedia Retrieval (ICMR), 2021. [arXiv Link]
•	Similarity Reasoning and Filtration for Image-Text Matching Haiwen Diao, Ying Zhang, Lin Ma, and Huchuan Lu The Thirty-fifth AAAI Conference on Artificial Intelligence (AAAI), 2021. [Source Code]

•	Reconstruct and Represent Video Contents for Captioning via Reinforcement Learning Wei Zhang, Bairui Wang, Lin Ma, and Wei Liu IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol. 42, no. 12, pp. 3088-3101, Dec. 2020.
•	Towards Unsupervised Deep Image Enhancement with Generative Adversarial Network Zhangkai Ni, Wenhan Yang, Shiqi Wang, Lin Ma, and Sam Kwong IEEE Transactions on Image Processing (TIP), vol. 29, pp. 9140-9151, 2020.
•	Multi-Exposure Decomposition-Fusion Model for High Dynamic Range Image Saliency Detection Xu Wang, Zhenhao Sun, Qiudan Zhang, Yuming Fang, Lin Ma, Shiqi Wang, and Sam Kwong IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), vol. 30, no. 12, pp. 4409-4420, Dec. 2020.
•	Matching Image and Sentence with Multi-faceted Representations Lin Ma, Wenhao Jiang, Zequn Jie, Yu-Gang Jiang, and Wei Liu IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), vol. 30, no. 7, pp. 2250-2261, Jul. 2020.
•	Controllable Video Captioning with an Exemplar Sentence Yitian Yuan, Lin Ma, Jingwen Wang, and Wenwu Zhu The 28th ACM International Conference on Multimedia (ACM MM), 2020.
•	Every Moment Matters: Detail-Aware Networks to Bring a Blurry Image Alive Kaihao Zhang, Wenhan Luo, Bjorn Stenger, Wenqi Ren, Lin Ma, and Hongdong Li The 28th ACM International Conference on Multimedia (ACM MM), 2020.
•	Context-Gated Convolution Xudong Lin, Lin Ma, Wei Liu, and Shih-Fu Chang European Conference on Computer Vision (ECCV), 2020. [arXiv Link]
•	Beyond Monocular Deraining: Stereo Image Deraining via Semantic Understanding Kaihao Zhang, Wenhan Luo, Wenqi Ren, Jingwen Wang, Fang Zhao, Lin Ma, and Hongdong Li European Conference on Computer Vision (ECCV), 2020.
•	Consensus-Aware Visual-Semantic Embedding for Image-Text Matching Haoran Wang, Ying Zhang, Zhong Ji, Yanwei Pang, and Lin Ma European Conference on Computer Vision (ECCV), 2020. [arXiv Link][Source Code]
•	Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension Zhenfang Chen, Peng Wang, Lin Ma, Kwan-Yee Wong, and Qi Wu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. [Full Text][Supplementary Material]
•	Deblurring by Realistic Blurring Kaihao Zhang, Wenhan Luo, Yiran Zhong, Lin Ma, Bjorn Stenger, Wei Liu, and Hongdong Li IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. [Full Text]
•	Fine-grained Image-to-Image Transformation towards Visual Recognition Wei Xiong, Yutong He, Yixuan Zhang, Wenhan Luo, Lin Ma, and Jiebo Luo IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020. [Full Text][Supplementary Material][Project Homepage]
•	Temporally Grounding Language Queries in Videos by Contextual Boundary-aware Prediction Jingwen Wang, Lin Ma, and Wenhao Jiang The Thirty-fourth AAAI Conference on Artificial Intelligence (AAAI), 2020. [Full Text][Source Code]
•	Recurrent Nested Model for Sequence Generation Wenhao Jiang, Lin Ma, and Wei Lu The Thirty-fourth AAAI Conference on Artificial Intelligence (AAAI), 2020. [Full Text]
•	Feature Deformation Meta-Networks in Image Captioning of Novel Objects Tingjia Cao, Ke Han, Xiaomei Wang, Lin Ma, Yanwei Fu, Yu-Gang Jiang, and Xiangyang Xue The Thirty-fourth AAAI Conference on Artificial Intelligence (AAAI), 2020. [Full Text]
•	Grasp for Stacking via Deep Reinforcement Learning Junhao Zhang, Wei Zhang, Ran Song, Lin Ma, and Yibin Li International Conference on Robotics and Automation (ICRA), 2020.

•	Low-Light Image Enhancement via a Deep Hybrid Network Wenqi Ren, Sifei Liu, Lin Ma, Qianqian Xu, Xiangyu Xu, Xiaochun Cao, Junping Du, and Ming-Hsuan Yang IEEE Transactions on Image Processing (TIP), vol. 28, no. 9, pp. 4364-4375, Sept. 2019.
•	Deep Video Dehazing with Semantic Segmentation Wenqi Ren, Jingang Zhang, Xiangyu Xu, Lin Ma, Xiaochun Cao, Gaofeng Meng, and Wei Liu IEEE Transactions on Image Processing (TIP), vol. 28, no. 4, pp. 1895-1908, Apr. 2019. [Full Text]
•	Bidirectional Image-Sentence Retrieval by Local and Global Deep Matching Lin Ma, Wenhao Jiang, Zequn Jie, and Xu Wang Neurocomputing (NC), vol. 345, pp. 36-44, Jun. 2019.
•	Towards Efficient Action Recognition: Principal Backpropagation for Training Two-Stream Networks Wenbing Huang, Lijie Fan, Mehrtash Harandi, Chuang Gan, Lin Ma, Huaping Liu, and Wei Liu IEEE Transactions on Image Processing (TIP), vol. 28, no. 4, pp. 1773-1782, Apr. 2019. [Full Text]
•	Adversarial Spatio-Temporal Learning for Video Deblurring Kaihao Zhang, Wenhan Luo, Yiran Zhong, Lin Ma, Wei Liu, and Hongdong Li IEEE Transactions on Image Processing (TIP), vol. 28, no. 1, pp. 291-301, Jan. 2019. [Full Text]
•	Semantic Conditioned Dynamtic Modulation for Temporal Sentence Grounding in Videos Yitian Yuan, Lin Ma, Jingwen Wang, Wei Liu, and Wenwu Zhu The Thirty-third Annual Conference on Neural Information Processing Systems (NeurIPS), 2019. [Full Text][Source Code]
•	Exploiting Local and Global Structure for Point Cloud Semantic Segmentation with Contextual Point Representation Xu Wang, Jingming He, and Lin Ma The Thirty-third Annual Conference on Neural Information Processing Systems (NeurIPS), 2019. [Full Text][Source Code]
•	Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network Bairui Wang, Lin Ma, Wei Zhang, Wenhao Jiang, Jingwen Wang, and Wei Liu International Conference on Computer Vision (ICCV), 2019. [Full Text][arXiv Link][Source Code]
•	Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis Wen Liu, Zhixin Piao, Jie Min, Wenhan Luo, Lin Ma, Shenghua Gao International Conference on Computer Vision (ICCV), 2019. [Full Text][arXiv Link][Project Homepage][Source Code]
•	Sentence Specified Dynamic Video Thumbnail Generation Yitian Yuan, Lin Ma, and Wenwu Zhu The 27th ACM International Conference on Multimedia (ACM MM), 2019. [arXiv Link][Source Code]
•	Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in Video Zhenfang Chen, Lin Ma, Wenhan Luo, and Kwan-Yee K. Wong The 57th Annual Meeting of the Association for Computational Linguistics (ACL), 2019. [Full Text][arXiv Link][Source Code]
•	Hallucinating Optical Flow Features for Video Classification Yongyi Tang, Lin Ma, and Lianqiang Zhou International Joint Conference on Artificial Intelligence (IJCAI), 2019. [arXiv Link][Source Code]
•	Position Focused Attention Network For Image-Text Matching Yaxiong Wang, Hao Yang, Xueming Qian, Lin Ma, Jing Lu, Biao Li, and Xin Fan International Joint Conference on Artificial Intelligence (IJCAI), 2019. [arXiv Link][Source Code]
•	Unsupervised Image Captioning Yang Feng, Lin Ma, Wei Liu, and Jiebo Luo IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Full Text][arXiv Link][Source Code]
•	Spatio-temporal Video Re-localization by Warp LSTM Yang Feng, Lin Ma, Wei Liu, and Jiebo Luo IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Full Text][arXiv Link][Source Code]
•	Multi-granularity Generator for Temporal Action Proposal Yuan Liu, Lin Ma, Yifeng Zhang, Wei Liu, and Shih-Fu Chang IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Full Text][arXiv Link]
•	Learning Joint Gait Representation via Quintuplet Loss Minimization Kaihao Zhang, Wenhan Luo, Lin Ma, Wei Liu, and Hongdong Li IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. (Oral) [Full Text]
•	Image Deformation Meta-Network for One-Shot Learning Zitian Chen, Yanwei Fu, Yu-Xiong Wang, Lin Ma, Wei Liu, and Martial Hebert IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. (Oral) [Full Text][Source Code]
•	Localizing Natural Language in Videos Jingyuan Chen, Lin Ma, Xinpeng Chen, Zequn Jie, and Jiebo Luo The Thirty-third AAAI Conference on Artificial Intelligence (AAAI), 2019. [Full Text]
•	Hierarchical Photo-Scene Encoder for Album Storytelling Bairui Wang, Lin Ma, Wei Zhang, Wenhao Jiang, and Feng Zhang The Thirty-third AAAI Conference on Artificial Intelligence (AAAI), 2019. [Full Text]
•	Cousin Network Guided Sketch Recognition via Latent Attribute Warehouse Kaihao Zhang, Wenhan Luo, Lin Ma, and Hongdong Li The Thirty-third AAAI Conference on Artificial Intelligence (AAAI), 2019. [Full Text]

•	Deep Intensity Guidance Based Compression Artifacts Reduction for Depth Map Xu Wang, Pingping Zhang, Yun Zhang, Lin Ma, Sam Kwong, and Jianmin Jiang Journal of Visual Communication and Image Representation, vol. 57, pp. 234-242, 2018. [Full Text]
•	Screen Content Image Quality Assessment Using Multi-scale Difference of Gaussian Ying Fu, Huanqiang Zeng, Lin Ma, Zhangkai Ni, Canhui Cai, and Kai-Kuang Ma IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), vol. 28, no. 9, pp. 2428-2432, Sept. 2018. [Full Text]
•	A Gabor Feature-based Quality Assessment Model for the Screen Content Images Zhangkai Ni, Huanqiang Zeng, Lin Ma, Junhui Hou, Jing Chen, and Kai-Kuang Ma IEEE Transactions on Image Processing (TIP), vol. 27, no. 9, pp. 4516-4528, Sept. 2018. [Full Text] [Project Homepage]
•	Image Processing for Synthesis Imaging of Mingantu Spectral Radioheliograph (MUSER) Long Xu, Yihua Yan, Lin Ma, and Yun Zhang Multimedia Tools and Applications (MTAP), vol. 77, no. 16, pp. 20937-20954, Aug. 2018.
•	Reversible Data Hiding for High Dynamic Range Images Using Edge Information Xuanyu He, Wei Zhang, Haifeng Zhang, Lin Ma, Yibin Li Multimedia Tools and Applications (MTAP). Accepted
•	Quaternion Represenation Based Visual Saliency for Stereoscopic Image Quality Assessment Xu Wang, Lin Ma, Sam Kwong, and Yu Zhou Signal Processing (SP), vol. 145, pp. 202-213, Apr. 2018. [Full Text]
•	Visual Tracking using Global Sparse Coding and Local Convolutional Features Xianyou Zeng, Long Xu, Lin Ma, Ruizhen Zhao, and Yigang Cen Digital Signal Processing (DSP), vol. 72, pp. 115-125, Jan. 2018. [Full Text]
•	Deep Non-blind Deconvolution via Generalized Low-rank Approximation Wenqi Ren, Jiawei Zhang, Lin Ma, Jinshan Pan, Xiaochun Cao, Wangmeng Zuo, Wei Liu, and Ming-Hsuan Yang The Thirty-second Annual Conference on Neural Information Processing Systems (NeurIPS), 2018. [Full Text][Source Code]
•	Parsimonious Quantile Regression of Asymmetrically Heavy-tailed Financial Return Series Xing Yan, Weizhong Zhang, Lin Ma, Wei Liu, and Qi Wu The Thirty-second Annual Conference on Neural Information Processing Systems (NeurIPS), 2018. [Full Text]
•	Temporally Grounding Natural Sentence in Video Jingyuan Chen, Xinpeng Chen, Lin Ma, Zequn Jie, and Tat-Seng Chua Conference on Empirical Methods in Natural Language Processing (EMNLP), 2018. [Full Text][Source Code]
•	Video Re-localization Yang Feng, Lin Ma, Wei Liu, Tong Zhang, and Jiebo Luo European Conference on Computer Vision (ECCV), 2018. [Full Text][arXiv Link][Source Code]
•	Recurrent Fusion Network for Image Captioning Wenhao Jiang, Lin Ma, Yu-Gang Jiang, Wei Liu, and Tong Zhang European Conference on Computer Vision (ECCV), 2018. [Full Text][arXiv Link][Source Code]
•	Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Networks Minjun Li, Haozhi Huang, Lin Ma, Wei Liu, Tong Zhang, and Yu-Gang Jiang European Conference on Computer Vision (ECCV), 2018. [Full Text][arXiv Link]
•	Neural Stereoscopic Image Style Transfer Xinyu Gong, Haozhi Huang, Lin Ma, Fumin Shen, Wei Liu, and Tong Zhang European Conference on Computer Vision (ECCV), 2018. [Full Text][arXiv Link]
•	Safe Element Screening for Submodular Function Minimization Weizhong Zhang, Bin Hong, Lin Ma, Wei Liu, and Tong Zhang International Conference on Machine Learning (ICML), 2018. [Full Text]
•	Long-Term Human Motion Prediction by Modeling Motion Context and Enhancing Motion Dynamics Yongyi Tang, Lin Ma, Wei Liu, and Wei-Shi Zheng International Joint Conference on Artificial Intelligence (IJCAI), 2018. [Full Text][arXiv Link]
•	Image-level to Pixel-wise Labeling: From Theory to Practice Tiezhu Sun, Wei Zhang, Zhijie Wang, Lin Ma, and Zequn Jie International Joint Conference on Artificial Intelligence (IJCAI), 2018. [Full Text]
•	Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present Xinpeng Chen, Lin Ma, Wenhao Jiang, Jian Yao, and Wei Liu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [Full Text][arXiv Link][Source Code]
•	Reconstruction Network for Video Captioning Bairui Wang, Lin Ma, Wei Zhang, and Wei Liu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [Full Text][arXiv Link]
•	Gated Fusion Network for Single Image Dehazing Wenqi Ren, Lin Ma, Jiawei Zhang, Jinshan Pan, Xiaochun Cao, Wei Liu, and Ming-Hsuan Yang IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [Full Text][arXiv Link][Project Homepage][Source Code]
•	Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning Jingwen Wang, Wenhao Jiang, Lin Ma, Wei Liu, and Yong Xu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. (Spotlight) [Full Text][arXiv Link][Source Code]
•	Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks Wei Xiong, Wenhan Luo, Lin Ma, Wei Liu, and Jiebo Luo IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [Full Text][arXiv Link]
•	Fine-grained Video Attractiveness Prediction Using Multimodal Deep Learning on a Large Real-world Dataset Xinpeng Chen, Jingyuan Chen, Lin Ma, Jian Yao, Wei Liu, Jiebo Luo, and Tong Zhang The Web Conference (original WWW), The Big Web Track, 2018. [Ful Text][arXiv Link]
•	Learning to Guide Decoding for Image Captioning Wenhao Jiang, Lin Ma, Xinpeng Chen, Hanwang Zhang, and Wei Liu The Thirty-second AAAI Conference on Artificial Intelligence (AAAI), 2018. [arXiv Link]

•	Real-Time Neural Style Transfer for Videos Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong Zhu, Zhifeng Li, and Wei Liu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. [Full Text]
•	Objective Quality Assessment of Image Retargeting by Incorporating Fidelity Measures and Inconsistency Detection Yichi Zhang, King Ngi Ngan, Lin Ma, and Hongliang Li IEEE Transactions on Image Processing (TIP), vol. 26, no. 12, pp. 5980-5993, Dec. 2017. [Full Text]
•	ESIM: Edge Similarity for Screen Content Image Quality Assessment Zhangkai Ni, Lin Ma, Huanqiang Zeng, Jing Chen, Canhui Cai, and Kai-Kuang Ma IEEE Transactions on Image Processing (TIP), vol. 26, no. 10, pp. 4818-4831, Oct. 2017. [Full_Text]
•	Multi-task Rank Learning for Image Quality Assessment Long Xu, Jia Li, Weisi Lin, Yongbing Zhang, Lin Ma, Yuming Fang, and Yihua Yan IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), vol. 27, no. 9, pp. 1833-1843, Sept. 2017. [Full Text]
•	The Use of Convolutional Neural Artificail Intellignece Network to Aid the Diagnosis and Classification of Early Esophageal Neoplasia Chenzi Zhang, Lin Ma, Noriya Uedo, Noriko Matsuura, Parry Tam, and Anthony Y. Teoh Gastrointestinal Endoscopy, vol. 85, no. 5S, pp. AB507-AB588, 2017. [Full Text].
•	Multimodal Deep Learning for Solar Radio Burst Classification Lin Ma, Zhuo Chen, Long Xu, and Yihua Yan Pattern Recognition (PR), vol. 61, pp. 573-582, Jan. 2017. [Full Text]

•	Learning to Answer Questions From Image Using Convolutional Neural Network Lin Ma, Zhengdong Lu, and Hang Li The Thirtieth AAAI Conference on Artificial Intelligence (AAAI), 2016. [Oral Presentation][Full Text][arXiv Link][Project Homepage]
•	Screen Content Image Quality Assessment Using Edge Model Zhangkai Ni, Lin Ma, Huanqiang Zeng, Canhui Cai, and Kai-Kuang Ma International Conference on Image Processing (ICIP), 2016. [Full Text]
•	Perceptual Image Quality Enhancement for Solar Radio Image Long Xu, Lin Ma, Zhuo Chen, Xianyou Zeng, and Yihua Yan International Conference on Quality of Multimedia Experience (QoMex), 2016. [Full Text]
•	Deep Learning Features Inspired Saliency Detection of 3D Images Qiudan Zhang, Xu Wang, Jianmin Jiang, and Lin Ma Pacific-Rim Conference on Multimedia (PCM), 2016. [Full Text]abs/1808.01575">arXiv Link][Source Code]
•	No-Reference Retargeted Image Quality Assessment Based on Pairwise Rank Learning Lin Ma, Long Xu, Yichi Zhang, Yihua Yan, and King Ngi Ngan IEEE Transaction on Multimedia (TMM), vol. 18, no. 11, pp. 2228-2237, Nov. 2016. [Full Text]
•	Just Noticeable Difference Estimation for Screen Content Images Shiqi Wang, Lin Ma, Yuming Fang, Weisi Lin, Siwei Ma, and Wen Gao IEEE Transactions on Image Processing (TIP), vol. 25, no. 8, pp. 3838-3851, Aug. 2016. [Full Text]
•	Gradient Direction for Screen Content Image Quality Assessment Zhangkai Ni, Lin Ma, Huanqiang Zeng, Canhui Cai, and Kai-Kuang Ma IEEE Signal Processing Letters (SPL), vol. 23, no. 10, pp. 1394-1398, Oct. 2016. [Full Text] [Project Homepage] [Code]
•	Learning Structure of Stereoscopic Image for No-Reference Quality Assessment with Convolutional Neural Network Wei Zhang, Chenfei Qu, Lin Ma, Jingwei Guan, and Rui Huang Pattern Recognition (PR), vol. 59, pp. 176-187, Nov. 2016. [Full Text] [Project Homepage]
•	Free-energy Principle Inspired Video Quality Metric and Its Use in Video Coding Long Xu, Weisi Lin, Lin Ma, Yongbing Zhang, Yuming Fang, King Ngi Ngan, Songnan Li, and Yihua Yan IEEE Transaction on Multimedia (TMM), vol. 18, no. 4, pp. 590-602, Apr. 2016. [Full Text]
•	Reorganized DCT-based Image Representation for Reduced Reference Stereoscopic Image Quality Assessment Lin Ma, Xu Wang, Qiong Liu, and King Ngi Ngan Neurocomputing (NC), vol. 215, pp. 21-31, Nov. 2016. [Full Text]
•	Imaging and Representation Learning of Solar Radio Spectrums for Classification Zhuo Chen, Lin Ma, Long Xu, Chengming Tan, and Yihua Yan Multimedia Tools and Applications (MTAP), vol. 75, no. 5, pp. 2859-2875, Mar. 2016. [Full Text]

•	Multimodal Convolutional Neural Networks for Matching Image and Sentence Lin Ma, Zhengdong Lu, Lifeng Shang, and Hang Li International Conference on Computer Vision (ICCV), 2015. [Poster Presentation][Full Text][arXiv Link][Project Homepage]
•	Multimodal Learning For Facial Expression Recognition Wei Zhang, Youmei Zhang, Lin Ma, Jingwei Guan, and Shijie Gong Pattern Recognition (PR), vol. 48, no. 10, pp. 3191-3202, Oct. 2015. [Full Text] [Project Homepage]
•	Reduced-Reference Image Quality Assessment in Reorganized DCT Domain Lin Ma, Songnan Li, and King Ngi Ngan Signal Processing: Image Communication (SPIC), vol. 28, no. 8, pp. 884-902, Aug. 2013. [Full Text].
•	Visual Saliency's Modulatory Effect on Just Noticeable Distortion Profile and Its Application in Image Watermarking Yaqing Niu, Matthew Kyan, Lin Ma, Azeddine Beghdadi, and Sridhar Krishnan Signal Processing: Image Communication (SPIC), vol. 28, no. 8, pp. 917-928, Aug. 2013. [Full Text].
•	Consistent Visual Quality Control in Video Coding Long Xu, Songnan Li, King Ngi Ngan, and Lin Ma IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), vol. 23, no. 6, pp. 975-989, Jun. 2013. [Full Text]
•	Recent Advances and Challenges of Visual Signal Quality Assessment Lin Ma, Chenwei Deng, King Ngi Ngan, and Weisi Lin China Communications, vol. 10, no. 5, pp. 62-78, 2013. [Full Text]
•	Anaglyph Image Generation by Matching Color Appearance Attributes Songnan Li, Lin Ma, and King Ngi Ngan Signal Processing: Image Communication (SPIC), vol. 28, no. 6, pp. 597-607, Jul. 2013. [Full Text]
•	Image Retargeting Quality Assessment: A Study of Subjective Scores and Objective Metrics Lin Ma, Weisi Lin, Chenwei Deng, and King Ngi Ngan IEEE Journal of Selected Topics in Signal Processing (JSTSP), vol. 6, no. 6, pp. 626-639, Oct. 2012. [Full Text ] [Project Homepage]
•	Reduced-Reference Video Quality Assessment of Compressed Video Sequences Lin Ma, Songnan Li, and King Ngi Ngan IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), vol. 22, no. 10, pp. 1441-1456, Oct. 2012. [Full Text]
•	Full-reference Video Quality Assessment by Decoupling Detail Losses and Additive Impairments Songnan Li, Lin Ma, and King Ngi Ngan IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), vol. 22, no. 7, pp. 1100-1112, Jul. 2012. [Full Text]
•	Learning-based Image Restoration for Compressed Images Lin Ma, Debin Zhao, and Wen Gao Signal Processing: Image Communication (SPIC), vol. 27, no. 1, pp. 54-65, Jan. 2012. [Full Text]
•	Image Quality Assessment by Separately Evaluating Detail Losses and Additive Impairments Songnan Li, Fan Zhang, Lin Ma, and King Ngi Ngan IEEE Transaction on Multimedia (TMM), vol. 13, no. 5, pp. 935-949, Oct. 2011. [Full Text]
•	Reduced-Reference Image Quality Assessment Using Reorganized DCT-Based Image Representation Lin Ma, Songnan Li, Fan Zhang, and King Ngi Ngan IEEE Transaction on Multimedia (TMM), vol. 13, no. 4, pp. 824-829, Aug. 2011. [Full Text]
•	Practical Image Quality Metric Applied to Image Coding Fan Zhang, Lin Ma, Songnan Li, and King Ngi Ngan IEEE Transaction on Multimedia (TMM), vol. 13, no. 4, pp. 615-624, Aug. 2011. [Full Text] [Experimental Results]
•	Adaptive Block-Size Transform Based Just-Noticeable Difference Model for Images/Videos Lin Ma, King Ngi Ngan, Fan Zhang, and Songnan Li Signal Processing: Image Communication (SPIC), vol. 26, no. 3, pp. 162-174, Mar. 2011. [Full Text]
•	Visual Horizontal Effect for Image Quality Assessment Lin Ma, Songnan Li, and King Ngi Ngan IEEE Signal Processing Letters (SPL), vol. 17, no. 7, pp. 627-630, Jul. 2010. [Full Text]
•	Visual Signal Quality Assessment - Quality of Experience (QoE) Chenwei Deng, Lin Ma, Weisi Lin, and King Ngi Ngan Springer, ISBN: 978-3-319-10367-9, 303 pages, Nov. 2014. [Full Text]
•	Retargeted Image Quality Assessment: Current Progresses and Future Trends Lin Ma, Chenwei Deng, Weisi Lin, King Ngi Ngan, and Long Xu Visual Signal Quality Assessment - Quality of Experience (QoE), Springer, ISBN: 978-3-319-10367-9, pp. 213-242, Nov. 2014. [Full Text]
•	Conclusions and Perspectives Chenwei Deng, Shuigen Wang, and Lin Ma Visual Signal Quality Assessment - Quality of Experience (QoE), Springer, ISBN: 978-3-319-10367-9, pp. 287-302, Nov. 2014. [Full Text]
•	Perceptual Quality Improvement for Synthesis Imaging of Chinese Spectral Radiohelograph Long Xu, Lin Ma, Zhuo Chen, Yihua Yan, and Jinjian Wu Pacific-Rim Conference on Multimedia (PCM), 2015. [Full Text]
•	A Packet-Layer Model with Content Characteristics for Video Quality Assessment of IPTV Qian Zhang, Lin Ma, Fan Zhang, and Long Xu Pacific-Rim Conference on Multimedia (PCM), 2015. [Full Text]
•	Rank Learning Based No-Reference Quality Assessment of Retargeted Images Lin Ma, Long Xu, Yichi Zhang, King Ngi Ngan, Yihua Yan IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2015. [Full Text]
•	Multimodal Learning for Classification of Solar Radio Spectrum Zhuo Chen, Lin Ma, Long Xu, Yihua Yan IEEE International Conference on Systems, Man, and Cybernetics (SMC) 2015. [Full Text]
•	Multi-task Rank Learning for Image Quality Assessment Long Xu, Jia Li, Weisi Lin, Yongbing Zhang, Lin Ma, Yuming Fang, Yun Zhang, and Yihua Yan IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015. [Full Text]
•	How Does the Shape Descriptor Measure the Perceptual Quality of the Retargeted Image? Lin Ma, Long Xu, Huanqiang Zeng, King Ngi Ngan, and Chenwei Deng IEEE International Conference on Multimedia and Expo (ICME) Workshop Emerging Multimedia Systems and Applications, 2014. [Full Text]
•	Visual Quality Metric for Perceptual Video Coding Long Xu, Lin Ma, King Ngi Ngan, Weisi Lin, and Ying Weng IEEE Visual Communications and Image Processing (VCIP), 2013. [Full Text]
•	Packet-layer Model for Quality Assessment of Encrypted Video in IPTV Services Qian Zhang, Fan Zhang, and Lin Ma Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2013. [Full Text]
•	High Quality Image Construction from Multiple Low Quality Copies Lin Ma, Long Xu, Qian Zhang, and King Ngi Ngan International Workshop on Multimedia Signal Processing (MMSP), 2013. [Full Text]
•	Reduced Reference Video Quality Assessment Based on Spatial HVS Mutual Masking and Temporal Motion Estimation Lin Ma, King Ngi Ngan, and Long Xu IEEE International Conference on Multimedia and Expo (ICME) in Multimedia for Humanity Theme Track, 2013. [Full Text]
•	Overview of Quality Assessment for Visual Signals and Newly Emerged Trends Lin Ma, Chenwei Deng, Weisi Lin, and King Ngi Ngan International Symposium on Circuits and Systems (ISCAS), 2013. [Full Text]
•	Video Quality Metric for Consistent Visual Quality Control in Video Coding Long Xu, King Ngi Ngan, Songnan Li, and Lin Ma Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2012. [Full Text]
•	Study of Subjective and Objective Quality Assessment of Retargeted Images Lin Ma, Weisi Lin, Chenwei Deng, and King Ngi Ngan International Symposium on Circuits and Systems (ISCAS), 2012. [Full Text] [Project Homepage]
•	Reduced-Reference Image Quality Assessment via Intra- and Inter-Subband Statistical Characteristics in Reorganized DCT Domain Lin Ma, Songnan Li, and King Ngi Ngan Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2011. [Full Text].
•	Video Quality Assessment by Decoupling Additive Impairments and Detail losses Songnan Li, Lin Ma, and King Ngi Ngan International Workshop on Quality of Multimedia Experience(QoMEX), 2011. [Full Text]
•	Motion Trajectory Based Visual Saliency for Video Quality Assessment Lin Ma, Songnan Li, and King Ngi Ngan International Conference on Image Processing (ICIP), 2011. [Full Text]
•	Perceptual Image Compression via Adaptive Block-Based Super-Resolution Directed Down-Sampling Lin Ma, Songnan Li, and King Ngi Ngan International Symposium on Circuits and Systems (ISCAS), 2011. [Full Text]
•	Video Quality Assessment Based on Adaptive Block-Size Transform Just-Noticeable Difference Model Lin Ma, Fan Zhang, Songnan Li, and King Ngi Ngan International Conference on Image Processing (ICIP), 2010. [Full Text]
•	Adaptive Block-Size Transform Based Just-Noticeable Difference Profile for Videos Lin Ma, and King Ngi Ngan International Symposium on Circuits and Systems (ISCAS), 2010. [Full Text]
•	Adaptive Block-Size Transform Based Just-Noticeable Difference Profile for Images Lin Ma, and King Ngi Ngan Pacific-Rim Conference on Multimedia (PCM), 2009. [Full Text]
•	Learning-based Image Restoration for Compressed Image through Neighboring Embedding Lin Ma, Feng Wu, Debin Zhao, Wen Gao, and Siwei Ma Pacific-Rim Conference on Multimedia (PCM), 2008. [Full Text] (Best Paper Award)
•	Three-tiered Network Model for Image Hallucination Lin Ma, Yonghua Zhang, Yan Lu, Feng Wu, and Debin Zhao International Conference of Image Processing (ICIP), 2008. [Full Text]
•	Temporal Inconsistency Measure for Video Quality Assessment Songnan Li, Lin Ma, Fan Zhang, and King Ngi Ngan Picture Coding Symposium (PCS), 2010. [Full Text]
•	Limitation and Challenges of Image Quality Measurement Fan Zhang, Songnan Li, Lin Ma, and King Ngi Ngan Visual Communications and Image Processing (VCIP), 2010. [Full Text]
•	Universal Steganalysis Based on Statistical Models Using Reorganization of Block-based DCT Coefficients Shaohui Liu, Lin Ma, Hongxun Yao, and Debin Zhao International Conference on Information Assurance and Security (IAS), 2009. [Full Text]