Currently on the Job Market

I am currently on the job market and seeking research positions in academia and industry, as well as roles related to large language models. Please feel free to contact me for further information.

I am a 4th year Ph.D. candidate in Fudan University, supervided by Prof. Wenqiang Zhang. I achieved my B.E. degress in Information Security from Fudan University in 2022.

I have published about 30 papers at top-tier venues, including 10 papers as first author / co-first author, wich 1000 + citations in total.

My research interest includes:

Agent
Multimodal Large Language Model
Computer vision
Video understanding

🔥 News

2026.05: 🎉🎉 Two paper is accepted by ICML 2026.
2026.01: 🎉🎉 One paper is accepted by ICLR 2026.
2025.11: 🎉🎉 One paper is accepted by AAAI 2026.
2025.09: 🎉🎉 One paper is accepted by NeurIPS 2025.
2025.09: 🎉🎉 LVOS V2 is accepted by T-PAMI 2025.
2025.07: 🎉🎉 I’m organizing the 7th Large-Scale Video Object Segmentation (LSVOS) Challenge! Welcome to attend!
2025.06: 🎉🎉 One paper is accepted by ICCV 2025. Congratulations to all co-authors!
2025.01: 🎉🎉 One paper is accepted by ICLR 2025.
2024.09: 🎉🎉 One paper is accepted by NeurIPS 2024.
2024.08: 🎉🎉 Two papers are accepted by ACM MM 2024.
2024.07: 🎉🎉 Two papers are accepted by ECCV 2024.
2024.07: 🎉🎉 I’m organizing the 6th Large-Scale Video Object Segmentation (LSVOS) Challenge! Welcome to attend!
2024.04: 🎉🎉 LVOS V2 has been released! Welcome for following!
2024.03: 🎉🎉 One paper is accepted by CVPR 2024 and is presented as Highlight! Congratulations to all co-authors!
2023.09: 🎉🎉 One paper is accepted by NeurIPS 2023.
2023.08: 🎉🎉 Three papers are accepted by ACM MM 2023. Congratulations to all co-authors!
2023.07: 🎉🎉 LVOS has been accepted by ICCV 2023.
2022.11: 🎉🎉 LVOS (the first long-term video object segmentation benchmark) has been public!

📝 Publications

🤖 Multimodal Large Language Model

Arxiv 2026 RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations, Xingqi He, Yujie Zhang, Shuyong Gao, Wenjie Li, Lingyi Hong, Mingxi Chen, Kaixun Jiang, Jiyuan Fu, Wenqiang Zhang
Arxiv 2025 CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms, Shilin Yan, Jiaming Han, Joey Tsai, Hongwei Xue, Rongyao Fang, Lingyi Hong, Ziyu Guo, Ray Zhang
AAAI 2026 Seeing is Believing: Rich-Context Hallucination Detection for MLLMs via Backward Visual Grounding, Pinxue Guo, Chongruo Wu, Xinyu Zhou, Lingyi Hong, Zhaoyu Chen, Jinglun Li, Kaixun Jiang, Sen-Ching Samson Cheung, Wei Zhang, Wenqiang Zhang

🧭 Visual Object Tracking and Segmentation

ICCV 2025

General Compression Framework for Efficient Transformer Object Tracking

Lingyi Hong, Jinglun Li, Xinyu Zhou, Shilin Yan, Pinxue Guo, Kaixun Jiang, Zhaoyu Chen, Shuyong Gao, Runze Li, Xingdong Sheng, Wei Zhang, Hong Lu, Wenqiang Zhang

[Paper] [Github]

General compression framework for efficient SOT.
Support any teacher and student structure, any input resolution, and any layer numbers.
Balance between efficiency and effectiveness (2.17 x speed up with 96% accuracy).

CVPR 2024 Highlight

(Highlight) OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning

Lingyi Hong, Shilin Yan, Renrui Zhang, Wanyun Li, Xinyu Zhou, Pinxue Guo, Kaixun Jiang, Yiting Chen, Jinglun Li, Zhaoyu Chen, Wenqiang Zhang

[Paper]

The first one to unify RGB and RGB+X tracking in a general framework.
Introduce the foundation model and parameter-efficient tuning manner into object tracking and break traditional full finetuning stragety.
SOTA performance on 6 tracking task 11 benchmarks.

T-PAMI 2025 & ICCV 2023

LVOS: A Benchmark for Large-scale Long-term Video Object Segmentation

Lingyi Hong, Zhongying Liu, Wenchao Chen, Chenzhi Tan, Yuang Feng, Xinyu Zhou, Pinxue Guo, Jinglun Li, Zhaoyu Chen, Shuyong Gao, Wei Zhang, Wenqiang Zhang

LVOS: A Benchmark for Long-term Video Object Segmentation

Lingyi Hong, Wenchao Chen, Zhongying Liu, Wei Zhang, Pinxue Guo, Zhaoyu Chen, Wenqiang Zhang

[Paper V2] [Paper V1] [Home Page] [Github]

The first long-term video object segmentation benchmark.

ICCV 2025 Workshop LSVOS 2025 Challenge Report: Recent Advances in Complex Video Object Segmentation, Chang Liu, Henghui Ding, Kaining Ying, Lingyi Hong, Ning Xu, Linjie Yang, Yuchen Fan, et al.
TCSVT 2025 ClickVOS: click video object segmentation, Pinxue Guo, Lingyi Hong, Xinyu Zhou, Shuyong Gao, Wanyun Li, Jinglun Li, Zhaoyu Chen, Xiaoqiang Li, Wei Zhang, Wenqiang Zhang
NeurIPS 2025 Dynamic Semantic-Aware Correlation Modeling for UAV Tracking, Xinyu Zhou, Tongxin Pan, Lingyi Hong, Pinxue Guo, Haijing Guo, Zhaoyu Chen, Kaixun Jiang, Wenqiang Zhang
Arxiv 2025 Progressive scaling visual object tracking, Jack Hong, Shilin Yan, Zehao Xiao, Jiayin Cai, Xiaolong Jiang, Yao Hu, Henghui Ding
ECCV 2024 Workshop LSVOS Challenge Report: Large-Scale Complex and Long Video Object Segmentation, Henghui Ding, Lingyi Hong, Chang Liu, Ning Xu, Linjie Yang, Yuchen Fan, et al.
NeurIPS 2024 DeTrack: In-model Latent Denoising Learning for Visual Object Tracking, Xinyu Zhou, Jinglun Li, Lingyi Hong, Kaixun Jiang, Pinxue Guo, Weifeng Ge, Wenqiang Zhang
ACM MM 2024 X-prompt: Multi-modal visual prompt for video object segmentation, Pinxue Guo, Wanyun Li, Hao Huang, Lingyi Hong, Xinyu Zhou, Zhaoyu Chen, Jinglun Li, Kaixun Jiang, Wei Zhang, Wenqiang Zhang
ECCV 2024 OneVOS: Unifying Video Object Segmentation with All-in-One Transformer Framework, Wanyun Li, Pinxue Guo, Xinyu Zhou, Lingyi Hong, Yangji He, Xiangyu Zheng, Wei Zhang, Wenqiang Zhang
ECCV 2024 PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation, Shilin Yan, Xiaohao Xu, Renrui Zhang, Lingyi Hong, Wenchao Chen, Wenqiang Zhang, Wei Zhang
NeurIPS 2023 Reading Relevant Feature from Global Representation Memory for Visual Object Tracking, Xinyu Zhou, Pinxue Guo, Lingyi Hong, Jinglun Li, Wei Zhang, Weifeng Ge, Wenqiang Zhang
ACM MM 2023 SimulFlow: Simultaneously Extracting Feature and Identifying Target for Unsupervised Video Object Segmentation, Lingyi Hong, Wei Zhang, Shuyong Gao, Hong Lu, WenQiang Zhang

Others

ICLR 2026 Lingoloop attack: Trapping mllms via linguistic context and state entrapment into endless loops, Jiyuan Fu, Kaixun Jiang, Lingyi Hong, Jinglun Li, Haijing Guo, Dingkang Yang, Zhaoyu Chen, Wenqiang Zhang
CVPR 2025 Workshop NTIRE 2025 challenge on cross-domain few-shot object detection: Methods and results,
Arxiv 2025 P3S-Diffusion: A selective subject-driven generation framework via point supervision, Junjie Hu, Shuyong Gao, Lingyi Hong, Qishan Wang, Yuzhou Zhao, Yan Wang, Wenqiang Zhang
TCSVT 2025 Videopure: Diffusion-based adversarial purification for video recognition, Kaixun Jiang, Zhaoyu Chen, Jiyuan Fu, Lingyi Hong, Jinglun Li, Wenqiang Zhang
ICLR 2025 DynaPrompt: Dynamic Test-Time Prompt Tuning, Zehao Xiao, Shilin Yan, Jack Hong, Jiayin Cai, Xiaolong Jiang, Yao Hu, Jiayi Shen, Qi Wang, Cees GM Snoek
ICCV 2025 MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection, Yu’ang Feng, Shuyong Gao, Fuzhen Yan, Yicheng Song, Lingyi Hong, Junjie Hu, Wenqiang Zhang
Arxiv 2025 MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection, Shuyong Gao, Yu’ang Feng, Qishan Wang, Lingyi Hong, Xinyu Zhou, Liu Fei, Yan Wang, Wenqiang Zhang
ACM MM 2024 TagOOD: A Novel Approach to Out-of-Distribution Detection via Vision-Language Representations and Class Center Learning, Jinglun Li, Xinyu Zhou, Kaixun Jiang, Lingyi Hong, Pinxue Guo, Zhaoyu Chen, Weifeng Ge, Wenqiang Zhang
ACM MM 2023 Exploring the Adversarial Robustness of Video Object Segmentation via One-shot Adversarial Attacks, Kaixun Jiang, Lingyi Hong, Zhaoyu Chen, Pinxue Guo, Zeng Tao, Yan Wang, Wenqiang Zhang
ACM MM 2023 (Oral) Towards Decision-based Sparse Attacks on Video Recognition, Kaixun Jiang, Zhaoyu Chen, Xinyu Zhou, Jingyu Zhang, Lingyi Hong, JiaFeng Wang, Bo Li, Yan Wang, Wenqiang Zhang

📅 Organizations

📖 Educations

2022.09 - Now, Ph. D. candidate, School of Computer Science, Fudan University, Shanghai China.
2018.09 - 2022.06, Undergraduate, School of Computer Science, Fudan University, Shanghai China.

🆚 Contests

2025.03: 1st Place, 2-st Cross-Domain Few-Shot Object Detection @ CVPR 2026.
2024.06: 2nd Place, Roboflow-20VL Few-Shot Object Detection Challenge @ CVPR2025.
2024.05: 4th Place, 1-st Cross-Domain Few-Shot Object Detection @ CVPR 2025.
2024.08: 2nd Place, Global Multimedia Deepfake Detection Challenge @ Inclusion 2024.
2022.06: 2nd Place, The 4th Large-scale Video Object Segmentation Challenge. CVPRW 2022.

🗒 Services

Reviewer for TPAMI, TIP, TCSVT, ICML 2025 - 2026, NeurIPS 2024 - 2025, ICLR 2025 - 2026, CVPR 2024 - 2026, ICCV 2023 - 2025, ECCV 2024 - 2026, ACM MM 2023 - 2026.