CV - Junbin Xiao / Home Page

Junbin Xiao (肖俊斌)

Ph.D in Computer Science

Com4 AI Lab, SoC, NUS

I have joined USTC as a professor (特任教授) and PhD supervisor. Previously, I was a Research Fellow at NUS, working with Prof Angela Yao and Tat-Seng Chua. I obtained my PhD at the Department of Computer Science, National University of Singapore (NUS), supervised by Prof. Tat-Seng Chua and closely collaborated with Prof. Angela Yao . From Nov. 2021 to Apr. 2022, I worked as a research intern at Sea AI Lab (SAIL) and was jointly advised by Dr. Pan Zhou and Prof. Shuicheng Yan. Prior to that, I received my M.S.Eng degree from the Institute of Computing Technology, Chinese Academy of Sciences at 2018 and B.Eng. degree from Sichuan University at 2015, respectively.

I devote myself to developing AI techniques that can understand the physical world, interact and communicate with human beings to provide personalized assistance. The topics of interest cover video understanding, question answering, visual grounding, and robotics. The techniques emphasize multimodal large language models, robustness and trustworthiness. I am recently focusing on trustworthy Multimodal LLMs and their applications in egocentric embodied assistance. I am actively looking for self-motivated students.

News

I will be a Professor (特任教授) and PhD supervisor at USTC.

| Feb. 2026

Invited to be Area Chair in CVPR'26.

| Sept. 2025

Six papers are accepted to SIGIR'25,ICMR'25,MICCAI'25 and ICCV'25 respectively

| Jun. 2025

Invited to be Reviewer in NeurIPS'25, MM'25.

| Mar. 2025

I will give a talk about NExT-GQA: Visually Grounded VideoQA inivited by Twelve Labs

CVPR'24 | Jul. 2024

Two papers about video-language models and trustworthy K-VQA are accepted to ACL'24 and MM'24 respectively

| Jul. 2024

Our exploration of VQA in trustworthiness,3D object affordance and ego-car accident (3 papers) all are accepted to CVPR'24

CVPR'24 | Feb. 2024

Invited to be reviewer in CVPR'24 and ICLR'24.

| Oct. 2023

Two papers are accepted to T-PAMI'23 and ACM MM'23 respectively.

Aug. 2023

Two papers are accepted to T-PAMI'23 and ICCV'23 respectively.

Jul. 2023

Invited to serve as PC Member in AAAI'24.

AAAI | Jul. 2023

Invited to be reviewer in NeurIPS'23 dataset and benchmark track.

NeurIPS | Jun. 2023

Invited to be reviewer in ACM MM'23.

ACM MM | Apr. 2023

Successfully defensed my Ph.D.

NUS | Mar. 2023

Thesis: Visual Relation Driven Video Question Answering. Supervisor: Prof. Tat-Seng Chua. Committee: Prof. Mohan Kankanhalli, Prof. Roger Zimmermann. Chair: Prof. Terence Sim

Featured Publications

Knowing Thyself: Ego-Grounding for Personalized Question-Answering in Egocentric Videos

Junbin Xiao*, Shenglang Zhang*, Pengxiang Zhu, Angela Yao

[ CVPR'26 / Project Page / Github / Cite]

Multi-grained KV Cache Compression for Long Streaming Video Question Answering

Junbin Xiao*, Jiajun Chen*, Tianxiang Sun, Xun Yang, Angela Yao

[ CVPR'26 / Project Page / Github / Cite]

ADVersa: Abductive Driving Accident Video Understanding

Lei-Lei Li, Jianwu Fang, Junbin Xiao, Hongkai Yu, Chen Lv, Jianru Xue, Zhengguo Li, Tat-Seng Chua

[ T-PAMI'26 / Project Page / Github / Cite]

EgoBlind: Towards Egocentric Visual Assistance for the Blind

Junbin Xiao*, Nanxin Huang*, Hao Qiu, Zhulin Tao, Xun Yang, Richang Hong, Meng Wang, Angela Yao

[ NeurIPS'25 (DB Track) / Project Page / Github / Cite]

MUPA: Towards Multi-Path Agentic Reasoning for Grounded Video Question Answering

Jisheng Dang, Huilin Song, Junbin Xiao*(Corresponding Author), Bimei Wang, Han Peng, Haoxuan Li, Xun Yang, Meng Wang, Tat-Seng Chua

[ arXiv'25 / Project Page / Github / Cite]

EgoIntention: Visual Intention Grounding for Egocentric Assistants

Pengzhan Sun, Junbin Xiao*(Corresponding Author), Tze Ho Elden Tse, Yicong Li, Arjun Akula, Angela Yao

[ ICCV'25 / Project Page / Github / Cite]

Causal-Entity Reflected Egocentric Traffic Accident Video Synthesis

Leilei Li, Jianwu Fang, Junbin Xiao, Hongkai Yu, Chen Lv, Jianru Xue, Tat-Seng Chua

[ ICCV'25 / Project Page / Github / Cite]

Intermediate Connectors and Geometric Priors for Language-Guided Affordance Segmentation on Unseen Object Categories

Yicong Li, Yiyang Chen, Zhenyuan Ma, Junbin Xiao, Xiang Wang, Angela Yao

[ ICCV'25 / Project Page / Github / Cite]

Bottom-Up and Top-Down Thoughts for Visual Intention Grounding

Kangcheg Liu, Junbin Xiao*(Corresponding Author), Rui Zhang, Hanqi Lv, Zidong Du

[ ICMR'25 / Project Page / Github / Cite]

Unleashing the Power of LLMs for Medical Video Answer Localization

Junbin Xiao*, Qingyun Li*, Yusen Yang, Liang Qiu, Angela Yao

[ MICCAI'25 / Project Page / Github / Cite]

Question Answering Dense Video Events

Hangyu Qin, Junbin Xiao*(Corresponding Author), Angela Yao

[ SIGIR'25 / Project Page / Github / Cite]

EgoTextVQA: Towards Egocentric Scene-Text Video Question Answering

Zhou Sheng, Junbin Xiao*(Corresponding Author), Qingyun Li, Yicong Li,Xun Yang, Dan Guo, Meng Wang, Tat Seng Chua, Angela Yao

[ CVPR'25 / Project Page / Github / Cite]

On the Consistency of Video Large Language Models in Temporal Comprehension

Minjoon Jung, Junbin Xiao*(Corresponding Author), Byoung-Tak Zhang, Angela Yao

[ CVPR'25 / Project Page / Github / Cite]

VideoQA in the era of LLMs: An Empericial Study

Junbin Xiao, Nanxin Huang, Hangyu Qin, Dongyang Li, Yicong Li, Fengbin Zhu, Zhulin Tao, Jianxing Yu, Liang Lin, Tat-Seng Chua, Angela Yao

[ IJCV'25 / Project Page / Github / Cite]

Scene Text Grounding for Text-based Video Question Answering

Sheng Zhou, Junbin Xiao*(Corresponding Author), Xun Yang, Peipei Song, Dan Guo, Angela Yao, Meng Wang, Tat-Seng Chua

[ TMM'25 / Project Page / Github / Cite]

LASO: Language-guided Affordance Segmentation on 3D Object

Yicong Li, Na Zhao, Junbin Xiao, Feng Chuan, Xiang Wang, Tat-Seng Chua

[ CVPR'24 / Project Page / Github / Cite]

Abductive Ego-View Accident Video Understanding for Safe Driving Perception

Jianwu Fang, Leilei Li, Junfei Zhou, Junbin Xiao, Jongkai Yu, Chen Lv, Jianru Xue, Tat-Seng Chua

[ CVPR'24 / Project Page / Github / Cite]

Can I Trust Your Answer? Visually Grounded Video Question Answering

Junbin Xiao, Angela Yao, Yicong Li, Tat-Seng Chua

[ CVPR'24 (Highlight) / Project Page / Github / Cite]

Discovering Spatio-Temporal Rationales for Video Question Answering

Yicong Li, Junbin Xiao*(Corresponding Author), Chun Feng, Xiang Wang*, Tat-Seng Chua

[ ICCV'23 / Project Page / Github / Cite]

Contrastive Video Question Answering via Video Graph Transformer

Junbin Xiao, Pan Zhou, Angela Yao, Yicong Li, Richang Hong, Shuicheng Yan, Tat-Seng Chua

[T-PAMI'23 / Project Page / Github / Cite]

Transformer-Empowered Invariant Grounding for Video Question Answering

Yicong Li, Xiang Wang, Junbin Xiao, Wei Ji, Tat-Seng Chua

[T-PAMI'23 / Project Page / Github / Cite]

Video Question Answering: Datasets, Algorithms and Challenges

Yaoyao Zhong^*, Junbin Xiao^*(Equal Contribution)， Wei Ji^*, Yicong Li, Weihong Deng, Tat-Seng Chua

[EMNLP'22 / Project Page / Github / Cite]

Video Graph Transformer for Video Question Answering

Junbin Xiao, Pan Zhou, Tat Seng Chua, Shuicheng Yan

[ ECCV'22 / Project Page / Github / Poster / Cite]

Equivariant and Invariant Grounding for Video Question Answering

Yicong Li, Xiang Wang, Junbin Xiao, Tat Seng Chua

[ACM MM'22 / Project Page / Github / Poster / Cite]

Invariant Grounding for Video Question Answering

Yicong Li, Xiang Wang, Junbin Xiao, Wei Ji, Tat-Seng Chua

[CVPR'22, Best Paper Finalist / Project Page / Github / Poster / Cite]

Video as Conditional Graph Hierarchy for Multi-Granular Question Answering

Junbin Xiao, Angela Yao, Zhiyuan Liu, Yicong Li, Wei Ji, Tat-Seng Chua

[AAAI'22, Oral / Project Page / Github / Poster / Cite]

Video Visual Relation Detection via Interactive Inference

Xindi Shang, Yicong Li, Junbin Xiao, Wei Ji, Tat-Seng Chua

[ACM MM'21 / Project Page / Github / Poster / Cite]

NExT-QA: Next Phase of Question Answering to Explaining Temporal Actions

Junbin Xiao, Xindi Shang, Yao Angela, Tat-Seng Chua

[CVPR'21, Strong Accept / Project Page / Github / Poster / Cite]

Visual Relation Grounding in Videos

Junbin Xiao, Xindi Shang, Xun Yang, Sheng Tang, Tat-Seng Chua

[ECCV'20, Spotlight / Project Page / Github / Poster / Cite]

Annotating Object and Relations in User-Generated Videos

Xindi Shang, Donglin Di, Junbin Xiao, Yu Cao, Xun Yang, Tat-Seng Chua

[ICMR'19, Oral / Project Page / Github / Poster / Cite]

Others

Reviewer for Conference: NeurIPS(Y23-Y25), ICLR(Y24-Y26) , ICML(Y26), CVPR(Y22-Y26), ICCV(Y23,Y25), ECCV(Y22,Y24,Y26), AAAI(Y21-Y25), ACL(Y24), ACM MM(Y19-Y26), EMNLP(Y24), WACV(Y25), ACCV(Y24, Y25), ICASSP(Y21-Y22) etc.

Reviewer for Journal: PAMI, IJCV, TIP, TMM, TNNLS, TCE, TMech, Medical Image Analysis (MIA), etc

Internship

[Nov. 2021-Apr. 2022]

Research Intern

Sea AI Lab (SAIL)
[Jun. 2017- Sep. 2017]

Algorithm Engineer

Weixin, Tencent

Competition

ILSVRC2017 (VID)

THU-CAS: Ranked 3rd
ILSVRC2016 (VID)

MCG-ICT-CAS: Ranked 3rd
ILSVRC2015 (CLS-LOC)

MCG-ICT-CAS: Ranked 5th

TA

[Sem 2020-2021]

CS5228: Knowledge Discovery and Data Mining
[Sem 2019-2020]

CS4243: Computer Vision and Pattern Recognition