Jiaming Han

Biography

I am a PhD student of MMLab@CUHK advised by Prof. Xiangyu Yue. Recently, I focus on efficient and unified multimodal LLMs, such as LLaMA-Adpater, OneLLM and Tar. I received my Master and Bachelor degree from Wuhan University and Central South University, respectively. I interned at Bytedance Seed, Shanghai AI Lab and Tencent YouTu Lab.

News

09/2025: Tar is accepted by NeurlPS 2025.
08/2025: Reflective Planning is accepted by CoRL 2025.
02/2025: RAP is accepted by CVPR 2025.
02/2024: OneLLM is accepted by CVPR 2024.
01/2024: LLaMA-Adapter is accepted by ICLR 2024!.
12/2023: We release OneLLM which aligns eight modalities to language using a unified framework.
09/2023: ImageBind-LLM is released at arXiv.
05/2023: We release ImageBind-LLM: a LLM connects Image, Video, Audio, Point Cloud and more! Check our demo.
04/2023: We release multi-modal instruction model LLaMA-Adapter V2. Check our demo at OpenGVLab.
03/2023: We release the paper and code of LLaMA-Adapter.
11/2022: One paper on Few-Shot Object Detection is accepted by AAAI 2023.
03/2022: We release the paper and code of OpenDet.
03/2022: One paper on Open-Set Object Detection is accepted by CVPR 2022.
02/2022: Our works S²A-Net and ReDet are included in OpenMMLab's mmrotate.
08/2021: Third-party implementation of S²A-Net with Jittor and PaddlePaddle.
03/2021: We release the paper and code of ReDet.
02/2021: One paper is accepted by CVPR 2021.

Selected Publications

Bridge: Growing Visual Generative Capacity for Pre-Trained MLLMs

Hanyu Wang*, Jiaming Han*, Ziyan Yang, Qi Zhao, Shanchuan Lin, Xiangyu Yue, Abhinav Shrivastava, Zhenheng Yang, Hao Chen

Project Page Paper Code

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations

Jiaming Han, Hao Chen, Yang Zhao, Hanyu Wang, Qi Zhao, Ziyan Yang, Hao He, Xiangyu Yue, Lu Jiang

NeurlPS 2025 Project Page Paper Code Models Demo

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

Shilin Yan, Jiaming Han, Joey Tsai, Hongwei Xue, Rongyao Fang, Lingyi Hong, Ziyu Guo, Ray Zhang

Paper Code

Multimodal Long Video Modeling Based on Temporal Dynamic Context

Haoran Hao*, Jiaming Han*, Yiyuan Zhang, Xiangyu Yue

Project Page Paper Code

Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo

CoRL 2025 Project Page Paper Code

Retrieval-Augmented Personalization for Multimodal Large Language Models

Haoran Hao*, Jiaming Han*, Changsheng Li, Yu-Feng Li, Xiangyu Yue

CVPR 2025 Project Page Paper Code

OneLLM: One Framework to Align All Modalities with Language

Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue.

CVPR 2024 Project Page Paper Code Demo

ImageBind-LLM: Multi-modality Instruction Tuning

Jiaming Han*, Renrui Zhang*, Wenqi Shao*, Peng Gao*, Peng Xu*, Han Xiao*, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao.

Paper Code Demo