Jiaming Han

PhD Student · MMLab, The Chinese University of Hong Kong

Biography

I am a third-year PhD student of MMLab@CUHK advised by Prof. Xiangyu Yue. Before that, I received my Master and Bachelor degree from Wuhan University and Central South University, respectively. I also interned at Tencent Hunyuan, Bytedance Seed, Shanghai AI Lab and Tencent YouTu Lab.

My research builds toward a unified intelligent system through multimodal foundation models—from efficient multimodal alignment that binds diverse modalities to language (LLaMA-Adapter, OneLLM), to unifying multimodal understanding and generation within a single autoregressive model (Tar, BitDance), and now toward world models, with the long-term goal of building a unified large model that perceives, generates, reasons, and acts in the world.

I expect to graduate in Summer 2027 and am actively seeking full-time job opportunities. Feel free to contact me via Email and Wechat.

Selected Publications Full List

Agentic Coding & Reinforcement Learning

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Juanxi Tian, Fengyuan Liu, Jiaming Han, Yilei Jiang, Yongliang Wu, Yesheng Liu, Haodong Li, Furong Xu, Wanhua Li

Project Page Paper Code

OpenGame: Open Agentic Coding for Games

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, Yaozhi Zheng, Ruize Ma, Kaituo Feng, Jiaming Han, Tianshuo Peng, Kaixuan Fan, Manyuan Zhang, Xiangyu Yue

Project Page Paper Code

ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

Yilei Jiang, Yaozhi Zheng, Yuxuan Wan, Jiaming Han, Qunzhong Wang, Michael R. Lyu, Xiangyu Yue

Paper Code Demo

Multimodal Generation & Unified Models

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

Yuang Ai*, Jiaming Han*, Shaobin Zhuang*, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen

Project Page Paper Models Demo

Bridge: Growing Visual Generative Capacity for Pre-Trained MLLMs

Hanyu Wang*, Jiaming Han*, Ziyan Yang, Qi Zhao, Shanchuan Lin, Xiangyu Yue, Abhinav Shrivastava, Zhenheng Yang, Hao Chen

Project Page Paper Code

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations

Jiaming Han, Hao Chen, Yang Zhao, Hanyu Wang, Qi Zhao, Ziyan Yang, Hao He, Xiangyu Yue, Lu Jiang

NeurlPS 2025 Project Page Paper Code Models Demo

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^128 for Unified Multimodal Large Language Model

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2¹²⁸ for Unified Multimodal Large Language Model

Shaobin Zhuang*, Yuang Ai*, Jiaming Han*, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang

Paper

BitLM: Unlocking Multi-Token Language Generation with Bitwise Continuous Diffusion

Shaobin Zhuang, Yuang Ai, Jiaming Han, Xiaohui Li, Huaibo Huang, Xiangyu Yue, Xuefeng Hu, Kun Xu, Yali Wang, Hao Chen

Paper

GIDE: Unlocking Diffusion LLMs for Precise Training-Free Image Editing

Zifeng Zhu, Jiaming Han, Jiaxiang Zhao, Minnan Luo, Xiangyu Yue

ECCV 2026 Paper Code

Long Video & RAG & Embodied Reasoning

Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo

CoRL 2025 Project Page Paper Code

Retrieval-Augmented Personalization for Multimodal Large Language Models

Haoran Hao*, Jiaming Han*, Changsheng Li, Yu-Feng Li, Xiangyu Yue

CVPR 2025 Project Page Paper Code

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

Shilin Yan, Jiaming Han, Joey Tsai, Hongwei Xue, Rongyao Fang, Lingyi Hong, Ziyu Guo, Ray Zhang

Paper Code

Multimodal Long Video Modeling Based on Temporal Dynamic Context

Haoran Hao*, Jiaming Han*, Yiyuan Zhang, Xiangyu Yue

Project Page Paper Code

Multimodal Alignment

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

Renrui Zhang*, Jiaming Han*, Aojun Zhou, Xiangfei Hu, Shilin Yan, Pan Lu, Hongsheng Li, Peng Gao, Yu Qiao.

ICLR 2024 Paper Code Demo

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

Peng Gao*, Jiaming Han*, Renrui Zhang*, Ziyi Lin*, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, Yu Qiao.

Paper Code Demo

OneLLM: One Framework to Align All Modalities with Language

Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue.

CVPR 2024 Project Page Paper Code Demo

ImageBind-LLM: Multi-modality Instruction Tuning

Jiaming Han*, Renrui Zhang*, Wenqi Shao*, Peng Gao*, Peng Xu*, Han Xiao*, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao.

Paper Code Demo

Object Detection