LAVA-Workshop

Home LAVA 2025 (ACMMM 2025)LAVA Challenge (ACMMM 2025)LAVA 2024 (ACCV 2024)

Workshop Schedule

LOCATION: Distillers, Hyatt
Morning Session

09:00 - Opening Remark
09:05 - Keynote Talk: Dr. Seitaro Shinagawa (SB Intuitions, online) Sarashina2-Vision: Toward Vision -- Language Models for Understanding Japanese Figures and Conceptual/Explanatory Diagrams
10:00 - Janak Kapuriya (online): Enhancing Scientific Visual Question Answering via Vision-Caption aware Supervised Fine-Tuning
10:15 - Jiadong Yan (pre-recorded video): Few-shot Anomaly Detection based on Long Short Text Interactive Contrastive Learning
10:30~11:00 Coffee break
11:00 - Tun-Yuan Chang: Harvesting Temporal Correlation in Large Vision-Language Models: Using Pose Estimation as a Case Study
11:15 - Nam Nguyen Xuan (online): StructCon-ST: Connectivity-Aware Spatio-Temporal Fine-Grained Image Analysis
11:30 - Jun Wan (pre-recorded video): Hierarchical Temporal Views for Policy Optimization in Multimodal Video Reasoning

Afternoon Session

13:30 - Keynote Talk: Dr. Md. Mamunur Rashid (The King Abdulaziz Center for World Culture - Ithra) Cross-Modal Trust: Evaluating LVLMs for Safeguarding Health Information
14:30 - Daichi Sato: LAVA Grand Challenge Introduction
14:45 - SYSUpporter team: HEAR: A Holistic Extraction and Agentic Reasoning Framework for Document Understanding
15:00 - Woof team: AdaDocVQA: Adaptive Framework for Long Document Visual Question Answering in Low-Resource Settings
15:30~16:00 Coffee break
16:00 - nsbsk team: Hierarchical Vision-Language Reasoning for Multimodal Multiple-Choice Question Answering
16:15 - char team: Two-Stage Approach Using a Pretrained Language Model for Question Answering on Japanese Document Images

Accepted Papers

Workshop Proceedings

Jiadong Yan, Quan Zhang, Yifan Zhou, Tianle Yang, Ke Zhang: Few-shot Anomaly Detection based on Long Short Text Interactive Contrastive Learning
Anwar Dilawar Shaikh, Janak Kapuriya, Arnav Goel, Medha Hira, Apoorv Singh, Jay Saraf, Sanjana Sanjeev, Vaibhav Nauriyal, Avinash Anand, Zhengkui Wang, Rajiv Ratn Shah: Enhancing Scientific Visual Question Answering via Vision-Caption aware Supervised Fine-Tuning
Tun-Yuan Chang, Kenneth Chandra, Cheng-Hsin Hsu: Harvesting Temporal Correlation in Large Vision-Language Models: Using Pose Estimation as a Case Study

Fast Track

Phuoc-Nguyen Bui, Khanh-Binh Nguyen, Hyunseung Choo: Accelerating Conditional Prompt Learning via Masked Image Modeling for Vision-Language Models

Non-archieved Paper

Song-Li Wu: LAMDA: Leveraging Multi-Scale and Dynamic Alignment for Robust Referring Video Object Segmentation
Jun, Kexin Lv, An Guo: Hierarchical Temporal Views for Policy Optimization in Multimodal Video Reasoning
Song-Li Wu: Bridging the Modal Gap: A Targeted Patch Refinement and Residual Preservation Framework for Efficient Referring Expression Segmentation

Call for Papers

We welcome people to submit papers about large vision-language models (LVLMs) to The Second Workshop on Large Vision – Language Model Learning and Applications (LAVA 2025). Accepted papers will be presented in our workshop and will be published in the ACM MM 2025 workshop proceeding. We accept short papers (non-archived) which are up to 4 pages in ACM MM format, excluding references; and long papers (archived) which are up to 8 pages in ACM MM format, excluding references. Submission policies adhere to the ACM MM submission policies.

The topics in this workshop will include but are not limited to: