Sai Rajeswar Mudumba

Augmenting LLM Reasoning with Dynamic Notes Writing for Complex QA. Rishabh Maheshwary, Masoud Hashemi, Khyati Mahajan, Shiva Krishna Reddy Malay, Sai Rajeswar Mudumba, Sathwik Madhusudhan, Spandana Gella, Vikas Yadav. At Language Resources and Evaluation Conference, 2026.

Article Citation

CUA-Suite: Expert Trajectories and Pixel-Precise Grounding for Computer-use Agents . Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Béchard, Spandana Gella, Sai Rajeswar Mudumba. At Workshop at the International Conference of Machine Learning (ICML), 2026.

Citation

Grounding Computer Use Agents on Human Demonstrations. Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lu, Johan Obando, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar Mudumba. At International Conference on Learning Representations, 2026.

Article Citation Code

StarFlow: Generating Structured Workflow Outputs From Sketch Images. Patrice Béchard, Chao Wang, Juan A. Rodriguez, Amirhossein Abaskohi, Christopher Pal, David Vazquez, Spandana Gella, Sai Rajeswar Mudumba, Perouz Taslakian. At European Chapter of the Association for Computational Linguistics (EACL), 2026.

Article Citation Code Vidéo

AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding. Ahmed Masry, Juan A. Rodriguez, Tianyu Zhang, Suyuchen Wang, Chao Wang, Aarash Feizi, Akshay Kalkunte, Abhay Puri, Xiangru Jian, Pierre-André Noël, Sathwik Madhusudhan, Marco Pedersoli, Bang Liu, Nicolas Chapados, Yoshua Bengio, Enamul Hoque Prince , Christopher Pal, Issam H. Laradji, David Vazquez, Perouz Taslakian, Spandana Gella, Sai Rajeswar Mudumba. At Neural Information Processing Systems (NeurIPS), 2025.

Article Citation Code Vidéo

Rendering-Aware Reinforcement Learning for Vector Graphics Generation. Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Rishav Pramanik, Aarash Feizi, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar Mudumba, David Vazquez, Christopher Pal, Marco Pedersoli. At Neural Information Processing Systems (NeurIPS), 2025.

Article Citation

The Promise of RL for Autoregressive Image Editing. Saba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar Mudumba, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal. At Neural Information Processing Systems (NeurIPS), 2025.

Article Citation Code

ColMate: Contrastive Late Interaction and Masked Text for Multimodal Document Retrieval. Ahmed Masry, Megh Thakkar, Patrice Béchard, Sathwik Madhusudhan, Rabiul Awal, Shambhavi Mishra, Akshay Kalkunte, Enamul Hoque Prince , Spandana Gella, Torsten Scholak, Sai Rajeswar Mudumba. At Conference on Empirical Methods in Natural Language Processing (EMNLP), 2025.

Article Citation

WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation. Rabiul Awal, Mahsa Massoud, Zichao Li, Aarash Feizi, Suyuchen Wang, Christopher Pal, Aishwarya Agrawal, David Vazquez, Perouz Taslakian, Spandana Gella, Sai Rajeswar Mudumba. At Conference on Empirical Methods in Natural Language Processing (EMNLP), 2025.

Article Citation Code Vidéo

BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning. Ahmed Masry, Abhay Puri, Masoud Hashemi, Juan A. Rodriguez, Megh Thakkar, Khyati Mahajan, Vikas Yadav, Sathwik Tejaswi Madhusudhan, Alexandre Piche, Dzmitry Bahdanau, Christopher Pal, David Vazquez, Enamul Hoque Prince , Perouz Taslakian, Sai Rajeswar Mudumba, Spandana Gella. At Conference on Language Modeling (COLM), 2025.

Article Citation Code Vidéo

Silent Sabotage: Injecting Backdoors into AI Agents Through Fine-Tuning. Léo Boisvert, Abhay Puri, Chandra Kiran Reddy Evuru, Joshua Kazdan, Avinandan Bose, Quentin Cappart, Maryam Fazel, Sai Rajeswar Mudumba, Jason Stanley, Nicolas Chapados, Alexandre Drouin, Krishnamurthy (Dj) Dvijotham. At Workshop at the International Conference of Machine Learning (ICML), 2025.

Article Citation

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction. Shravan Nayak, Xiangru Jian, Kevin Lin, Juan A. Rodriguez, Motek Kalsi, Nicolas Chapados, Tamer Özsu, Aishwarya Agrawal, David Vazquez, Christopher Pal, Perouz Taslakian, Spandana Gella, Sai Rajeswar Mudumba. At International Conference on Machine Learning (ICML), 2025.

Article Citation Code Vidéo

WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation. Rabiul Awal, Mahsa Massoud, Zichao Li, Aarash Feizi, Suyuchen Wang, Christopher Pal, Aishwarya Agrawal, David Vazquez, Siva Reddy, Juan A. Rodriguez, Perouz Taslakian, Sai Rajeswar Mudumba. At Workshop at the Computer Vision and Pattern Recognition Conference (CVPR), 2025.

Article Citation

StarVector: Generating Scalable Vector Graphics Code from Images and Text. Juan A. Rodriguez, Abhay Puri, Shubham Agarwal, Issam H. Laradji, Pau Rodriguez, Sai Rajeswar Mudumba, David Vazquez, Christopher Pal, Marco Pedersoli. At Computer Vision and Pattern Recognition (CVPR), 2025.

Article Citation Code Vidéo

AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding. Ahmed Masry, Juan A. Rodriguez, Tianyu Zhang, Suyuchen Wang, Chao Wang, Aarash Feizi, Akshay Kalkunte, Abhay Puri, Xiangru Jian, Pierre-André Noël, Sathwik Madhusudhan, Marco Pedersoli, Bang Liu, Nicolas Chapados, Yoshua Bengio, Enamul Hoque Prince , Christopher Pal, Issam H. Laradji, David Vazquez, Perouz Taslakian, Spandana Gella, Sai Rajeswar Mudumba. At Workshop at the International Conference of Learning Representation (ICLR), 2025.

Article Citation Code

WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation. Rabiul Awal, Mahsa Massoud, Zichao Li, Aarash Feizi, Suyuchen Wang, Christopher Pal, Aishwarya Agrawal, David Vazquez, Siva Reddy, Juan A. Rodriguez, Perouz Taslakian, Spandana Gella, Sai Rajeswar Mudumba. At Workshop at the International Conference of Learning Representation (ICLR), 2025.

Article Citation

BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks. Juan A. Rodriguez, Xiangru Jian, Siba Smarak Panigrahi, Tianyu Zhang, Aarash Feizi, Abhay Puri, Akshay Kalkunte, Francois Savard, Ahmed Masry, Shravan Nayak, Rabiul Awal, Mahsa Massoud, Amirhossein Abaskohi, Zichao Li, Suyuchen Wang, Pierre-André Noël, Mats L. Richter, Saverio Vadacchino, Shubham Agarwal, Sanket Biswas, Sara Shanian, Ying Zhang, Sathwik Tejaswi Madhusudhan, João Monteiro, Krishnamurthy (Dj) Dvijotham, Torsten Scholak, Nicolas Chapados, Sepideh Kharaghani, Sean Hughes, Tamer Özsu, Siva Reddy, Marco Pedersoli, Yoshua Bengio, Christopher Pal, Issam H. Laradji, Spandana Gella, Perouz Taslakian, David Vazquez, Sai Rajeswar Mudumba. At International Conference of Learning Representations (ICLR), 2025.

Article Citation Code Vidéo

InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation. Gaurav Sahu, Abhay Puri, Juan A. Rodriguez, Amirhossein Abaskohi, Mohammad (Aaron) Chegini , Alexandre Drouin, Perouz Taslakian, Valentina Zantedeschi, Alexandre Lacoste, David Vazquez, Nicolas Chapados, Christopher Pal, Sai Rajeswar Mudumba, Issam H. Laradji. At International Conference of Learning Representations (ICLR), 2025.

Article Citation Code

VCR: Visual Caption Restoration. Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar Mudumba, Jie Fu, Bang Liu, Yoshua Bengio. At International Conference of Learning Representations (ICLR), 2025.

Article Citation Code

StarVector: Generating Scalable Vector Graphics Code from Images and Text. Juan A. Rodriguez, Abhay Puri, Shubham Agarwal, Issam H. Laradji, Pau Rodriguez, Sai Rajeswar Mudumba, David Vazquez, Christopher Pal, Marco Pedersoli. At AAAI Demos, 2025.

Article Citation Vidéo

BigDocs: A Permissively-Licensed Dataset for Training Vision-Language Models on Document and Code Tasks. Juan A. Rodriguez, Xiangru Jian, Siba Smarak Panigrahi, Tianyu Zhang, Aarash Feizi, Abhay Puri, Akshay Kalkunte, Francois Savard, Amirhossein Abaskohi, Ahmed Masry, Shravan Nayak, Mahsa Massoud, Rabiul Awal, Pierre-André Noël, Mats L. Richter, Saverio Vadacchino, Shubham Agarwal, Sanket Biswas, Ying Zhang, Sathwik Tejaswi Madhusudhan, João Monteiro, Krishnamurthy (Dj) Dvijotham, Torsten Scholak, Nicolas Chapados, Sean Hughes, Tamer Özsu, Aishwarya Agrawal, Marco Pedersoli, Christopher Pal, Perouz Taslakian, David Vazquez, Issam H. Laradji, Spandana Gella, Sai Rajeswar Mudumba. At Workshop at the Neural Information Processing Systems (NeurIPS), 2024.

Article Citation Code Vidéo

Multimodal foundation world models for generalist embodied agents. Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Aaron Courville, Sai Rajeswar Mudumba. At Neural Information Processing Systems (NeurIPS), 2024.

Article Citation Code

RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content. João Monteiro, Pierre-André Noël, Étienne Marcotte, Sai Rajeswar Mudumba, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian. At NeurIPS Datasets and Benchmarks Track (NeurIPS Datasets), 2024.

Article Citation Code Vidéo

Representing Positional Information in Generative World Models for Object Manipulation. Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Sai Rajeswar Mudumba. At Workshop at the Neural Information Processing Systems (NeurIPS), 2024.

Article Citation

VCR: Visual Caption Restoration. Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar Mudumba, Jie Fu, Bang Liu, Yoshua Bengio. At Workshop at the Neural Information Processing Systems (NeurIPS), 2024.

Article Citation Code

Representing Positional Information in Generative World Models for Object Manipulation. Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Sai Rajeswar Mudumba. At Learning Effective Abstractions for Planning, 2024.

Article Citation

Multimodal foundation world models for generalist embodied agents. Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Aaron Courville, Sai Rajeswar Mudumba. At Workshop at the International Conference of Machine Learning (ICML), 2024.

Article Citation Code

EquiAdapt: Equivariant Adaptation of Large Pretrained Models. Arnab Mondal, Siba Smarak Panigrahi, Siamak Ravanbakhsh, Sai Rajeswar Mudumba. At Workshop at the Computer Vision and Pattern Recognition Conference (CVPR), 2024.

Article Citation Code

Efficient Dynamics Modeling in Interactive Environments with Koopman Theory. Arnab Mondal, Siba Smarak Panigrahi, Siamak Ravanbakhsh, Sai Rajeswar Mudumba. At International Conference of Learning Representations (ICLR), 2024.

Article Citation

StarVector: Generating Scalable Vector Graphics Code from Images and Text. Juan A. Rodriguez, Shubham Agarwal, Abhay Puri, Issam H. Laradji, Sai Rajeswar Mudumba, Pau Rodriguez, David Vazquez, Christopher Pal, Marco Pedersoli. At ArXiv, 2024.

Article Citation

Capture the Flag: Uncovering Data Insights with Large Language Models. Issam H. Laradji, Perouz Taslakian, Sai Rajeswar Mudumba, Valentina Zantedeschi, Alexandre Lacoste, Nicolas Chapados, David Vazquez, Christopher Pal, Alexandre Drouin. At Workshop at the Neural Information Processing Systems (NeurIPS), 2023.

Article Citation Code

The Unsolved Challenges of LLMs in Open-Ended Web Tasks: A Case Study. Rim Assouel, Tom Marty, Massimo Caccia, Issam H. Laradji, Alexandre Drouin, Sai Rajeswar Mudumba, Hector Palacios, Quentin Cappart, David Vazquez, Nicolas Chapados, Maxime Gasse, Alexandre Lacoste. At Workshop at the Neural Information Processing Systems (NeurIPS), 2023.

Article Citation Vidéo

Equivariant Adaptation of Large Pre-Trained Models. Arnab Mondal, Siba Smarak Panigrahi, Sai Rajeswar Mudumba, Siamak Ravanbakhsh. At Conference on Neural Information Processing Systems (NeurIPS), 2023.

Article Citation

Efficient Dynamics Modeling in Interactive Environments with Koopman Theory. Arnab Mondal, Sai Rajeswar Mudumba, Siamak Ravanbakhsh, Siba Smarak Panigrahi. At European Workshop on Reinforcement Learning (EWRL), 2023.

Article Citation

Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels. Sai Rajeswar Mudumba, Pietro Mazzaglia, Tim Verbelen, Alexandre Piche, Bart Dhoedt, Aaron Courville, Alexandre Lacoste. At International Conference on Machine Learning (ICML), 2023.

Article Citation Code

Choreographer: Learning and Adapting Skills in Imagination. Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Alexandre Lacoste, Sai Rajeswar Mudumba. At International Conference of Learning Representations (ICLR), 2023.

Article Citation Code

Deep Hyperbolic Reinforcement Learning for Continuous Control. Omar Salemohamed, Edoardo Cetin, Sai Rajeswar Mudumba, Arnab Mondal. At ICLR, Tiny Papers, 2023.

Article Citation

Haptics-based Curiosity for Sparse-reward Tasks. Sai Rajeswar Mudumba, Cyril Ibrahim, Nitin Surya, Florian Golemo, David Vazquez, Aaron Courville, Pedro O. Pinheiro. At Conference on Robot Learning (CoRL), 2022.

Article Citation Code

Choreographer: Learning and Adapting Skills in Imagination . Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Alexandre Lacoste, Sai Rajeswar Mudumba. At Workshop at the Neural Information Processing Systems (NeurIPS), 2022.

Article Citation Code

Consistency-CAM: Towards Improved Weakly Supervised Semantic Segmentation. Sai Rajeswar Mudumba, Issam H. Laradji, Pau Rodriguez, David Vazquez, Aaron Courville. At British Machine Vision Conference (BMVC), 2022.

Article Citation Code

Unsupervised Model-based Pre-training for Data-efficient Reinforcement Learning from Pixels. Sai Rajeswar Mudumba, Pietro Mazzaglia, Tim Verbelen, Alexandre Piche, Aaron Courville, Alexandre Lacoste. At Workshop at the International Conference on Machine Learning (ICML), 2022.

Article Citation Code

Multi-label Iterated Learning for Image Classification with Label Ambiguity. Sai Rajeswar Mudumba, Pau Rodriguez, Soumye Singhal, David Vazquez, Aaron Courville. At Computer Vision and Pattern Recognition (CVPR), 2022.

Article Citation Code

Adversarial Computation of Optimal Transport Maps. Jacob Leygonie, Jennifer She, Amjad Almahairi, Sai Rajeswar Mudumba, Aaron Courville. At ArXiv, 2019.

Article Citation Code

Pix2Shape: Towards Unsupervised Learning of 3D Scenes from Images using a View-based Representation. Sai Rajeswar Mudumba, Fahim Mannan, Florian Golemo, Jérôme Parent-Lévesque, David Vazquez, Derek Nowrouzezahrai, Aaron Courville. At International Journal in Computer Vision (IJCV), 2019.

Article Citation Code

Towards Text Generation with Adversarially Learned Neural Outlines. Sandeep Subramanian, Sai Rajeswar Mudumba, Alessandro Sordoni, Adam Trischler, Aaron Courville, Christopher Pal. At Conference on Neural Information Processing Systems (NeurIPS), 2018.

Article Citation

Hierarchical Adversarially Learned Inference. Ishmael Belghazi, Sai Rajeswar Mudumba, Olivier Mastropietro, Negar Rostamzadeh, Jovana Mitrovic, Aaron Courville. At Workshop at the International Conference on Machine Learning (ICML), 2018.

Article Citation Code

Publications