Yujie Lu

Hi! I'm Yujie Lu.

Yujie Lu (卢雨洁) is a fourth year CS PhD at UC Santa Barbara, advised by William Wang at Natural Language Processing Group. I did my research internship in Meta AI (FAIR), Microsoft Research (MSR), AWS AI. I obtained my bachelor’s degree from Chu Kochen Honors College, Zhejiang University.

My research is focused on developing advanced multimodal models capable of enhancing their intelligence through interactions with humans and the real world.

I'm looking for full time industry postions!

News! 06/24/2024 I started my internship at Meta (FAIR Embodied AI) in NYC this Summer. Feel free to reach out if you wanna chat about multimodal foundation models and evaluations!

News! 03/01/2024 Check out our Vision Arena demo on HuggingFace! You can directly chat with or compare the large multimodal models (GPT4-V, Gemini-Pro Vision, LLaVA-NEXT 34b, QwenVL Chat, etc.) side by side easily!

New Preprints

VIM: Probing Multimodal Large Language Models for Visual Embedded Instruction Following

Yujie Lu*, Xiujun Li*, William Yang Wang, Yejin Choi

Gpt-4v (ision) as a generalist evaluator for vision-language tasks

Xinlu Zhang*, Yujie Lu*, Weizhi Wang*, An Yan, Jun Yan, Lianke Qin, Heng Wang, Xifeng Yan, William Yang Wang, Linda Ruth Petzold

Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang

-->

Selected Publications

WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin

Conference on Neural Information Processing Systems (NeurIPS), Dataset and Benchmark, 2024

Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore

Michael Saxon, Fatima Jahara, Mahsa Khoshnoodi, Yujie Lu, Aditya Sharma, William Yang Wang

Conference on Neural Information Processing Systems (NeurIPS), 2024

Multimodal Procedural Planning via Dual Text-Image Prompting

Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, William Yang Wang

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024

LAD: Language Augmented Diffusion for Reinforcement Learning

Edwin Zhang, Yujie Lu, William Yang Wang, Amy Zhang

International Conference on Learning Representations (ICLR), 2024 | NeurIPS Workshop LaReL, 2022

Imagenhub: Standardizing the evaluation of conditional image generation models

Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen

International Conference on Learning Representations (ICLR), 2024

Empowering Psychotherapy with Large Language Model: Cognitive Distortion Detection through Diagnosis of Thought Prompting

Zhiyu Chen, Yujie Lu, William Yang Wang

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Collaborative Generative AI: Integrating GPT-k for Efficient Editing in Text-to-Image Generation

Wanrong Zhu, Xinyi Wang, Yujie Lu, Tsu-Jui Fu, Xin Eric Wang, Miguel Eckstein, William Yang Wang

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-Thought

Vaishnavi Himakunthala, Andy Ouyang, Daniel Philip Rose, Ryan He, Alex Mei, Yujie Lu, Chinmay Sonar, Michael Saxon, William Yang Wang

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

Yujie Lu, Xianjun Yang, Xiujun Li, Xin Eric Wang, William Yang Wang

Conference on Neural Information Processing Systems (NeurIPS), 2023

Few-Shot Document-Level Event Argument Extraction

Xianjun Yang, Yujie Lu, Linda Petzold

Annual Meeting of the Association for Computational Linguistics (ACL), 2023

Neuro-Symbolic Causal Procedural Planning with Commonsense Prompting

Yujie Lu, Weixi Feng, Wanrong Zhu, Wenda Xu, Xin Eric Wang, Miguel Eckstein, William Yang Wang

International Conference on Learning Representations (ICLR), Spotlight, 2023

WikiWhy: Answering and Explaining Cause-and-Effect Questions

Matthew Ho, Aditya Sharma, Justin Chang, Michael Saxon, Sharon Levy, Yujie Lu, William Yang Wang

International Conference on Learning Representations (ICLR), Oral, 2023

Visualize Before You Write: Imagination-Guided Open-Ended Text Generation

Wanrong Zhu, An Yan, Yujie Lu, Wenda Xu, Xin Eric Wang, Miguel Eckstein, William Yang Wang

The European Chapter of the Association for Computational Linguistics (EACL), 2023

Breaking Out of the Ivory Tower: A Large-scale Analysis of Patent Citations to HCI Research

Hancheng Cao, Yujie Lu, Yuting Deng, Daniel McFarland, Michael S. Bernstein

The ACM CHI Conference on Human Factors in Computing Systems (CHI), Best Paper, 2023

ULN: Towards Underspecified Vision-and-Language Navigation

Weixi Feng, Tsu-Jui Fu, Yujie Lu, William Yang Wang

The Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Not All Errors are Equal: Learning Text Generation Metrics using Stratified Error Synthesis

Wenda Xu, Yi-Lin Tuan, Yujie Lu, Michael S. Saxon, Lei Li, William Yang Wang

The Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022

MIC: Model-agnostic Integrated Cross-channel Recommenders

Yujie Lu*, Ping Nie*, Shengyu Zhang, Ming Zhao, Ruobing Xie, William Yang Wang, Yi Ren

The Conference on Information and Knowledge Management (CIKM), Oral Presentation, 2022 (* indicates equal contribution)

Imagination-Augmented Natural Language Understanding

Yujie Lu, Wanrong Zhu, Xin Eric Wang, Miguel Eckstein, William Yang Wang,

North American Chapter of the Association for Computational Linguistics (NAACL), Oral Presentation, 2022

Re4: Learning to Re-contrast, Re-attend, Re-construct for Multi-interest Recommendation

Shengyu Zhang, Lingxiao Yang, Dong Yao, Yujie Lu, Fuli Feng, Zhou Zhao, Tat-Seng Chua, Fei Wu

The Web Conference (WWW), 2022

Future-Aware Diverse Trends Framework for Recommendation

Yujie Lu, Shengyu Zhang, Yingxuan Huang, Luyao Wang, Xinyao Yu, Zhou Zhao, Fei Wu

The Web Conference (WWW), 2021

CLOUD: Contrastive Learning of Unsupervised Dynamics

Yujie Lu*, Jianren Wang*, Hang Zhao

The Conference on Robot Learning (CoRL), 2020 (* indicates equal contribution)

Talks

Invited Talk at CVPR [CVinW]. 06/2024

Invited Talk at Bill Howe's Lab Meeting in UW. 04/2024

Invited Talk at MLNLP. 02/2023 [Slides and video to be released.]

Paper Presentation at CIKM. 10/2022 [Slides to be released.]

Paper Presentation at NAACL. 07/2022 [Slides]

Invited Talk at When CV Meets NLP. 05/2022 [Slides and video to be released.]

Paper Presentation at WWW 2021. 2021/04 [Video]

Services

Organizer: SoCalNLP 2022 [Website].

Program Committee: NeurIPS, ICLR, ICML, ACL, EMNLP, NAACL, EACL, ECCV, ICCV, AAAI, ICASSP.

Volunteer and NSF Travel Award, CIKM.

Robert Noyce Fellow.

UCSB Faculty Recruitment CS Grad Representative.

Hi! I'm Yujie Lu.

VIM: Probing Multimodal Large Language Models for Visual Embedded Instruction Following

Gpt-4v (ision) as a generalist evaluator for vision-language tasks

Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore

Multimodal Procedural Planning via Dual Text-Image Prompting

LAD: Language Augmented Diffusion for Reinforcement Learning

Imagenhub: Standardizing the evaluation of conditional image generation models

Empowering Psychotherapy with Large Language Model: Cognitive Distortion Detection through Diagnosis of Thought Prompting

Collaborative Generative AI: Integrating GPT-k for Efficient Editing in Text-to-Image Generation

Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-Thought

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

Few-Shot Document-Level Event Argument Extraction

Neuro-Symbolic Causal Procedural Planning with Commonsense Prompting

WikiWhy: Answering and Explaining Cause-and-Effect Questions

Visualize Before You Write: Imagination-Guided Open-Ended Text Generation

Breaking Out of the Ivory Tower: A Large-scale Analysis of Patent Citations to HCI Research

ULN: Towards Underspecified Vision-and-Language Navigation

Not All Errors are Equal: Learning Text Generation Metrics using Stratified Error Synthesis

MIC: Model-agnostic Integrated Cross-channel Recommenders

Imagination-Augmented Natural Language Understanding

Re4: Learning to Re-contrast, Re-attend, Re-construct for Multi-interest Recommendation

Future-Aware Diverse Trends Framework for Recommendation

CLOUD: Contrastive Learning of Unsupervised Dynamics

Dancer

Soccer Player

Drummer