Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue

The paper introduces the Answer‑Driven Visual State Estimator (ADVSE), which uses answer‑driven focusing attention and conditional visual information fusion to dynamically incorporate answers into visual dialogue, overcoming static encoding limitations and achieving state‑of‑the‑art performance on the GuessWhat?! question‑generation and guessing tasks.

Natural Language ProcessingState Estimationattention mechanism

0 likes · 10 min read

Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue

Alibaba Cloud Developer

Jun 28, 2019 · Artificial Intelligence

Alibaba AI Wins Visual Dialogue Challenge with New Recursive Model

In the second Visual Dialogue Challenge, Alibaba’s AI outperformed ten teams—including Microsoft and Seoul University—achieving a 74.57% accuracy, surpassing the previous record by 16.82% and exceeding human performance, thanks to its novel recursive exploration dialogue model that integrates image recognition, relational reasoning, and natural language understanding.

AINatural Language Processingcomputer vision

0 likes · 4 min read

Alibaba AI Wins Visual Dialogue Challenge with New Recursive Model