Tagged articles

Image Captioning

13 articles · Page 1 of 1

May 13, 2026 · Artificial Intelligence

Multimodal RAG: A Complete Guide to Ingesting Images, Tables, and PDFs

This article examines the blind spot of pure‑text RAG for visual content, compares three multimodal ingestion strategies—CLIP embeddings, image‑to‑text captioning with a MultiVectorRetriever, and ColPali visual retrieval—covers table‑specific handling, presents end‑to‑end TypeScript implementations, and lists common pitfalls to avoid when deploying production‑grade multimodal RAG pipelines.

CLIPColPaliImage Captioning

0 likes · 22 min read

Multimodal RAG: A Complete Guide to Ingesting Images, Tables, and PDFs

AIWalker

Mar 8, 2026 · Artificial Intelligence

How VisionPangu’s 1.7B Model Beats Larger LLMs in Detailed Image Captioning

VisionPangu demonstrates that a compact 1.7 B‑parameter multimodal model can generate richly detailed, coherent image descriptions that rival much larger models by leveraging high‑quality dense data, a three‑part architecture, and a two‑stage deep alignment training strategy.

AI researchData QualityImage Captioning

0 likes · 13 min read

How VisionPangu’s 1.7B Model Beats Larger LLMs in Detailed Image Captioning

HyperAI Super Neural

Dec 6, 2025 · Artificial Intelligence

Quick Look at This Week’s Frontier AI Papers: DeepSeekMath‑V2, MedSAM‑3, SAM 3D, Qwen3‑VL, and M²

This roundup surveys five cutting‑edge AI papers—DeepSeekMath‑V2’s self‑verifiable mathematical reasoning, MedSAM‑3’s promptable medical image and video segmentation, SAM 3D’s single‑image 3D reconstruction, Qwen3‑VL’s high‑capacity vision‑language model, and the M² memory‑mesh transformer for image captioning—highlighting their key methods, benchmarks, and code links.

3D reconstructionImage CaptioningMathematical Reasoning

0 likes · 6 min read

Quick Look at This Week’s Frontier AI Papers: DeepSeekMath‑V2, MedSAM‑3, SAM 3D, Qwen3‑VL, and M²

DataFunTalk

Sep 26, 2023 · Artificial Intelligence

MiniGPT-4: Enhancing Vision‑Language Understanding with Large Language Models

This article presents MiniGPT-4, a multimodal system that combines a frozen visual encoder (Q‑Former + ViT) with an open‑source large language model (Vicuna), describes its motivation, training pipeline, demo capabilities, observed limitations, and includes a brief Q&A session.

AI researchImage CaptioningMiniGPT-4

0 likes · 15 min read

MiniGPT-4: Enhancing Vision‑Language Understanding with Large Language Models

360 Tech Engineering

Jun 25, 2023 · Artificial Intelligence

Visual Capability as a Fundamental Requirement for AGI and the SEEChat Multimodal Dialogue Model

The article reviews why visual ability is essential for artificial general intelligence, compares native multimodal and expert‑stitching integration approaches, details the architectures of models such as KOSMOS‑1, PALM‑E, Flamingo, BLIP‑2, LLAVA, miniGPT‑4, and introduces the SEEChat project that fuses CLIP vision encoders with chatGLM6B via a projection layer, presenting its training pipeline, experimental results, and future directions.

AGIImage CaptioningMultimodal LLM

0 likes · 13 min read

Visual Capability as a Fundamental Requirement for AGI and the SEEChat Multimodal Dialogue Model

Alimama Tech

Feb 1, 2023 · Artificial Intelligence

CapOnImage: Context-driven Dense Captioning on Images

The paper presents CapOnImage, a novel image‑on‑image captioning task that generates location‑specific decorative text for product images, introduces the 2.1‑million‑image CapOnImage2M dataset, and proposes a mixed‑modality transformer with position‑aware pre‑training and progressive training, achieving superior accuracy and diversity and already deployed in Alibaba’s advertising platforms for measurable business impact.

Context-AwareDatasetDeep Learning

0 likes · 9 min read

CapOnImage: Context-driven Dense Captioning on Images

Meituan Technology Team

Nov 17, 2022 · Artificial Intelligence

Overview of Recent Meituan Visual Intelligence Research Papers on Content Production, Distribution, and Model Quantization

Meituan’s Visual Intelligence team recently published eight top‑conference papers that advance weakly supervised segmentation, future‑aware captioning, panoptic narrative grounding, video‑text retrieval, open‑vocabulary detection, counterfactual image‑text matching, zero‑shot video classification, and efficient Vision‑Transformer quantization, all directly boosting real‑world content creation, distribution, and model efficiency.

AI researchImage CaptioningOpen-Vocabulary Detection

0 likes · 19 min read

Overview of Recent Meituan Visual Intelligence Research Papers on Content Production, Distribution, and Model Quantization

DataFunSummit

Oct 9, 2022 · Artificial Intelligence

Understanding the GIT Image‑to‑Text Model: Architecture, Examples, and Performance Comparison

The article introduces the GIT image‑to‑text (image captioning) model, explains its transformer‑based architecture, showcases multiple example outputs, discusses training details, compares its performance with Flamingo and COCO, and highlights its applicability to tasks such as VQA, video captioning, and image classification.

GIT modelImage CaptioningModel Comparison

0 likes · 12 min read

Understanding the GIT Image‑to‑Text Model: Architecture, Examples, and Performance Comparison

Baobao Algorithm Notes

Jun 7, 2022 · Artificial Intelligence

How CoCa Unifies Image Captioning and Contrastive Learning in Vision-Language Models

This article examines the CoCa model, explaining how it extends CLIP with image captioning by combining contrastive and generative objectives, detailing its architecture, training tricks, and performance gains on ImageNet and zero‑shot benchmarks.

CoCaImage Captioningvision-language

0 likes · 7 min read

How CoCa Unifies Image Captioning and Contrastive Learning in Vision-Language Models

Code DAO

Dec 25, 2021 · Artificial Intelligence

Image Captioning with Attention in TensorFlow 2.0: An End-to-End Encoder-Decoder Tutorial

This article walks through building an image‑captioning system using a TensorFlow 2.0 encoder‑decoder with Bahdanau attention, covering dataset preparation, feature extraction with InceptionV3, model architecture, training with teacher forcing, and inference on the Flickr8K dataset.

Encoder-DecoderFlickr8kImage Captioning

0 likes · 20 min read

Image Captioning with Attention in TensorFlow 2.0: An End-to-End Encoder-Decoder Tutorial

Code DAO

Dec 7, 2021 · Artificial Intelligence

Key Deep Learning Architectures for Image Captioning: Encoders, Decoders, Attention & Multimodal Models

This article surveys deep‑learning image captioning, detailing the image encoder, sequence decoder, attention mechanisms and multimodal designs, comparing encoder‑decoder, detection‑backbone, transformer and dense captioning architectures, and explaining generation strategies and BLEU evaluation.

BLEUCNNDeep Learning

0 likes · 9 min read

Key Deep Learning Architectures for Image Captioning: Encoders, Decoders, Attention & Multimodal Models

JD Tech

Aug 14, 2018 · Artificial Intelligence

GCN‑LSTM Image Captioning Model by JD AI Research Institute

JD AI Research Institute presented a GCN‑LSTM encoder‑decoder system that integrates object semantic and spatial relationships via graph convolutional networks to significantly improve image captioning performance on the COCO benchmark, achieving state‑of‑the‑art results.

COCO datasetImage CaptioningLSTM

0 likes · 7 min read

GCN‑LSTM Image Captioning Model by JD AI Research Institute

Alibaba Cloud Developer

Oct 25, 2017 · Artificial Intelligence

How Hierarchical Multimodal LSTM Boosts Image Captioning Accuracy

This article reviews an ICCV paper introducing a hierarchical multimodal LSTM that jointly embeds images, phrases, and whole sentences, enabling detailed image descriptions and superior performance on Flickr30K, MS‑COCO, and region‑phrase datasets compared to previous methods.

Image Captioningcomputer visionhierarchical LSTM

0 likes · 8 min read

How Hierarchical Multimodal LSTM Boosts Image Captioning Accuracy