Author

NewBeeNLP

Always insightful, always fun

119

Articles

Likes

Views

Comments

Latest from NewBeeNLP

100 recent articles max

NewBeeNLP

Dec 23, 2024 · Artificial Intelligence

What’s New in Qwen2.5? A Deep Dive into the Latest LLM Advances

The Qwen2.5 Technical Report introduces a new series of large language models with up to 72 B parameters, expanded pre‑training data to 18 trillion tokens, advanced supervised fine‑tuning and reinforcement learning pipelines, and demonstrates strong performance across comprehension, reasoning, coding, and long‑context tasks.

Fine-tuningLLMQwen2.5

0 likes · 5 min read

What’s New in Qwen2.5? A Deep Dive into the Latest LLM Advances

NewBeeNLP

Dec 16, 2024 · Artificial Intelligence

How Tencent Boosts LLM Power with RAG, GraphRAG, and Agent Technologies

This article examines Tencent's large language model deployments across content generation, intelligent customer service, and role‑playing scenarios, detailing the principles and practical implementations of Retrieval‑Augmented Generation (RAG), GraphRAG, and Agent techniques, and discusses challenges, optimization strategies, and real‑world use cases.

AIAgentGraphRAG

0 likes · 18 min read

How Tencent Boosts LLM Power with RAG, GraphRAG, and Agent Technologies

NewBeeNLP

Dec 3, 2024 · Artificial Intelligence

Can LLMs Self‑Correct Their Answers? Exploring Reward Models, Loss Functions, and Training Dynamics

The article reflects on open‑source LLMs like Qwen2 and Llama 3.1, questioning whether models should self‑review answers, how hidden states might signal uncertainty, the role of loss‑function design, scaling laws, and the trade‑offs between PPO and DPO in alignment.

Reward Modellarge language modelsloss function

0 likes · 9 min read

Can LLMs Self‑Correct Their Answers? Exploring Reward Models, Loss Functions, and Training Dynamics

NewBeeNLP

Dec 2, 2024 · Artificial Intelligence

What Are Today’s Unified Generation-and-Understanding Multimodal Model Architectures?

This article surveys current unified generation-and-understanding multimodal large-model architectures, compares LLM-centric and LLM-plus-diffusion designs, extracts common insights, details large-scale training tricks from models like Emu3, Chameleon and Janus, and outlines open research directions for visual encoders.

diffusionlarge language modelsmultimodal

0 likes · 5 min read

What Are Today’s Unified Generation-and-Understanding Multimodal Model Architectures?

NewBeeNLP

Nov 27, 2024 · Artificial Intelligence

How Can Large Language Models Extend Their Context Window? A Deep Dive into Position Encoding

This article reviews the principles of absolute and relative positional encodings, explains why window extrapolation is crucial for large language models, analyzes current extrapolation methods, evaluates their performance, and answers common questions about extending LLM context windows.

LLMPositional EncodingRoPE

0 likes · 14 min read

How Can Large Language Models Extend Their Context Window? A Deep Dive into Position Encoding

NewBeeNLP

Nov 25, 2024 · Artificial Intelligence

How Non‑Autoregressive Generative Models Transform Reranking in Recommendation Systems

This article presents a Kuaishou team's non‑autoregressive generative approach for recommendation reranking, detailing its architecture, loss design, experimental validation on Avito and Kuaishou datasets, and online A/B results that earned acceptance at KDD 2024.

AIKDD2024Reranking

0 likes · 11 min read

How Non‑Autoregressive Generative Models Transform Reranking in Recommendation Systems

NewBeeNLP

Nov 18, 2024 · Artificial Intelligence

How to Optimize Multi-Head Attention: From MQA to FlashAttention and Beyond

This article examines various techniques for compressing and accelerating the KV cache in transformer models—including MQA, GQA, MLA, sliding‑window and linear attention, flash attention, page and ring attention, as well as mixed‑precision training and ZeRO parallelism—providing code snippets, implementation details, and practical trade‑offs.

AttentionFlashAttentionKV cache

0 likes · 17 min read

How to Optimize Multi-Head Attention: From MQA to FlashAttention and Beyond

NewBeeNLP

Nov 14, 2024 · Artificial Intelligence

What’s Trending in Recommendation Systems at KDD 2024? A Comprehensive Paper Overview

The 30th SIGKDD conference in Barcelona featured 2,046 research papers with a 20% acceptance rate, and this article compiles the 59 recommendation‑system papers—covering large‑model recommenders, graph‑based methods, sequential models, fairness, privacy, advertising, debiasing, reinforcement learning and more—for researchers to explore the latest academic advances.

KDD2024Recommendation Systemsfairness

0 likes · 15 min read

What’s Trending in Recommendation Systems at KDD 2024? A Comprehensive Paper Overview

NewBeeNLP

Nov 11, 2024 · Artificial Intelligence

What Do Recent Multimodal LLM Papers Reveal About Vision‑Language Models?

This article surveys ten recent multimodal large language model papers, covering vision representation laws, a stricter instruction benchmark, safety impacts of visual adaptation, the Mini‑Gemini architecture, automatic pruning, vision capability boosting, long‑context transfer, efficient token sparsification, math reasoning, and hallucination mitigation.

Training Strategiesbenchmarkefficiency

0 likes · 18 min read

What Do Recent Multimodal LLM Papers Reveal About Vision‑Language Models?

NewBeeNLP

Nov 11, 2024 · Artificial Intelligence

Inside MIT’s Deep Generative Models Course: Topics, Schedule, and Resources

MIT’s 6.S978 Deep Generative Models seminar, taught by Associate Professor He Kaiming, offers graduate students a 15‑week deep dive into VAEs, autoregressive models, GANs, diffusion techniques, and cross‑disciplinary applications, with detailed weekly topics, required assignments, and publicly available lecture PDFs.

Deep Generative ModelsDiffusion ModelsGAN

0 likes · 5 min read

Inside MIT’s Deep Generative Models Course: Topics, Schedule, and Resources