Tagged articles

dataset generation

4 articles · Page 1 of 1

Jul 9, 2025 · Artificial Intelligence

How Easy Dataset Automates High‑Quality LLM Fine‑Tuning Data from Unstructured Docs

The article introduces Easy Dataset, a GUI‑driven framework that transforms heterogeneous documents into high‑quality, persona‑driven fine‑tuning data for large language models, details its architecture, core contributions, experimental validation on financial QA, and compares it with existing data‑synthesis tools.

Data SynthesisGUILLM

0 likes · 12 min read

How Easy Dataset Automates High‑Quality LLM Fine‑Tuning Data from Unstructured Docs

Rare Earth Juejin Tech Community

May 31, 2024 · Artificial Intelligence

Generating Custom QA Datasets with Large Language Models and Fine‑Tuning via LoRA

This article explains how to use a large language model to automatically convert long‑form texts into Alpaca‑style question‑answer pairs, build a LangChain processing chain, and then fine‑tune a model such as Phi‑3‑mini‑4k‑instruct with LoRA, providing full Python code examples.

LLMLangChainLoRA

0 likes · 11 min read

Generating Custom QA Datasets with Large Language Models and Fine‑Tuning via LoRA

phodal

Jan 7, 2024 · Artificial Intelligence

How UnitGen Generates High‑Quality Code Datasets for Private AI Models

UnitGen, a dataset generation framework derived from UnitEval, combines unified prompts, quality pipelines, and extensible thresholds with language‑specific context strategies and ArchGuard checks to produce both documentation and test datasets for private AI code‑generation models, leveraging the open‑source Chapi AST engine.

AI code generationAST analysisdataset generation

0 likes · 8 min read

How UnitGen Generates High‑Quality Code Datasets for Private AI Models

phodal

Dec 10, 2023 · Artificial Intelligence

Building High‑Quality Code Fine‑Tuning Datasets with UnitEval: An Open‑Source Toolkit

UnitEval is an open‑source toolbox that unifies prompts, provides a code‑quality pipeline, and offers extensible quality thresholds to automatically generate high‑quality code datasets for AI fine‑tuning, with detailed design principles, workflow steps, and usage instructions.

AIcode qualitydataset generation

0 likes · 9 min read

Building High‑Quality Code Fine‑Tuning Datasets with UnitEval: An Open‑Source Toolkit