Big Data 15 min read

Comprehensive Big Data Interview Q&A and Personal Project Summary

This article shares a recent graduate's successful job offer story, emphasizes preparing a detailed personal project summary, and provides extensive big‑data interview questions covering Hadoop, Spark, Flink, Kafka, Hive, ClickHouse, and related technologies to help candidates excel in interviews.

Big Data Technology & Architecture

May 19, 2023

Comprehensive Big Data Interview Q&A and Personal Project Summary

Today’s article presents a recent graduate’s successful job‑offer experience and stresses the importance of preparing a thorough personal project summary for technical interviews.

The candidate documented the technology stack, business flow diagrams, and technical challenges of their project, which greatly impressed interviewers.

Below are collected interview questions from several companies, covering topics such as Yarn resource scheduling, MapReduce workflow, Hive file handling, offline data‑warehouse ingestion, Flink checkpoints, CDC, Kafka consistency, HBase design, Spark performance, ClickHouse advantages, and many other big‑data concepts.

Interview question sets are shown as code blocks:

一面<br/>1. Yarn中的资源调度模型<br/>2. MapReduce的工作流程<br/>3. Hive中的小文件如何处理<br/>4. 离线数仓业务中的数据是如何采集的，业务数据与行为数据分别存放在哪里，这些原始数据存储之后如何处理<br/>5. 业务开发的时候拉链表<br/>6. 从云平台拉取数据到Hive中需要注意什么<br/>7. 最终模型的粒度<br/>8. 主流数据库了解哪些<br/><br/>二面<br/>1. LeetCode原题：有效的电话号码、三数之和<br/>2. DataStream API介绍<br/>3. 实时集成：实时数据如何实现数据实时对账，如何通过数据自动化修复来保证数据一致性<br/>4. 内部某个环节导致程序短暂中断(但是并不是由于数据源导致的数据中断)，然后将程序改正确之后如何保证数据一致性<br/>5. 如何确保实时程序运行过程中没有丢失数据或者漏掉数据的，如何识别<br/>6. 如果有丢失数据的情况是如何补救数据的<br/>7. Java多线程<br/>8. Hbase的rowkey设计原则，项目中如何设计<br/>9. Hbase的版本控制如何控制<br/>10. Spark数据倾斜如何解决<br/>11. ClickHouse的优缺点<br/>12. 项目调试Shell脚本用什么参数，500行的shell脚本，一段一段进行调试该怎么调试<br/>13. Shell脚本如何进行后台调用

1. 介绍一下自己的项目经历<br/>2. 数仓分层和星型模型和雪花模型<br/>3. 传统的维度建模如何做<br/>4. 实时数仓项目介绍，流关联类型，广播流？<br/>5. CheckPoint的原理和作用，项目中的配置<br/>6. 自定义算子实现EOS语义<br/>7. 任务挂掉之后如何找到对应的checkpoint<br/>8. Flink CDC有用过吗<br/>9. MySQL的数据同步使用Flink CDC会吗<br/>10. Flink CDC的实现原理<br/>11. MySQL的Binlog被清理之后该如何做Flink CDC全量的处理<br/>12. Flink的会话窗口使用过吗，一般用在哪种业务场景下<br/>13. 滑动窗口、滚动窗口、会话窗口的区别是什么<br/>14. Flink的CEP用过吗，是用来干什么的呢<br/>15. 项目处理的量级，对应的集群规模，这个规模是一个集群管理呢还是多个集群管理<br/>16. 开发的时候遇到过哪些问题吗，技术上的问题<br/>17. 有了解过一些新版Flink的特性吗

一面<br/>1. 自我介绍<br/>2. HDFS的读写原理<br/>3. Hive的内部表和外部表的区别<br/>4. Hive的引擎有哪些<br/>5. MapReduce与Spark的区别<br/>6. Spark中的宽依赖和窄依赖有什么区别<br/>7. Kafka如何保证数据一致性的<br/>8. Kafka本主题在生产数据，Flink在消费数据，有的Flink消费快，有的Flink消费慢，有什么办法去检查这个A、B、C、D四个消费者的消费情况<br/>9. Hbase中写入数据的方式<br/>10. Kafka的数据通过Flink SQL写入到Hive中如何写入<br/>11. Flink的水位线主要解决什么问题的<br/>12. Hive的调优有什么思路吗<br/>13. Java中重载和重写的区别是什么<br/>14. Java中继承和多态的特点<br/>15. 往shell脚本中传入两个参数怎么传<br/>16. shell脚本中写个死循环如何实现：每个五秒钟，打印一句话<br/>17. Linux如何查看CPU的使用率<br/><br/>二面<br/>1. 项目的架构<br/>2. Kafka的基本问题：Kafka的理解，Kafka的问题是变相问的，不是直接问的，Kafka的性能瓶颈，cpu、memory、disk三方面来讨论<br/>3. Hbase的读写流程<br/>4. Hbase的大合并与小合并的区别<br/>5. Hbase的大合并与小合并对应的触发机制、对应的粒度<br/>6. 批量处理之类的脚本会写吗<br/>7. 会经常操作Linux吗，经常操作的Linux的指令对应的功能是什么<br/>8. 如何查看端口的占用情况<br/>9. 知道AWK是什么指令吗<br/>10. 查看CPU的命令还有印象吗<br/>11. 有处理过一些平台级别的故障吗

1. 自我介绍<br/>2. Flink的四大基石了解吗<br/>3. 讲一下Flink的watermark机制<br/>4. 了解窗口的触发器嘛Trigger<br/>5. Trigger和watermark之间是有什么区别的呢<br/>6. Kafka到Flink的端到端精准一次是怎么实现的<br/>7. Flink的状态过期如何处理<br/>8. 计算一个商品的营业额，10秒一次进行更新<br/>10. 乱序迟到数据的三种解决方法<br/>11. Flink的提交方式有哪些<br/>12. Kafka的分区策略有哪些<br/>13. Kafka的AR、ISR、OSR<br/>14. 什么情况下ISR中的follower会放到OSR中<br/>15. ClickHouse为什么查询速度快<br/>16. Spark的性能调优<br/>17. Hive的数据倾斜<br/>18. Hive的分区分桶机制<br/>19. Hbase的读写流程<br/>20. Hbase的数据热点问题如何解决<br/>21. HDFS的架构了解吗<br/>22. Hadoop的高可用是怎么实现的<br/>23. Java的多线程<br/>24. Java的锁机制，悲观锁、乐观锁、轻量级锁、重量级锁<br/>25. Java Spring MVC的运行流程<br/>26. 进程相关的Linux命令<br/>27. 网络传输协议的七层<br/>28. udp与tcp的区别<br/>29. tcp/ip协议<br/>30. http协议<br/>31. 二叉树——如何查询二叉树的高度<br/>32. 给一个数组实现一个循环的链表<br/>33. 项目中的计算链路<br/>34. 各个项目中Kafka的峰值数据<br/>35. 实时故障告警中涉及到的告警字段有哪些印象深刻的<br/>36. 实时级别是秒级还是分钟级

1. Flink运行在哪儿，Yarn还是k8s上<br/>2. Flink提交任务都是使用的什么模式，Session、Per-Job、Application这三种模式之间的区别是什么<br/>3. Flink有什么机制能够保证在消费Kafka数据的时候不会造成数据丢失和数据重复<br/>4. ClickHouse中的表引擎使用的是哪种，为什么这么选择<br/>5. Kafka->Flink->Kafka->Flink->ClickHouse是如何实现端到端的Eos<br/>6. Flink中的Checkpoint的原理<br/>7. Flink任务的并行度如何做优化和调整的，Source端怎么考虑，Transform端怎么考虑，或者可以通过哪些指标来进行判断吗，判断哪些并行度设置大了或者设置小了<br/>8. Flink反压的优化，如何解决反压<br/>9. Flink数据倾斜的优化，如何解决数据倾斜，什么时候会出现数据倾斜<br/>10. Flink中两个比较大的数据量的流进行join需要考虑什么<br/>在使用Union对侧输出迟到的数据以及合并后的数据再进行合并时还会造成数据丢失吗，会对程序的时效性造成影响吗<br/>11. ClickHouse这种OLAP型引擎为什么查询速度快<br/>12. 其他的OLAP型引擎了解过吗，比如doris或者stackRocks<br/>13. Flink是运行在Yarn上的，那么Yarn集群或者底层的HDFS组件出现过什么问题吗，会由于底层的故障导致Flink任务的失败吗<br/>14. 在使用Redis当作Hbase的二级缓存来实现Flink对应任务的这个场景下，为什么考虑Redis当作二级缓存，有考虑过Flink本身的缓存机制吗<br/>15. 维度建模的方法，事实表和维度表的设计有了解过吗<br/>16. 维度表的一些属性需要不需要冗余到事实表中，哪些需要冗余到事实表，哪些需要在做具体查询的时候做一个关联有考虑过吗

The article concludes that even if a candidate’s background is not from a top university or a complex project, thorough preparation—especially a detailed project summary and targeted knowledge‑point review—significantly boosts interview performance.

Readers are encouraged to adopt this systematic approach, continuously refine their technical notes, and share the experience with peers.

Original Source

Signed-in readers can open the original source through BestHub's protected redirect.

Republication Notice

This article has been distilled and summarized from source material, then republished for learning and reference. If you believe it infringes your rights, please contactand we will review it promptly.

Big Data Flink kafka Hive Spark Hadoop

Written by

Big Data Technology & Architecture

Wang Zhiwu, a big data expert, dedicated to sharing big data technology.

0 followers

Reader feedback

How this landed with the community

Rate this article

Was this worth your time?

Discussion

0 Comments

Thoughtful readers leave field notes, pushback, and hard-won operational detail here.