Big Data Interview Guide: Common Questions from Leading Companies
This article compiles real interview experiences from a top tech firm and other leading companies, presenting a detailed list of common big‑data interview questions covering Hadoop, Hive, Spark, Flink, Kafka, data skew, HDFS architecture, and related concepts to help candidates prepare effectively.
This article shares real interview experiences from a student coached by the author, presenting a collection of common big‑data interview questions asked by a leading tech company, a live‑stream platform, and a third company.
1. 做过的项目细节和遇到的问题(30分钟)<br/>所以说大家要对简历中的项目细节了如指掌!<br/>2. 实习工作介绍(5min)<br/>3. 数据倾斜有哪几种解决方法<br/>4. Hdfs小文件危害,元数据压垮namenode,怎么处理?<br/>5. 为什么开启map—join后会减小数据倾斜?<br/>6. 数仓建模的层数:ods,dwd,dim,dws,ads(如果去掉几层或者多几层可以吗?)<br/>7. 缓慢变化维度怎么处理?拉链表有重叠怎么解决?拉链表如果出现断链怎么办?<br/>8. Hdfs怎么保证高可用?<br/>9. Reduce和map的个数由扫描决定的?<br/>10. 怎么优化分区的键值?Questions from the live‑stream platform include topics such as SQL tuning, Kafka architecture, Java collections, garbage collection mechanisms, MySQL storage engines, HDFS high availability, Hive table types, data skew handling, and more.
1. 实习的工作是什么?<br/>2. SQL调优有哪些?<br/>3. 介绍一下项目,主要做什么工作?<br/>4. Kafka的基本架构?<br/>5. Kafka的partition副本写数据是怎么写的?<br/>6. Kafka副本的leader是怎么选出来的?<br/>7. 有没有了解Kafka的架构设计?<br/>8. 讲一个最熟悉的集合?(答了HashMap)<br/>9. ArrayList是怎么实现的?LinkedList是怎么实现的?ArrayList与LinkedList有什么区别?<br/>10. 怎么声明字符串(String)?字符串new出来保存到哪里?如果是字符串常量保存在哪?<br/>11. StringBuffer和StringBuilder有什么区别?<br/>12. Java里除了Synconized,还有什么加锁方式?<br/>13. 介绍一下垃圾回收机制<br/>14. 具体的垃圾回收器有哪些?<br/>15. MySQL的存储引擎有哪些?Innodb的索引是怎么实现的?为什么用B+树?<br/>16. 索引的作用<br/>17. 内连接是什么?<br/>18. 有了解MVCC吗?介绍一下<br/>19. Hdfs的架构是怎样的?NN和2NN有什么区别?<br/>20. HDFS的HA怎么实现?<br/>21. HDFS的写数据流程?其中一台DataNode掉线了,写数据会怎样呢?<br/>22. HBase是列式存储吗?行式存储和列式存储有什么区别?<br/>23. HBase的HA<br/>24. 用的Hadoop是什么版本?<br/>25. 项目里Hive用的是内部表还是外部表?为什么用外部表?<br/>26. Hive数据倾斜<br/>27. 有没写过Hive的UDF函数?<br/>28. 有没了解过开窗函数?介绍一下The third company's interview covers thread vs. process differences, JVM memory generations, HDFS components, data warehouse layers, Flink windows and deployment modes, Spark grouping operators, Hive data skew handling, compression formats, Kafka architecture, and HBase row‑key requirements.
1. 线程和进程有哪些区别?<br/>2. 怎么看一个正在执行的JAVA程序的线程状态?<br/>3. 新生代和老年代主要是干什么的?比例是多少?<br/>4. HDFS的服务组成有哪些?它们分别的作用是什么?<br/>5. 除了Hive之外,还用过其他数仓吗?<br/>6. Flink的窗口主要是干什么的?<br/>7. Flink的dataStream和dataset有什么区别?<br/>8. Flink的部署模式有哪些?分别说明一下<br/>9. Flink中三个不同的时间概念?<br/>10. Spark中的分组算子有哪些?(reduceByKey,groupByKey)<br/>11. Hive什么情况下会出现数据倾斜?怎么处理?<br/>12. Hive的内部表和外部表有什么区别?<br/>13. Hive的数据存储格式有哪些?<br/>14. Gzip和Bzip压缩格式有什么区别?<br/>15. Kafka的架构和特点是什么?<br/>16. HBase适用哪些场景?<br/>17. HBase的rowKey有什么要求?If this article helped you, don't forget to view, like, and bookmark.
Additional resources:
2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)
互联网最坏的时代可能真的来了
我在B站读大学,大数据专业
Signed-in readers can open the original source through BestHub's protected redirect.
This article has been distilled and summarized from source material, then republished for learning and reference. If you believe it infringes your rights, please contactand we will review it promptly.
Big Data Technology & Architecture
Wang Zhiwu, a big data expert, dedicated to sharing big data technology.
How this landed with the community
Was this worth your time?
0 Comments
Thoughtful readers leave field notes, pushback, and hard-won operational detail here.
