您的当前位置:首页正文

大数据整理面试题

来源:一二三四网


Java基础

1.面向对象的特征?

2.如何限制一个类的继承?

3.HashSet的父类是什么?

4.Exception的基类是什么?

5.Hashset和Treeset有什么区别。

6.Linkedlist和ArrayList那个增添数据更快

7.Vector与ArrayList和linkedList的区别

8.如何使main线程最后关闭

9.你自己说一下对java虚拟机的了解以及对gc机制的了解

10.ArrayList,Vector,LinkedList的异同,及其效率问题;

11.了解几种设计模式

12.怎么创建线程

13.是否了解jvm

算法

1.你接触过的排序有哪些?实现原理?a

2.接触过的算法都有哪些?

3.给你一颗树,怎么把树左右颠倒?

4.在一个大串中查找小串的算法。

5.有一个20G的文件,有一台机器4核,8G内存。 有一个 1000个词组。 要求:生成一个新文件,将词组的词在文件中标记出来; 重复的词只需要标记最大的词,例如:中国 中国人 中国人民 只需要标记 中国人民,不需要再标记中国 和 中国人

6.写出时间复杂度。

7.二分查找算法编程实现

Web阶段

1.说一下web服务器的启动过程。

2.说一下jsp与servlet

3.SQL语句查询时如何提高性能;

4.http、TCP、UDP

5.select from where group by having order by 这条语句中关键词执行的优先顺序

6.sql中实现去重有几种方式

7.说三种mysql中的sql优化;

框架

1.把你最熟悉的项目说一下(如京淘),以及把项目架构说一下

2.说一下你最熟悉的项目(京淘)以及这个项目的难点在哪里?

3.什么是ioc

4.什么是aop

5.Shiro的权限管理是如何实现.

6.Sso单点登录后如何跳转到当前页面.

7.为什么不使用Spring的单点登录技术?

8.Spring是如何控制事物的.

9.Springmvc的工作原理

10.索引有几种形式,使用场景各是什么:

11.说一下工作中数据库遇到的数据倾斜以及解决方案

12.请描述一下restful;

13.所有浏览器的访问协议都是http吗?

14.socket和tcp有啥关系?

15.介绍一下maven

16.单点登录的权限是如何实现的

17.购物车都做了哪些内容:

18.什么是主从复制,读写分离;

大数据

linux

1.Linux命令:(1)scp命令,(2)查看进程,(3)查看cpu使用情况:top

2.查看进程的几种命令

3.查看错误异常的方法

4.临时切换root用户的几种命令,以及区别

5.文件系统的结构

6.挂载磁盘的命令

7.查看硬盘占用情况的命令

8.写出Hadoop你经常使用的一些命令

1.nio有没有用过。

2.描述RPC的原理和用途:

3.ZooKeeper是啥?作用?

4.为什么zookeeper集群的个数是奇数个

5.Hadoop集群的搭建?

6.Hadoop读写及shuffle过程。

7.Hadoop是怎么协调集群的;

8.Hadoop上传文件的几种方式

9.Hadoop集群优化。

10.什么是HDFS,还有它的工作原理?

11.描写HDFS的读写流程,最好是画图和文字来说明。

12.mapreduce怎样避免数据倾斜。

13.Map和reduce之间是如何通信的

14.Mr过程中用的是什么排序算法

15.是否会用mr写wordcount。

16.怎么在reduce中实现二次排序:

17.手写worldcount或者hive实现SQL统计分析

18.了解flume工具使用(老师讲的就够)最好是自己实现自定义source,sinks,channel。

19.namenode启动后发现live节点为零的原因和处理方法。

20.如果给你一个集群20datanode,其中一个挂了会发生什么事情?过一段时间挂掉的那个又恢复工作了又会发生什么事情?

21.如果有一个hadoop集群,有10台namenode节点,但是有20台nodemanager,这时候会发生什么事情?

22.不使用hive,利用MR实现两张数据表的join:

23.Hive优化的要点

24.用hql实现两张表的合并(不是join)

25.说一下Hbase 中Hlog作用

26.hbase缺点。

27.hbase中rowkey的设计原则;

28.hbase中的rowkey的设计原则;hbase在项目中主要用来做什么?

29.Storm的并发级别:node,work,extuor,task级别;node之间是如何相互通信的:?

30.kafka中默认的分区机制是什么?

31.Kafka中要实现重分区,该如何操作?

32.Kafka速度快的原因

33.实时数据是如何计算的:

34.实时数据和离线数据是如何整合的:

35.是否使用过impala

36.是否使用过图形数据库,比如neo4j

37.怎样处理数据缺失(没有理想答案)

38.你以前的经验kafka读写每秒多少M,如何调优,如何进行性能测试。

39.RDD是什么?结构是什么?

40.spark都有哪些依赖;

41.SparkStreaming的原理;

42.spark性能调优,在不改变spark参数的情况下 ,如何能更多的使用主机内存。

43.数据清洗需要注意的事情

44.你处理过最大的数据量?如何处理的?最终结果如何?

软通动力————大数据面试(02.14上午)

1. jvm调优做过哪些

2. spark性能调优

3. String s= new String(\"abc\") 在内存中实际创建几个对象 ?(两个)

4 Map和Set简单解释下?

5. hadoop2.0的HA是通过如何实现的,几个namenode?几个datanode?

6.介绍下kafka

7.介绍下mr的过程

8.介绍下hadoop性能调优

9.hive的内部表,外部表的区别,一般喜欢用内部表还是外部表?

10.hive中的内部表外部表是否可以转化(配置一个相关参数)

11.多线程用过没,简单介绍下

题外:面试官的时间宝贵,无关职位的话题尽量要少说,比如面试官突然问你有没有什么兴趣爱好,不要盲目说,可以直接说,我喜欢逛技术论坛,(stack overflow,美团技术点评之类的 ,)切记,切记,这是套路。

某互联网金融公司--大数据初试 (02.14下午)

技术经理直接面试

1.自我介绍,做过哪些项目,自己负责模块,用到哪些技术

2.redis中如何使key失效?(设置key的生存时间)

3.挑一个你熟悉的hadoop中经典图的讲一下

4.hadoop运行原理。

5.hive 的内部表 外部表的区别

6.hive表的sql查询:有个单表a ,里面包含 id ,name,score,class字段,请用一个sql查询出score在60以下,60-80,80-100各分数段的总人数

7.spark简单介绍,

8.storm的介绍,

亿阳信通集团--大数据面试 (02.15下午)

架构师直接面试

前言:此架构师看到我的简历,直接打电话约我面试,见面后简单介绍,说我是非专业,大数据刚学完,想找一个大数据相关的工作,明显感觉到此架构师不太想要,我就抱着死马当活马 医的心态,将他当磨刀石吧,好歹来了,切记不要气馁,不要怄气,珍惜每次机会。

1.自我介绍,

2.该电商项目是否上线,并发量多少,

3.你负责的前台详情页的展示,是否该电商网站的所有的商品都调用你的方法,是否通用,

4.redis如何使用的,

5.更新商品后,redis如何操作的,redis遇到并发问题怎么解决的,比如一个前台看到的页面的显示的价格为5块钱,他一点击加入购物车,你后台同时也修改了该商品的价格,如何保证不 出错

6.redis你们用到是那种,分片还是

7.讲下hadoop中mr的shuffle过程,写MR时需要注意的问题(driver中如何设置map,reducer)

8.了解combine不,为什么能减少IO操作

9.如果map阶段,相同的key不多时,如何做,(我回答的是:加大机器内存,并反问了下,他说他们也差不多这样做)

10.介绍下flume,flume中的source是什么意思,channel是什么意思,有几种类型的channel (memory channel JDBC channel file channel 再加一个不常用的)

11.spark 介绍下,spark sql用过没

12.接口和抽象类的异同点,

13.类实现接口了,必须要实现里面的全部方法不,有没有特例,(不必要,抽象方法实现了接口,就可以不必实现里面的方法,因为抽象方法本身就是定义方法,而没有方法体)

14.hive内部表外部表的区别,如何创建一个外部表(背语法)

15.多线程用过没

结尾:上面的基本都答上来的,然后很老实的告诉我,说和他们的要求有些偏差,主要是经验不足,他们要求最低在10万行以上的代码量,但是有Java开发的岗位,做这个大数据管理系统 的cdh的,还有一个前端的职位,要不要考虑,我直接说我还是想找一个大数据方面的工作,做其它不能积累大数据的开发经验

恒**通投资 --大数据面试 (达内推荐)(02.16上午)

先笔试,后面试

题外:一看笔试题,基本不会,什么线程锁,分布式锁,volidate关键字修饰的线程,直接懵逼,想逃走,感觉脸上热热的,心理很难受,但是,转念一想,躲了这家,下一家呢,既来之 则安之吧,把能做的做完,不会的查一下,查不出来的,就这样吧,磨刀石心态,这样一想我都佩服我的厚脸皮了。

等能做的做完后,后面的三道大题空白着,就找架构师去了,说,对不起,有些题确实不太会。架构师看了看,说,来找个地方先简单谈谈,

他看着我没做的题,问了下,我说值栈溢出这些东西,我确实没有遇到过,最后一个二叉树的我看不懂题,就让我讲了讲二叉树方面的知识。

1.自我介绍,

2.hadoop的mr原理,shuffle过程,mr性能调优

3.map的数量问题,

4.一个文件不满128m,也就是在一个block中,是否可以设置两个map任务,

5.reduce的数量问题,

6.介绍下flume,说几种常用的source类型,sink类型

7.介绍下storm,几个节点,之类的

8.hive的内部表,外部表区别,选择哪个比较好,(我答的外部表,然后反问了句,他

说,一般情况下,如果想要hive全程掌控,最好用内部表,如果从安全角度来看,外部表比较安全, 要综合考虑)

9.介绍下spark

10.介绍下电商项目

11.redis如何从各个节点读取数据,路径如何选择的,你们的集群如何搭建的

12.介绍下zookeeper原理,zookeeper的选举机制,zookeeper原子广播采取的协议(zab协议),除了zab协议还了解哪些协议

13.你熟悉的算法和数据结构(直接老实回答的,不是这个专业的,这个我正在网易公开课上学)

14.机器学习了解不(是否有熟悉的算法)(直接回答,和算法相关,真不懂)

15.对多线程的理解

16.问我有没有什么问题,我就直接让他介绍下他们现在主要用到的大数据的技术,哪个用的多一些,对spark的机器学习有没有使用,

除了上面的问题,还有些基本的,然后面试完毕,一看表一个多小时,他说让我等一下,通知人事来谈,人事说架构师比较满意,定位初级大数据研发工程师。

走出来,心里的乌云一片片散去,开始慢慢绽放。水货加油了,等把水烧完了,就只

剩下油了(老油条了)。

某互联网金融公司--二面 (02.16下午)

上次技术经理面试过程中,看着我的简历一直说,没做多少东西,以为不报希望,结果,还给了二面机会,所以不要气馁,会柳岸花明又一村的。

以为上次技术面试完,这轮不再技术面试,结果来了个一看就是很程序员的小伙子,拉着找了间会议室,开始技术面试,

1.spring的作用,spring中的IOC和AOP了解不

2.mybatis中的一对多,多对多如何配置(能回答出使用标签来配置即可)

3.mysql的主从复制,读写分离,(aop实现和amiba的实现)

4.多线程的问题

5.Hadoop中mr原理,

6.map中如何读取文件(考底层代码如何实现的)

7.hive中内部表外部表的区别

8.udf和udaf会写不?

9.介绍几个设计模式,以及为什么要设计这种模式

10.你会的排序算法,(介绍了下冒泡排序和二叉树排序,结果就二叉树问题开展了讨论,如何转树,如何使枝叶平衡,我心里突然感觉有一万只草泥马在奔腾)

11.大数据项目中会话时间的确定?如何实现的。

杂七杂八的,照着简历问了一个多小时,然后通知技术经理,技术经理通知人事进行第三轮面试,谈福利待遇,定位初级大数据研发工程师。

又一片艳阳天袭来。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top