Java基础
1.面向对象的特征?
2.如何限制一个类的继承?
3.HashSet的父类是什么?
4.Exception的基类是什么?
5.Hashset和Treeset有什么区别。
6.Linkedlist和ArrayList那个增添数据更快
7.Vector与ArrayList和linkedList的区别
8.如何使main线程最后关闭
9.你自己说一下对java虚拟机的了解以及对gc机制的了解
10.ArrayList,Vector,LinkedList的异同,及其效率问题;
11.了解几种设计模式
12.怎么创建线程
13.是否了解jvm
算法
1.你接触过的排序有哪些?实现原理?a
2.接触过的算法都有哪些?
3.给你一颗树,怎么把树左右颠倒?
4.在一个大串中查找小串的算法。
5.有一个20G的文件,有一台机器4核,8G内存。 有一个 1000个词组。 要求:生成一个新文件,将词组的词在文件中标记出来; 重复的词只需要标记最大的词,例如:中国 中国人 中国人民 只需要标记 中国人民,不需要再标记中国 和 中国人
6.写出时间复杂度。
7.二分查找算法编程实现
Web阶段
1.说一下web服务器的启动过程。
2.说一下jsp与servlet
3.SQL语句查询时如何提高性能;
4.http、TCP、UDP
5.select from where group by having order by 这条语句中关键词执行的优先顺序
6.sql中实现去重有几种方式
7.说三种mysql中的sql优化;
框架
1.把你最熟悉的项目说一下(如京淘),以及把项目架构说一下
2.说一下你最熟悉的项目(京淘)以及这个项目的难点在哪里?
3.什么是ioc
4.什么是aop
5.Shiro的权限管理是如何实现.
6.Sso单点登录后如何跳转到当前页面.
7.为什么不使用Spring的单点登录技术?
8.Spring是如何控制事物的.
9.Springmvc的工作原理
10.索引有几种形式,使用场景各是什么:
11.说一下工作中数据库遇到的数据倾斜以及解决方案
12.请描述一下restful;
13.所有浏览器的访问协议都是http吗?
14.socket和tcp有啥关系?
15.介绍一下maven
16.单点登录的权限是如何实现的
17.购物车都做了哪些内容:
18.什么是主从复制,读写分离;
大数据
linux
1.Linux命令:(1)scp命令,(2)查看进程,(3)查看cpu使用情况:top
2.查看进程的几种命令
3.查看错误异常的方法
4.临时切换root用户的几种命令,以及区别
5.文件系统的结构
6.挂载磁盘的命令
7.查看硬盘占用情况的命令
8.写出Hadoop你经常使用的一些命令
1.nio有没有用过。
2.描述RPC的原理和用途:
3.ZooKeeper是啥?作用?
4.为什么zookeeper集群的个数是奇数个
5.Hadoop集群的搭建?
6.Hadoop读写及shuffle过程。
7.Hadoop是怎么协调集群的;
8.Hadoop上传文件的几种方式
9.Hadoop集群优化。
10.什么是HDFS,还有它的工作原理?
11.描写HDFS的读写流程,最好是画图和文字来说明。
12.mapreduce怎样避免数据倾斜。
13.Map和reduce之间是如何通信的
14.Mr过程中用的是什么排序算法
15.是否会用mr写wordcount。
16.怎么在reduce中实现二次排序:
17.手写worldcount或者hive实现SQL统计分析
18.了解flume工具使用(老师讲的就够)最好是自己实现自定义source,sinks,channel。
19.namenode启动后发现live节点为零的原因和处理方法。
20.如果给你一个集群20datanode,其中一个挂了会发生什么事情?过一段时间挂掉的那个又恢复工作了又会发生什么事情?
21.如果有一个hadoop集群,有10台namenode节点,但是有20台nodemanager,这时候会发生什么事情?
22.不使用hive,利用MR实现两张数据表的join:
23.Hive优化的要点
24.用hql实现两张表的合并(不是join)
25.说一下Hbase 中Hlog作用
26.hbase缺点。
27.hbase中rowkey的设计原则;
28.hbase中的rowkey的设计原则;hbase在项目中主要用来做什么?
29.Storm的并发级别:node,work,extuor,task级别;node之间是如何相互通信的:?
30.kafka中默认的分区机制是什么?
31.Kafka中要实现重分区,该如何操作?
32.Kafka速度快的原因
33.实时数据是如何计算的:
34.实时数据和离线数据是如何整合的:
35.是否使用过impala
36.是否使用过图形数据库,比如neo4j
37.怎样处理数据缺失(没有理想答案)
38.你以前的经验kafka读写每秒多少M,如何调优,如何进行性能测试。
39.RDD是什么?结构是什么?
40.spark都有哪些依赖;
41.SparkStreaming的原理;
42.spark性能调优,在不改变spark参数的情况下 ,如何能更多的使用主机内存。
43.数据清洗需要注意的事情
44.你处理过最大的数据量?如何处理的?最终结果如何?
软通动力————大数据面试(02.14上午)
1. jvm调优做过哪些
2. spark性能调优
3. String s= new String(\"abc\") 在内存中实际创建几个对象 ?(两个)
4 Map和Set简单解释下?
5. hadoop2.0的HA是通过如何实现的,几个namenode?几个datanode?
6.介绍下kafka
7.介绍下mr的过程
8.介绍下hadoop性能调优
9.hive的内部表,外部表的区别,一般喜欢用内部表还是外部表?
10.hive中的内部表外部表是否可以转化(配置一个相关参数)
11.多线程用过没,简单介绍下
题外:面试官的时间宝贵,无关职位的话题尽量要少说,比如面试官突然问你有没有什么兴趣爱好,不要盲目说,可以直接说,我喜欢逛技术论坛,(stack overflow,美团技术点评之类的 ,)切记,切记,这是套路。
某互联网金融公司--大数据初试 (02.14下午)
技术经理直接面试
1.自我介绍,做过哪些项目,自己负责模块,用到哪些技术
2.redis中如何使key失效?(设置key的生存时间)
3.挑一个你熟悉的hadoop中经典图的讲一下
4.hadoop运行原理。
5.hive 的内部表 外部表的区别
6.hive表的sql查询:有个单表a ,里面包含 id ,name,score,class字段,请用一个sql查询出score在60以下,60-80,80-100各分数段的总人数
7.spark简单介绍,
8.storm的介绍,
亿阳信通集团--大数据面试 (02.15下午)
架构师直接面试
前言:此架构师看到我的简历,直接打电话约我面试,见面后简单介绍,说我是非专业,大数据刚学完,想找一个大数据相关的工作,明显感觉到此架构师不太想要,我就抱着死马当活马 医的心态,将他当磨刀石吧,好歹来了,切记不要气馁,不要怄气,珍惜每次机会。
1.自我介绍,
2.该电商项目是否上线,并发量多少,
3.你负责的前台详情页的展示,是否该电商网站的所有的商品都调用你的方法,是否通用,
4.redis如何使用的,
5.更新商品后,redis如何操作的,redis遇到并发问题怎么解决的,比如一个前台看到的页面的显示的价格为5块钱,他一点击加入购物车,你后台同时也修改了该商品的价格,如何保证不 出错
6.redis你们用到是那种,分片还是
7.讲下hadoop中mr的shuffle过程,写MR时需要注意的问题(driver中如何设置map,reducer)
8.了解combine不,为什么能减少IO操作
9.如果map阶段,相同的key不多时,如何做,(我回答的是:加大机器内存,并反问了下,他说他们也差不多这样做)
10.介绍下flume,flume中的source是什么意思,channel是什么意思,有几种类型的channel (memory channel JDBC channel file channel 再加一个不常用的)
11.spark 介绍下,spark sql用过没
12.接口和抽象类的异同点,
13.类实现接口了,必须要实现里面的全部方法不,有没有特例,(不必要,抽象方法实现了接口,就可以不必实现里面的方法,因为抽象方法本身就是定义方法,而没有方法体)
14.hive内部表外部表的区别,如何创建一个外部表(背语法)
15.多线程用过没
结尾:上面的基本都答上来的,然后很老实的告诉我,说和他们的要求有些偏差,主要是经验不足,他们要求最低在10万行以上的代码量,但是有Java开发的岗位,做这个大数据管理系统 的cdh的,还有一个前端的职位,要不要考虑,我直接说我还是想找一个大数据方面的工作,做其它不能积累大数据的开发经验
恒**通投资 --大数据面试 (达内推荐)(02.16上午)
先笔试,后面试
题外:一看笔试题,基本不会,什么线程锁,分布式锁,volidate关键字修饰的线程,直接懵逼,想逃走,感觉脸上热热的,心理很难受,但是,转念一想,躲了这家,下一家呢,既来之 则安之吧,把能做的做完,不会的查一下,查不出来的,就这样吧,磨刀石心态,这样一想我都佩服我的厚脸皮了。
等能做的做完后,后面的三道大题空白着,就找架构师去了,说,对不起,有些题确实不太会。架构师看了看,说,来找个地方先简单谈谈,
他看着我没做的题,问了下,我说值栈溢出这些东西,我确实没有遇到过,最后一个二叉树的我看不懂题,就让我讲了讲二叉树方面的知识。
1.自我介绍,
2.hadoop的mr原理,shuffle过程,mr性能调优
3.map的数量问题,
4.一个文件不满128m,也就是在一个block中,是否可以设置两个map任务,
5.reduce的数量问题,
6.介绍下flume,说几种常用的source类型,sink类型
7.介绍下storm,几个节点,之类的
8.hive的内部表,外部表区别,选择哪个比较好,(我答的外部表,然后反问了句,他
说,一般情况下,如果想要hive全程掌控,最好用内部表,如果从安全角度来看,外部表比较安全, 要综合考虑)
9.介绍下spark
10.介绍下电商项目
11.redis如何从各个节点读取数据,路径如何选择的,你们的集群如何搭建的
12.介绍下zookeeper原理,zookeeper的选举机制,zookeeper原子广播采取的协议(zab协议),除了zab协议还了解哪些协议
13.你熟悉的算法和数据结构(直接老实回答的,不是这个专业的,这个我正在网易公开课上学)
14.机器学习了解不(是否有熟悉的算法)(直接回答,和算法相关,真不懂)
15.对多线程的理解
16.问我有没有什么问题,我就直接让他介绍下他们现在主要用到的大数据的技术,哪个用的多一些,对spark的机器学习有没有使用,
除了上面的问题,还有些基本的,然后面试完毕,一看表一个多小时,他说让我等一下,通知人事来谈,人事说架构师比较满意,定位初级大数据研发工程师。
走出来,心里的乌云一片片散去,开始慢慢绽放。水货加油了,等把水烧完了,就只
剩下油了(老油条了)。
某互联网金融公司--二面 (02.16下午)
上次技术经理面试过程中,看着我的简历一直说,没做多少东西,以为不报希望,结果,还给了二面机会,所以不要气馁,会柳岸花明又一村的。
以为上次技术面试完,这轮不再技术面试,结果来了个一看就是很程序员的小伙子,拉着找了间会议室,开始技术面试,
1.spring的作用,spring中的IOC和AOP了解不
2.mybatis中的一对多,多对多如何配置(能回答出使用标签来配置即可)
3.mysql的主从复制,读写分离,(aop实现和amiba的实现)
4.多线程的问题
5.Hadoop中mr原理,
6.map中如何读取文件(考底层代码如何实现的)
7.hive中内部表外部表的区别
8.udf和udaf会写不?
9.介绍几个设计模式,以及为什么要设计这种模式
10.你会的排序算法,(介绍了下冒泡排序和二叉树排序,结果就二叉树问题开展了讨论,如何转树,如何使枝叶平衡,我心里突然感觉有一万只草泥马在奔腾)
11.大数据项目中会话时间的确定?如何实现的。
杂七杂八的,照着简历问了一个多小时,然后通知技术经理,技术经理通知人事进行第三轮面试,谈福利待遇,定位初级大数据研发工程师。
又一片艳阳天袭来。
因篇幅问题不能全部显示,请点此查看更多更全内容