HBase优化面试题_读表操作优化-【官方】百战程序员_IT在线教育培训机构

在单条查和批量查都可以用时优先选择批量读。
通过调用HTable.get(Get)方法可以根据一个指定的row key获取一行记录，同样HBase提供了另一个方法：通过调用HTable.get(List)方法可以根据一个指定的row key列表，批量获取多行记录，这样做的好处是批量执行，只需要一次网络I/O开销，这对于对数据实时性要求高而且网络传输RTT高的情景下可能带来明显的性能提升。
scan时指定需要的列族与列描述符，可以减少网络传输数据量，否则默认scan操作会返回整行所有Column Family的数据。
通过scan取完数据后，记得要关闭ResultScanner，否则RegionServer可能会出现问题（对应的Server资源无法释放）。
优化服务器端BlockCache内存占比。
客户端缓存查询结果。
HBase scanner一次从服务端抓取的数据条数，默认情况下一次一条。通过将其设置成一个合理的值，可以减少scan过程中next()的时间开销，代价是scanner需要通过客户端的内存来维持这些被cache的行记录。
有三个地方可以进行配置：
1. 在HBase的conf配置文件中通过hbase.client.scanner.caching进行配置；
2. 通过调用HTable.setScannerCaching(int scannerCaching)进行配置；
3. 通过调用scan.setCaching(int caching)进行配置。
三者的优先级从上到下越来越高。

问题2：简述使用客户端缓存查询结果后的查询流程？

参考答案：

对于频繁查询HBase的应用场景，可以考虑在应用程序中做缓存，当有新的查询请求时，首先在缓存中查找，如果存在则直接返回，不再查询HBase；否则对HBase发起读请求查询，然后在应用程序中将查询结果缓存起来。至于缓存的替换策略，可以考虑LRU（least recently used最近最少使用的）等常用的策略。

client ->通过网络请求->regionserver(memstore|blockcache|storefile)

优化为：

client-> (memcached|redis)->通过网络请求->regionserver(memstore|blockcache)

问题3：简述你对BlockCache的理解有哪些？

参考答案：

HBase上Regionserver的内存分为两个部分，一部分作为Memstore，主要用来写；另外一部分作为BlockCache，主要用于读。
写请求会先写入Memstore，Regionserver会给每个region提供一个Memstore，当Memstore满64MB以后，会启动 flush刷新到磁盘。当Memstore的总大小超过限制时（heapsize * hbase.regionserver.global.memstore.upperLimit * 0.9），会强行启动flush进程，从最大的Memstore开始flush直到低于限制。
读请求先到Memstore中查数据，查不到就到BlockCache中查，再查不到就会到磁盘上读，并把读的结果放入BlockCache。由于BlockCache采用的是LRU策略，因此BlockCache达到上限(heapsize * hfile.block.cache.size * 0.85)后，会启动淘汰机制，淘汰掉最老的一批数据。
一个Regionserver上有一个BlockCache和N个Memstore，它们的大小之和不能大于等于heapsize * 0.8，否则HBase不能启动。默认BlockCache为0.2，而Memstore为0.4。对于注重读响应时间的系统，可以将 BlockCache设大些，比如设置BlockCache=0.4，Memstore=0.39，以加大缓存的命中率。

有关BlockCache机制，请参考这里：HBase的Block cache，HBase的blockcache机制，<

HBase优化面试题_写表操作优化 HBase与Hive整合_准备工作

北京市昌平区回龙观镇南店村综合商业楼2楼226室