当前位置:  NOSQL>mongodb

文档数据库mongodb与列式数据库hbase详细比较

 
    发布时间:2017-2-21  


    本文导语: 文档数据库mongodb与列式数据库hbase详细比较mongodb和Hbase的共同点都属于NOSQL数据库,不属于传统的关系数据库。mongodb和Hbase的区别有以下几点:1 .MongoDB是bson文档型数据库,整个数据都存在磁盘中。MongoDB基于文档存储,也...

文档数据库mongodb与列式数据库hbase详细比较 


mongodb和Hbase的共同点

 都属于NOSQL数据库,不属于传统的关系数据库

mongodb和Hbase的区别有以下几点:

1 .MongoDB是bson文档型数据库,整个数据存在磁盘中。MongoDB基于文档存储,也有数据关联, 单条记录 的结构可以很复杂,索引也可以设置很多列;还有个二进制文件存储模块,貌似很多公司都在用这个存储图片、文档,很爽;感觉使用MongoDB解决一般的应用都没有啥问题;安全管理方面不是强项; 使用过MongoDB,会觉得这个用起来很不错;Hbase是列式数据库,集群部署时每个familycolumn保存在单独的hdfs文件中。

  mongodb和hbase的delete的区别:mongodb的delete会将该行的数据标示为已删除,因为mongodb在删除记录时并不是真把记录从内存或文件中remove,而是将该删除记录数据置空(写0或特殊数字加以标识)同时将该记录所在地址放到一个list列表“释放列表”中,这样做的好就是就是如果有用户要执行插入记录操作时,mongodb会首先从该“释放列表”中获取size合适的“已删除记录”地址返回,这种方法会提升性能(避免了malloc内存操作),同时mongodb也使用了bucket size数组来定义多个大小size不同的列表,用于将要删除的记录根据其size大小放到合适的“释放列表”中。Hbase的delete是先新建一个tombstonemarkers,然后读的时候会和tombstonemarkers做merge,在 发生major compaction时delete的数据记录才会真真删除。

2. Mongodb 主键是“_id”,主键上面可以不建索引,记录插入的顺序和存放的顺序一样,hbase的主键就是row key,可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbase内部,row key保存为字节数组。存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分排序存储这个特性,将经常一起读取的行存储放到一起。

字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行键必须用0作左填充。

3. Mongodb支持二级索引,而hbase本身不支持二级索引。

4. Mongodb支持集合查找,正则查找,范围查找,支持skiplimit等等,是最像MySQL的nosql数据库,而hbase只支持三种查找:通过单个row key访问,通过row key的range,全表扫描

5. mongodb的update是update-in-place,也就是原地更新,除非原地容纳不下更新后的数据记录。而hbase的修改和添加都是同一个命令:put,如果put传入的row key已经存在就更新原记录,实际上hbase内部也不是更新,它只是将这一份数据已不同的版本保存下来而已,hbase默认的保存版本的历史数量是3。

6. mongodb的delete会将该行的数据标示为已删除,因为mongodb在删除记录时并不是真把记录从内存或文件中remove,而是将该删除记录数据置空(写0或特殊数字加以标识)同时将该记录所在地址放到一个list列表“释放列表”中,这样做的好就是就是如果有用户要执行插入记录操作时,mongodb会首先从该“释放列表”中获取size合适的“已删除记录”地址返回,这种方法会提升性能(避免了malloc内存操作),同时mongodb也使用了bucket size数组来定义多个大小size不同的列表,用于将要删除的记录根据其size大小放到合适的“释放列表”中。Hbase的delete是先新建一个tombstonemarkers,然后读的时候会和tombstonemarkers做merge,在 发生major compaction时delete的数据记录才会真真删除。

7.  mongodb和hbase都支持mapreduce,不过mongodb的mapreduce支持不够强大,如果没有使用mongodb分片,mapreduce实际上不是并行执行的。

8 .mongodb支持shard分片,hbase根据row key自动负载均衡,这里shard key和row key的选取尽量用非递增的字段,尽量用分布均衡的字段,因为分片都是根据范围来选择对应的存取server的,如果用递增字段很容易热点server的产生,由于是根据key的范围来自动分片的,如果key分布不均衡就会导致有些key根本就没法切分,从而产生负载不均衡。

9. mongodb的读效率比写高,hbase默认适合写多读少的情况,可以通过hfile.block.cache.size配置,该配置storefile的读缓存占用Heap的大小百分比,0.2表示20%。该值直接影响数据读的性能。如果写比读少很多,开到0.4-0.5也没问题。如果读写较均衡,0.3左右。如果写比读多,果断默认0.2吧。设置这个值的时候,你同时要参考hbase.regionserver.global.memstore.upperLimit,该值是memstore占heap的最大百分比,两个参数一个影响读,一个影响写。如果两值加起来超过80-90%,会有OOM的风险,谨慎设置。

10. hbase采用的LSM思想(Log-Structured Merge-Tree),就是将对数据的更改hold在内存中,达到指定的threadhold后将该批更改merge后批量写入到磁盘,这样将单个写变成了批量写,大大提高了写入速度,不过这样的话读的时候就费劲了,需要merge disk上的数据和memory中的修改数据,这显然降低了读的性能。mongodb采用的是mapfile+Journal思想,如果记录不在内存,先加载到内存,然后在内存中更改后记录日志,然后隔一段时间批量的写入data文件,这样对内存的要求较高,至少需要容纳下热点数据和索引。

HBase和MongoDB那个更适合海量实时小数据?

MongoDB,适合海量数据的实时插入,更新,查询,而且支持多条件查询,以及建立多维度的索引。

相比HBase,Hbase对于海量数据的实时插入,更新,查询是没有压力的,而且操作的效率跟数据的量没有关系,即数据量的大小不会影响操

作的效率,但是Hbase的实时查询是建立在针对rowkey的查询基础上的,因为Hbase只能对rowkey进行建立索引,查询也只能根据rowkey进行

查询,无法实现同MongoDB一样的多条件查询。小数据的要求对于MongoDB和Hbase都没有影响,因为MongoDB和Hbase都是一种数据库,主要就是用于存储零碎的小数据。所以感觉如果只是用于海量实时的小数据那么MongoDB可能会好点,但是如果还需要对数据进行统计分析,那么最好还是考虑统计分析的因素。如你使用mapreduce进行数据统计分析,那么hbase可能会更好些,虽然MongoDB也支持mr。

  • 本站(WWW.169IT.COM)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.169IT.COM)站内文章除注明原创外,均为转载,整理或搜集自网络.欢迎任何形式的转载,转载请注明出处.
    转载请注明:文章转载自:[169IT-IT技术资讯]
    本文标题:文档数据库mongodb与列式数据库hbase详细比较
相关文章推荐:


站内导航:


特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

©2012-2019,169IT.COM,E-mail:www_169it_com#163.com(请将#改为@)

浙ICP备11055608号