大数据

简单介绍一下Hadoop和Spark异同

干货合集

简单介绍一下Hadoop和Spark异同

14赞 1,360阅读 0评论

Hadoop和Spark两者都是大数据框架，但是各自存在的目的不尽相同，Hadoop和Spark都是并行计算，两者都是用MR模型进行计算，下面为大家详细讲解一下Hadoop和Spark异同。

简单介绍一下kafka常用命令

干货合集

简单介绍一下kafka常用命令

14赞 1,918阅读 0评论

Kafka是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，本篇文章重点为大家讲解一下kafka常用命令。

详解zookeeper分布式锁

干货合集

详解zookeeper分布式锁

16赞 1,472阅读 0评论

在我们进行单机应用开发，涉及并发同步的时候，我们往往采用synchronized或者Lock的方式来解决多线程间的代码同步问题。但当我们的应用是分布式集群工作的情况下，那么就需要一种更加高级的锁机制，来处理种跨机器的进程之间的数据同步问题。这就是分布式锁，下面重点为大家讲解一下zookeeper分布式锁。

Linux下安装日志收集系统flume

干货合集

Linux下安装日志收集系统flume

18赞 1,337阅读 0评论

flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统，在实际开发环境中被广泛使用，本篇文章重点为大家讲解一下Linux下部署flume具体步骤。

Hadoop分布式文件系统HDFS架构

干货合集

Hadoop分布式文件系统HDFS架构

17赞 1,883阅读 0评论

Hadoop分布式文件系统(HDFS)是一种基于Java的分布式文件系统，它具有容错性、可伸缩性和易扩展性等优点，它可在商用硬件上运行，也可以在低成本的硬件上进行部署。HDFS是一个分布式存储的Hadoop应用程序，它提供了更接近数据的接口。

SparkValue类型的常用算子

干货合集

SparkValue类型的常用算子

12赞 1,361阅读 0评论

Spark之所以比Hadoop灵活和强大，其中一个原因是Spark内置了许多有用的算子，也就是方法。通过对这些方法的组合，编程人员就可以写出自己想要的功能。说白了spark编程就是对spark算子的使用，下面为大家详细讲解一下SparkValue类型的常用算子

详解MapReduce Shuffle机制

干货合集

详解MapReduce Shuffle机制

14赞 1,456阅读 0评论

Shuffle过程，也称Copy阶段。reduce task从各个map task上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定的阀值，则写到磁盘上，否则直接放到内存中。

Hadoop —MapReduce 编程思想

干货合集

Hadoop —MapReduce 编程思想

12赞 1,308阅读 0评论

MapReduce，本质就是一种编程模型，也是一个处理大规模数据集的相关实现。之所以会有这个模型，目的是为了隐藏“并行计算、容错处理、数据分发、负载均衡”，从而实现大数据计算的一种抽象。

干货合集

常用的开源数据分析应用软件

21赞 1,821阅读 0评论

我们在本文中介绍了市面上12款顶尖的开源数据分析解决方案，其中一些为大数据分析提供了全面的端到端平台，另一些要与其他技术结合起来。它们都适合大企业使用，都是市面上领先的数据分析工具。

Python中Pandas库绘制数据具体方法

干货合集

Python中Pandas库绘制数据具体方法

15赞 1,702阅读 0评论

pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能，Pandas 广泛应用在学术、金融、统计学等各个数据分析领域，本篇文章重点为大家讲解一下Python中Pandas库绘制数据具体方法。