2022年10月10日 大数据(十五)Hadoop3.x+Hbase2.x部署 一晃数年过去,Hadoop到3.X版本,部署方式跟前面稍有不同,这里记录一下。hadoop2.x可参照前面的文章,写的还是比较详细的:https://www.51niux.com/?id=175
2017年12月01日 大数据(十四)flume实例部署 #我擦前面又把官网翻译了一遍,现在写一些例子把前面的知识捋一下,虽然前面又好多的source、channel、sink,但是实际用到的也不多。一、简单本机示例1.1 使用memory做channel、exec做source、file_roll做sink设置一个测试.conf:$ vim /home/flume/flume/conf/exec_test1.conf a1.sources = source1 &
2017年12月01日 大数据(十三)flume筛选器 一、Flume channel Selectors(筛选器)如果没有指定类型,则默认为replicating(“复制”)。1.1 Replicating Channel Selector (default)selector.type #默认值是replicating 组件类型名称需要replicating selector.optional #将被标记为可选的通道集合agent名称为a1,source为r
2017年11月30日 大数据(十二)flume的source、sink、channel详解 https://www.51niux.com/?id=196 #已经对flume进行了介绍,也参照官网搭建了简单的agent端,这里还是参照官网,将配置文件的各种参数记录一下。一、Flume Sources配置参数详解1.1 Avro Source 监听Avro端口并接收来自外部Avro客户端流的事件。 当与另一个(前一跳)Flume agent内置的Avro Sink配对时,它可以创建分层收集拓扑。
2017年11月28日 大数据(十一)flume介绍 flume要好好总结一下,15年接触flume的时候真的是资料太少了,基本就是抱着官网啃然后就一个flume群人多点进去问问题,然后网上的博客很少,现在好多了。当时学习源于美团的一片文章:https://tech.meituan.com/mt-log-system-arch.html #棒的飞起,也可以看看其他的技术分享。flume官网:http://flume.apache.org/一、flume介绍(还是照着官网来)1.1 什么是flume?
2017年11月26日 大数据(十)学习kafka集群部署 一、kafka介绍官网:http://kafka.apache.org/ 1.1 kafka是什么? ApacheKafka是一个分布式流媒体平台。 Kafka是一种高吞吐量的分布式发布订阅的消息队列系统,原本开发自LinkedIn,用作LinkedIn的活动流(ActivityStream)和运营数据处理管道(Pipeline)的基础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统
2017年11月20日 大数据(九)部署Hive 一、Hive介绍Hive官网:https://hive.apache.org/1.1 hive简介 Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 最初,Hive是由F
2017年11月17日 大数据(八)学习部署Hbase Hbase官网:http://hbase.apache.org/一、Hbase介绍1.1 Hbase简介 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtab
2017年11月15日 大数据(七)部署spark Spark官网:http://spark.apache.org/一、Spark介绍1.1 Spark是什么? Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目,其诸多核心理念均源自学术研究论文。2013年,Spark加