- 博客(68)
- 资源 (5)
- 收藏
- 关注
原创 Hadoop-Yarn
思考:1)如何管理集群资源?2)如何给任务合理分配资源?Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台。而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。
2024-04-05 09:00:00 1210
原创 Hadoop-MapReduce
1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2)为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。3)为什么不用 Java 的序列化。
2024-04-05 08:45:00 1174
原创 Hadoop-HDFS
随着数据量越来越大,在一个服务器上存不下所有的数据,那么就分配到更多的服务器管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的使用场景:适合一次写入,多次读出的场景。
2024-04-05 08:30:00 1530
原创 大数据概论
相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。7、房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。经典案例,纸尿布+啤酒。
2024-04-05 08:00:00 364
原创 Hadoop-入门
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决:海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。HDFS架构概述1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
2024-04-05 00:18:16 1475
原创 RabbitMQ高级篇
每个RabbitTemplate只能配置一个ReturnCallback,因此需要在项目加载时配置:@Slf4j@Override// 获取RabbitTemplate// 设置ReturnCallback// 投递失败,记录日志log.info("消息发送失败,应答码{},原因{},交换机{},路由键{},消息{}",// 如果有业务需要,可以重发消息});ConfirmCallback可以在发送消息时指定,因为每个业务处理confirm成功或失败的逻辑不一定相同。
2024-02-05 10:48:10 1438
原创 多级缓存
传统的缓存策略一般是请求到达Tomcat后,先查询Redis,如果未命中则查询数据库,如图:存在下面的问题:•请求要经过Tomcat处理,Tomcat的性能成为整个系统的瓶颈•Redis缓存失效时,会对数据库产生冲击在多级缓存架构中,Nginx内部需要编写本地缓存查询、Redis查询、Tomcat查询的业务逻辑,因此这样的nginx服务不再是一个反向代理服务器,而是一个编写业务的Web服务器了。
2024-01-21 22:36:18 1245
原创 分布式缓存
哨兵作用主要是故障转移-设置新的master某个哨兵节点停止,不会影响主从关系,整体哨兵服务仍能正常运行某个哨兵节点停止再运行,仍能正常加入到哨兵中。
2024-01-21 22:09:11 953
原创 Dubbo
分布式系统是若干独立计算机的集合,这些计算机对于用户来说就像单个相关系统。分布式系统(distributed system)是建立在网络之上的软件系统。随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进。Apache Dubbo (incubating) |ˈdʌbəʊ| 是一款高性能、轻量级的开源Java RPC框架。面向接口的远程方法调用智能容错和负载均衡服务自动注册和发现。
2023-08-16 01:02:09 199
原创 ZooKeeper
Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。Zookeeper工作机制Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。
2023-08-03 00:28:41 1386
原创 ClickHouse进阶
普通视图不保存数据,保存的仅仅是查询语句,查询的时候还是从原表读取数据,可以将普通视图理解为是个子查询。物化视图则是把查询的结果根据相应的引擎存入到了磁盘或内存中,对数据重新进行了组织,你可以理解物化视图是完全的一张新表.MySQL 的用户群体很大,为了能够增强数据的实时性,很多解决方案会利用 binlog 将数据写入到 ClickHouse。为了能够监听 binlog 事件,我们需要用到类似 canal 这样的第三方中间件,这无疑增加了系统的复杂度。
2023-07-16 18:07:36 2144
原创 ClickHouse
写入后的某个时刻(大概 10-15 分钟后),ClickHouse 会自动执行合并操作(等不及也可以手动通过 optimize 执行),把临时分区的数据,合并到已有分区中。order by 是 MergeTree 中唯一一个必填项,甚至比 primary key 还重要,因为当用户不设置主键的情况,很多处理会依照 order by 的字段进行处理(比如后面会讲的去重和汇总)。ClickHouse 中的主键,和其他数据库不太一样,它只提供了数据的一级索引,但是却不是唯一约束。
2023-07-16 17:40:12 937
原创 Mysql入门
持久化保存数据。MySQL是一个开放源代码的关系型数据库管理系统 ,由瑞典MySQL AB(创始人Michael Widenius)公司1995年开发,迅速成为开源数据库的 No.1MySQL是一种关联数据库管理系统,将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL是开源的,不需要支付额外的费用。MySQL是可以定制的,采用了 GPL(GNU General Public License) 协议,可以修改源码来开发自己的MySQL系统。
2023-04-23 21:37:48 1033
原创 Spring MVC
一、概念SpringMVC是Spring家族中的一个MVC框架,专门用来做web开发,底层是servlet。二、回顾Servlet1.实现一个Servlet,重写doGet和doPost等方法public class HelloServlet extends HttpServlet { @Override protected void doGet(HttpServletRequest req, HttpServletResponse resp) throws Ser..
2020-08-20 00:50:08 54
apache-tomcat-8.0.26.exe.7z
2020-06-07
maven-3.5.0压缩包
2018-03-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人