自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

大数据行走论

浪客剑心。

原创 Cursor：GPT-4 免费的强大代码编辑器

过去的一周，真是疯狂的一周。，拥有了多模态能力，不仅能和GPT3一样进行文字对话，还能读懂图片；然后斯坦福大学发布 Alpaca 7 B，性能匹敌 GPT-3.5，关键是训练成本不到 600 美元，意味着我们可以更低成本使用这种模型。接着微软王炸发布，“你是一个成熟的office办公软件了，应该学会自己写内容了”，Copilot 应用了最新的 GPT-4 技术，能够帮助用户在 Word、Excel、PowerPoint、Outlook 和 Teams 等软件中进行写作、编辑、总结、创作、演示文稿等工作。

2023-03-31 09:54:22 3501

转载 Centos 下安装MySQL5.7

下载地址：https://dev.mysql.com/downloads/mysql/5.7.html#downloads解压tar -xvf mysql-5.7.26-linux-glibc2.12-x86_64.tar 再移动并重命名一下mv mysql-5.7.26-linux-glibc2.12-x86_64 /usr/local/mysql创建mysql用户组和用户并修改权限 groupadd mysql useradd -r -g mys...

2021-06-25 09:44:19 148

转载 Kafka 高性能吞吐揭秘

Kafka 高性能吞吐揭秘A high-throughput distributed messaging system.--Apache KafkaKafka作为时下最流行的开源消息系统，被广泛地应用在数据缓冲、异步通信、汇集日志、系统解耦等方面。相比较于RocketMQ等其他常见消息系统，Kafka在保障了大部分功能特性的同时，还提供了超一流的读写性能。本文将针对Kafka性能方面...

2019-06-10 09:51:34 218

转载 HBase连接池 -- HTablePool被Deprecated之后

转载来源：http://blog.csdn.net/u010967382/article/details/380468211.连接HTable是HBase的client，负责从meta表中找到目标数据所在的RegionServers，当定位到目标RegionServers后，client直接和RegionServers交互，而不比再经过master。HTable实例并不是线程安全的。当需要创建HT...

2018-05-02 15:22:50 551

原创 Structured-Streaming+kafka流式处理

Maven项目配置spark Structured Streaming+kafka 结构化数据流中的关键思想是将实时数据流视为一个不断附加的表。这导致新的流处理模型与批处理模型非常相似。您将把流式计算表示为标准批量查询，就像在静态表上一样，Spark将它作为无界输入表上的增量查询来运行。让我们更详细地了解这个模型。基本概念将输入数据流视为“输入表”。每个到达流中的数据项就像一个新的行被添加到输入表...

2018-04-20 14:39:56 1818

转载 sparksql性能调优

sparksql性能调优性能优化参数在spark中，Spark SQL性能调优只要是通过下面的一些选项进行优化的：1 spark.sql.codegen 默认值为false，当它设置为true时，Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢？它可以提高大型查询的性能，但是如果进行小规模的查询的时候反而会变慢

2017-11-20 10:22:08 3063

原创深挖spark2.0

大数据通常自上而下分为大数据产品、数据治理/作业生命周期、作业管理/作业流、分布式计算、分布式存储、分布式调度、硬件/机房七层。本次演讲的重点在于分布式计算层。在以时间、数据量的坐标抽上列出目前引擎大致擅长处理数据的坐标，应该还需要加上数据复杂度、成本等维度，才能更好的体现侧重点，这里不列出。没有哪个软件能解决所有的问题，能解决问题也是在一个范围内，即使是spark、flink等。目前存在

2017-11-13 10:26:24 262

原创 HBase 和 Cassandra的使用对比

HBase vs Cassandra HBaseCassandra语言JavaJava出发点BigTableBigTable and DynamoLicenseApacheApacheProtocolHTTP/REST (also Thrift)Custom, binary

2017-11-13 10:06:07 1881 1

原创 Cassandra集群的搭建

1. 基础配置与安装1.1 基础环境node110.202.20.191 (seed1)node210.202.20.192node310.202.20.193node410.202.20.194node510.202.20.195node610.202.20.196node710.202.20.197node81

2017-11-10 17:29:03 492

转载 cassandra-cqlsh基本操作

Cassandra CQL操作基础CQL是Cassandra Query Language的缩写，目前作为Cassandra默认并且主要的交互接口。CQL和SQL比较类似，主要的区别是Cassandra不支持join或子查询。在执行操作之前，首先打开命令行进入Cassandra安装目录下的bin文件夹，执行cqlsh，如果不成功可能你的cassandra没有开启，要先在bin目录

2017-11-10 17:27:23 775

转载 Json字符串与对象转换

加油！！！！！

2017-11-09 11:41:25 207

原创 Thingsboard

支持原创感谢！！！！

2017-11-09 11:39:46 6385 1

原创 Java IO流学习总结

Java IO流学习总结 Java流操作有关的类或接口：Java流类图结构：流的概念和作用流是一组有顺序的，有起点和终点的字节集合，是对数据传输的总称或抽象。即数据在两设备间的传输称为流，流的本质是数据传输，根据数据传输特性将流抽象为各种类，方便更直观的进行数据操作。 IO流的分类根据处理数据类型的不同分为：字符流和字节流根据数据流向不同分为：输入流和输出流字符流和字节流字符流的由来...

2017-09-14 08:31:31 373

转载 Azkaban的安装和使用

什么是azkabanAzkaban是一款基于Java编写的任务调度系统任务调度任务调度:有四个任务脚A、B、C、D，其中任务A与任务B可以并行运行，然后任务C依赖任务A和任务B的运行结果，任务D依赖任务C的运行结果，此时整个过程可以等效为一个有向无环图，而给所有的任务运行定一个运行规则就可以理解为任务调度AzKaban组成MySQL数据库azkaban-se

2017-09-04 14:18:11 473

转载 Azkaban的使用

请大神指点！！！

2017-09-04 14:14:48 412

转载 kafka清理过期数据

Kafka将数据持久化到了硬盘上，允许你配置一定的策略对数据清理，清理的策略有两个，删除和压缩。数据清理的方式删除log.cleanup.policy=delete启用删除策略直接删除，删除后的消息不可恢复。可配置以下两个策略：清理超过指定时间清理： log.retention.hours=16超过指定大小后，删除旧的消息：log.retention.

2017-09-04 14:10:35 1353

原创 Kafka的定时消息/任务服务

基于kafka的定时消息/任务服务前言定时任务,在很多业务场景中都会存在.一般,我们简单解决的话,就是使用数据库来存储数据供服务端周期获取执行.显然,对于数据库处理,如果多线程或者多机器处理,就会存在扩展的问题.比如:现在一个任务记录到时间了需要执行,同时被多个executor抓取来执行,就会浪费不必要的资源;并且,这种场景还非常常见. 因此, 需要额外状态处理,或者其他分库分

2017-09-04 14:04:46 21186

原创 Kafka定时清除过期数据

Kafka将数据持久化到了硬盘上，允许你配置一定的策略对数据清理，清理的策略有两个，删除和压缩。数据清理的方式删除 log.cleanup.policy=delete启用删除策略直接删除，删除后的消息不可恢复。可配置以下两个策略：清理超过指定时间清理： log.retention.hours=16 超过指定大小后，删除旧的消息： log.retention.bytes=10...

2017-09-04 14:04:42 9607 1

原创 Kafka文件存储机制

Kafka是什么Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。1.前言一个商业化消息队列的性能好坏，其文件存储机制设计是衡量一个消息队列服务技术水平和最关键指标...

2017-09-04 14:02:01 250

转载 Hive的API操作

基于hadoop的Hive数据仓库JavaAPI简单调用的实例，关于Hive的简介在此不赘述。hive提供了三种用户接口：CLI，JDBC/ODBC和 WebUICLI，即Shell命令行JDBC/ODBC 是 Hive 的Java，与使用传统数据库JDBC的方式类似WebGUI是通过浏览器访问 Hive本文主要介绍的就是第二种用户接口，直接进入正题。1、Hive 安装：

2017-08-29 17:31:08 1229

转载 Hive的配置项详解

大家多多指教！！！

2017-08-29 17:27:34 363

转载 Hive的架构，设计，安装

请继续关注！！

2017-08-28 10:13:33 347

原创 MapReduce的工作原理

MapReduce工作原理图文详解前言：前段时间我们云计算团队一起学习了hadoop相关的知识，大家都积极地做了、学了很多东西，收获颇丰。可是开学后，大家都忙各自的事情，云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下，我们云计算团队重振旗鼓了，希望大伙仍高举“云在手，跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧，也希望有更多优秀的文章出炉。汤帅，亮

2017-08-28 10:12:15 286

原创 MapReduce的优化

仅供参考，具体看自己！！

2017-08-28 10:10:22 322

转载 Java位运算

问题一： JAVA中&&和&、||和|（短路与和逻辑与、短路或和逻辑或）的区别？首先名称是不同的＆＆逻辑与　　｜｜逻辑或　　它们都是逻辑运算符＆　按位与　　｜　按位或　　它们都是位运算符ｉｆ（ａ＝＝１＆＆ｂ＝＝２）　这是说既要满足ａ＝１也要满足ｂ＝２ｉｆ（ａ＝＝１｜｜ｂ＝＝２）　这是说或者满足ａ＝１或者要满足ｂ＝２而ａ＆ｂ或者ａ｜ｂ则是二进制的与或运

2017-08-28 10:00:14 270

原创 Kafka面试相关问题

2017-08-25 16:58:16 2438

转载 Kafka总结

原文链接：http://dataguild.org/?p=7290参考链接：http://www.cnblogs.com/cyfonly/p/5954614.htmlKafka提供的Pub/Sub就是典型的异步消息交换，用户可以为服务器日志或者物联网设备创建不同主题（Topic），之后数据可以源源不断地发送到各个主题，后端数据仓库、流式分析或者全文检索等对接特定主题，服务器

2017-08-25 16:43:34 262

原创 Kafka面试相关问题（2）

2017-08-25 16:43:33 772

原创 Kafka常见面试相关问题

Kafka相关问题，请参照！！！

2017-08-25 16:42:12 2838

原创 Shell简单笔记

这只是部分，持续更新后续！！！

2017-08-24 20:21:54 238

原创 Spark面试问题

欢迎提出宝贵意见！！！

2017-08-24 20:17:22 1344

原创 akka的描述

请做出你们的评论！！！！

2017-08-24 20:09:30 151

原创 Spark部分性能优化（spark-core）

够用不？

2017-08-24 09:08:59 139

转载 spark算法

Spark中常用的算法：3.2.1 分类算法分类算法属于监督式学习，使用类标签已知的样本建立一个分类函数或分类模型，应用分类模型，能把数据库中的类标签未知的数据进行归类。分类在数据挖掘中是一项重要的任务，目前在商业上应用最多，常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等。MLlib 目前支持分类算法有：逻辑回归、支持向量机、朴素贝叶斯和决策树

2017-08-22 15:44:15 574

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除