- 博客(200)
- 资源 (16)
- 问答 (9)
- 收藏
- 关注
原创 关于kafka的相关概念描述
9、分区时来支持物理层面上的并发读写,提高Kafka集群的吞吐量,一个主题包含多个分区,每个分区的消息记录是有序的,一个分区就对应一个代理节点,一个代理节点可管理多个分区。5、producer即生产者,它将记录发送到Kafka集群的指定主题(topic)进行存储,同时生产者通过自定义算法决定消息发送的分区(partition)。2、消息队列具有异步通信机制,即并不是发送者和接收者同时与队列进行数据交互,消息会一直保留在队列中,直到数据被读取。3、消息队列的主要作用有运用解耦、异步处理、数据限流、消息通信。
2023-01-24 10:55:50 272 1
原创 java Swing组件总结
第三个构造方法,是在第二个构造方法的基础上指定滚动条策略。通过图中还可以看出,Swing中有三个组件是继承了AWT的Window类,而不是继承自JComponent类,它们分别是JWindow、JFrame、和JDialog,这三个组件是Swing中的顶级容器,它们都需要依赖本地平台,因此被称为重量级组件。JComboBox组合框组件分为可编辑和不可编辑两种形式,对于不可编辑的组合框,用户只能在现有的选项列表中进行选择,而对于可编辑的组合框,用户既可以在现有的选项中选择,也可以自己输入新的内容。
2022-10-09 23:17:25 2742
原创 java AWT绘图总结
在java.awt包中专门提供了一个Graphics类,它相当于一个抽象的画笔,其中提供了各种绘制图形的方法,使用Graphics类的方法就可以完成在组件上绘制图形。在AWT中,Color类代表颜色,其中定义了许多代表各种颜色的常量,比如Color.RED,Color.BLUE等,这些常量都是Color类型的,可以直接作为参数传递给setColor()方法。Font的构造方法中接收三个参数,第一个是String类型,表示字体名称,如“宋体”、“微软雅黑”等,第二个参数是int类型,表示字体的。
2022-10-09 22:41:21 862
原创 java AWT事件处理及常用事件
接着通过addWindowListener()方法为事件源注册事件监听器对象,当事件源上发生事件时,便会触发事件监听器对象,由事件监听器调用相应的方法来处理相应的事件。针对这样的问题,JDK提供了一些适配器类,它们是监听器接口的默认实现类,这些实现类中实现了接口的所有方法,但方法中没有任何代码,程序可以通过继承适配器类来达到实现监听器接口的目的。可以通过继承适配器类对事件源对象实现了监听,但在实际开发中,为了代码的简洁,经常通过匿名内部类来创建事件的监听器对象,针对所发生的事件进行处理。
2022-10-09 22:35:40 889
原创 java AWT布局管理器总结
GUI全称是Graphical User Interface,即图形用户界面。Java中针对GUI设计提供了丰富的类库,这些类分别位于java.awt和javax.swing包中,简称为AWT和Swing。AWT是用于创建图形用户界面的一个工具包,它提供了一系列用于实现图形界面的组件,如窗口、按钮、文本框、对话框等。在JDK中针对每个组件都提供了对应的Java类,这些类都位于java.awt包中,接下来通过一个图例来描述这些类的继承关系,如图所示。
2022-10-09 21:58:51 1014
原创 分类任务的一些现实思考
1、垃圾短信检测思考2、图像识别思考3、手写数字识别思考4、股票涨跌预测思考5、分类预测实现过程思考6、实现的具体方法7、区分回归任务和分类任务
2022-06-09 16:47:31 412
原创 回归问题的求解以及梯度下降法
问题:面积100平米售价120万是否值得投资?1、确定x、y间的定量关系y=f(x)这一步是核心,有了这个定量关系,才能进一步去预测价格,然后进一步作出判读2、根据关系预测合理价格3、做出判断如图,把对应的数进行可视化,然后通过线性模型y=ax+b去拟合这些点,对应了回归分析的方法。原因:线性模型最基础最简单,而且点的分布接近于线性分布的根据模型y=ax+b,那么就可以把整个问题转化成求解合理的a和b的过程。若当a=0;b=1000000,如图不符合数据点的分布,点到线的距离差距过大,也不符
2022-06-07 23:21:23 267
原创 机器学习的四种学习方法
有正确的label如图:有两个维度x1和x2,这里的1和2代表的是标签,即是分类结果,也就是正确结果,那么机器学习会按照这个结果自动帮你分界限,即无正确的label例如在个二维坐标内,可能只知道每个点的坐标其余的什么也不知道,即是没有包含正确结果的那么机器就会有很多种的分法,例如趋于监督学习和无监督学习之间有部分有正确结果,其他的没有的,即含少量正确结果,那么根据无监督学习分法,中间那条线就不再适用,因为有了部分的正确结果,要使其分在同一类里,那么就可能有这两种分类方法。具有奖惩机制机器会根
2022-06-07 12:45:32 2624
原创 朴素贝叶斯详解——从条件概率的引入到朴素贝叶斯的形成再到模型的训练
1、用案例引出条件概率2、条件概率引出贝叶斯3、朴素贝叶斯基本原理4、训练数据
2022-04-26 13:29:28 1754
原创 docker hub以及阿里云中进行镜像的推送
(1)配置阿里云的Docker Hub镜像加速器。可以注册一个阿里云账号并开通容器镜像服务,通过配置向导获取一个加速器地址,也可以使用他人提供加速器地址,将其直接复制/etc/docker/daemon.json文件中进行配置即可。(2)注册阿里云账户,设置Registry登录密码,开通容器镜像服务。(3)访问阿里云Registry。(4)将hello-world镜像打上标签并推送到阿里云Registry。标签格式:Registry域名/命名空间/仓库名称:[标签](5)检查镜像是否推送到阿里
2022-04-12 12:14:35 1392
原创 docker——Ubuntu镜像操作和apache web容器操作小实训
文章目录Ubuntu镜像操作apache web容器操作Ubuntu镜像操作(1)拉取最新的Ubuntu官方镜像。(2)查看该镜像的详细信息。(3)查看该镜像的构建历史。(4)删除该镜像。apache web容器操作(1)基于httpd镜像以后台方式运行Apache Web容器并对外开放80端口。(2)将该容器重命名为apache-web。(3)查看该容器的详细信息。(4)使用docker exec命令进入该容器查看当前目录。(5)停止并删除该容器。...
2022-04-10 17:42:41 1290
原创 关于SparkStrategies$InMemoryScans$的一个线程问题分析,网上资料比较少,发出来供参考,待解决
就是在写spark数据分析这个栏目的内容,我的内容是从虚拟机中安装idea进行运行程序,但是最后我倒回去运行spark sql时很奇怪地发现以下几个问题Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/spark/sql/execution/SparkStrategiesInMemoryScansInMemoryScansInMemoryScansCaused by: java.lang.ClassNotFound
2022-03-22 09:54:58 2428
原创 图像处理(1)灰度直方图实验
直方图的基础:一、定义二、特征三、形成灰度直方图实验以空间位置(x,y)为自变量的二维函数f(x,y)每张图片都是不同灰度级形成的图像,直方图则统计了每一个灰度级所出现的次数。一幅图像具有特定的唯一的直方图。一个直方图可对应多幅图像。
2022-02-21 17:09:57 3397
原创 Spark Streaming整合Kafka实现词频统计
pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.or.
2022-02-09 14:16:38 2007
原创 网站热词排序项目
创建MySQL表来存放数据。pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/
2022-02-09 10:50:02 175
原创 Spark Streaming的核心DStream案例
1、transform()方法2、updateStateByKey()方法3、window()方法4、reduceByKeyAndWindow()方法5、SaveAsTextFilesTest()方法
2022-02-09 01:14:46 412
原创 分享一个免费的MP4转gif网站
若写博客需要把视频转成gif放到文章里,可以用这个功能https://www.aconvert.com/cn/video/mp4-to-gif/
2022-02-08 11:40:52 973
原创 Kafka Streams开发单词计数应用
pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.or.
2022-02-08 11:37:25 1148
原创 kafka集群的部署
1、kafka.apache.org网址中下载所需的kafka包2、修改配置文件server.properties3、修改环境变量4、分发到各节点5、开启zookeeper集群6、开启kafka集群
2022-02-07 15:50:43 1264
原创 spark sql操作数据
1、创建Dataset2、实现反射机制推断schema3、编程方式定义Schema4、spark操作mysql数据库5、spark操作Hive数据出现bug1bug2mysql表的创建、插入等操作hive1、创建表2、设置personRDD的Schema3、创建Row对象,每一个Row对象都是rowRDD的一行4、建立rowRDD与Schema对应关系,创建DataFrame5、注册临时表6、将数据插入Hive表7、查询表数据
2022-02-07 01:05:36 1948
转载 Spark :【error】System memory 259522560 must be at least 471859200
https://www.cnblogs.com/drl-blogs/p/11086826.html
2022-02-06 12:23:56 525
转载 【Linux报错】VM虚拟机的CentOS7系统启动时报Generating /run/initramfs/rdsosreport.txt
https://www.cnblogs.com/yangzp/p/14480945.html
2022-02-06 10:26:29 874
原创 多元线性回归的探索
1、分析二变量的关系2、多元线性回归3、显著交互项的多元线性回归(汽车数据集)数据使用的依然是state.x77数据集为例,探究一个州的犯罪率和其他因素的关系,包括人口、文盲率、平均收入和结霜天数(温度在冰点一下的平均天数)。交互项的多元线性回归主要用mtcars数据中的汽车数据,对汽车重量和马力作为预测变量,并包含交互项来拟合回归模型。其中,hp汽车功率,wt汽车重量。
2022-02-05 16:53:49 1807
原创 spark DataFrame操作
先创建测试数据:在hdfs中创建spark文件夹,再将本地文件上传过去[root@hadoop01 data]# hdfs dfs -mkdir /spark[root@hadoop01 data]# hdfs dfs -put /export/data/person.txt /spark在读取时会出现两个bug,解决如下:1、需要将hive中conf目录的配置文件hive-site.xml传到spark的conf目录中2、mysql作为元数据数据库,需要在spark-shell启动时添加驱
2022-02-02 23:06:42 1249
原创 sparkRDD算子数据处理实践
RDD包括了两种算子的操作,一种为Transformation,一种为Action。Transformation算子是一种过程,记载了数据处理的逻辑操作,不会马上返回结果给你,就像是项目业务分析的框架搭建。Action算子就是一个触发算子,Transformation所有的逻辑记录就为等待Action的指令。Transformation:map() filter() union() distinct()等Action:collect() count() foreach()
2022-02-02 14:09:01 1760
原创 spark-shell使用
文章目录使用SparkPi提交任务bug(待解决):spark-shell进行词频统计使用SparkPi提交任务先开启spark集群[root@hadoop01 bin]# ./spark-submit --class org.apache.spark.examples.SparkPi /--master spark://hadoop01:7077 /--executor-memory 1G /--total-executor-cores 1 examples/jars/spark-exampl
2022-01-30 00:32:12 1047
原创 简单线性回归和多项式回归
所用数据集women提供了15个年龄在30~39岁间女性的身高和体重信息,想通过身高预测体重。简单线性回归结果数据分析:回归系数(3.45)显著不为0(p<0.001),表明身高每增高1英寸,体重将预期增加3.45英镑。R平方项(0.991)表明模型可以解释体重99.1%的方差,它也是实际和预测值之间相关系数的平方。残差标准误(1.525lbs)则可认为是模型用身高预测体重的平均误差。之后进行输出了真实值、预测值和残差值。显然残差值最大的在身高最矮和最高的地方出现,表明可以用含一个弯
2022-01-28 23:40:11 1822
原创 回归的认识以及OLS回归
回归分析是统计学的核心,其实是一个广义的概念,通常指那些用一个或多个预测变量(自变量或解释变量)来预测响应变量(因变量、校标变量或结果变量)的方法。回归分析可以用来挑选与响应变量相关的解释变量,可以描述两者的关系,也可以生成等式,通过解释变量来预测响应变量。回归分析可以解释的部分问题,举例:预测人在跑步机上锻炼时消耗的卡路里数。其响应变量就是消耗的卡路里数,预测变量可以很多,比如锻炼时间、目标心率的时间比、平均速度、年龄、性别和身体质量指数(BMI)。从理论上来说,回归分析可以帮助解释如下问题:
2022-01-28 17:23:39 5438
原创 docker安装测试
文章目录1、首先进行虚拟机contos7安装,并配置好网路,关闭防火墙,在安装过程中没用进行更改时区的需要用timedatectl set-timezone "Asia/Shanghai"命令修改。2、安装必要的包3、更改源库4、如需要可启动Nightly和Test仓库,关闭为disable5、安装Docker CE6、检查并开启测试7、配置开机自启8、配置远程访问9、运行容器1、首先进行虚拟机contos7安装,并配置好网路,关闭防火墙,在安装过程中没用进行更改时区的需要用timedatectl set
2022-01-27 17:05:33 1110
原创 t检验数据分析
研究中常见两组的进行比较。即是一种事物相比另一种,有什么样的变化。如果这个变量是类别型,则可以直接使用相关性分析的方法,那么现在所分析的变量是连续型的组间比较,并假设为正态分布。 数据使用为MASS包的UScrime数据集,包含了1960年美国47个州刑罚制度对犯罪率影响的信息。需要的结果变量为Prob(监禁的概率)、U1(14-24岁年龄段城市男性失业率)和U2(35-39岁年龄段城市男性失业率)。类别型变量So(指示该州
2022-01-25 23:04:28 1366
原创 spark部署测试
spark的基本部署,包括了1、下载并解压spark包,注意要和hadoop版本适配。2、修改配置文件。3、测试服务。4、配置高可用spark。5、测试高可用spark。6、测试hadoop01的单点故障 等的操作
2022-01-24 00:47:18 1461
原创 相关性的显著性检验
数据所用的是R中的state.x77数据集,提供了美国50个州在1977年的人口、收入、文盲率、预期寿命、谋杀率和高中毕业率数据。实验操作:1、计算协方差和方差2、计算偏相关系数3、相关性的显著性检验(包括了检验预期寿命和谋杀率的Pearson相关系数为0的假设、相关矩阵的显著性检验)> #计算协方差和方差> states <- state.x77[,1:6]> cov(states) Population Income Il
2022-01-19 07:30:00 2062
hadoop大数据生态圈工具配置与应用.pdf
2021-12-09
线性回归拟合测试数据ex0.zip
2021-09-09
贝叶斯分类器和交叉法运用实践所需数据email.zip
2021-09-03
lenses and play.zip
2021-08-29
elect and swimming.zip
2021-08-27
tesDigits and trainingDigits.zip
2021-08-26
spam.data spark函数操作所需数据
2021-08-15
spark sql在maven中出错了,pom.xml一切正常
2022-03-21
java API中put对hbase添加数据,添加后过几秒scan发现数据自然消失了
2021-10-28
找不到方法initializationError。正在打开测试类
2021-09-30
我当时安装过一次python3.5.6又卸载了,update出错了
2021-08-16
java版本里已经没有这个方法,该换成什么比较好
2021-08-11
ubuntu启动eclipse出现了问题,疑似版本不兼容问题,但不确认
2021-08-09
控制面板出现这两个软件删不掉也无法正常打开
2021-08-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人