自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (5)
  • 收藏
  • 关注

原创 csdn怎么查看点赞过的文章

pc端找不到的,在手机上,我的–个人主页–动态,这里有点赞过的文章。

2021-06-18 16:33:39 2699 4

原创 Spark项目实践--基于 TMDB 数据集的电影数据分析

基于 TMDB 数据集的电影数据分析一、环境搭建二、数据预处理三、使用 Spark 将数据转为 DataFrame四、使用 Spark 进行数据分析并可视化1.单独分析2.字段之间的关系分析五,结语一、环境搭建从假设裸机,环境搭建开始,具体环境搭建操作大体流程如下,具体详细流程点击查看另一篇博客:spark环境搭建大体流程:(1)安装Linux操作系统:比如可以安装Ubuntu 16.04(2)安装Hadoop:需要在Linux系统上安装Hadoop(3)安装Spark:需要在Linux系统上安

2021-06-18 01:05:13 4888 1

原创 BP神经网络模型----第二篇(感知器网络模型)

感知器网络感知器网络的简单认识感知器神经元模型感知器的输入和输出单神经元感知器与门逻辑感知器或门逻辑感知器感知器学习规则感知器网络的简单认识上一篇介绍了人工神经网络背景,神经元,神经元模型以及神经网络的最初模型–MP模型的概念,这就有了一个初步的对神经网络的了解。那么接下来一起来看一下什么是感知器网络。神经网络根据层次有:单层神经网络,双层神经网络和多层神经网络之分。上一篇说的MP模型与今天说的感知器网络都属于单层神经网络。通过介绍我们已经知道了MP模型的一个最大的缺点就是该模型的权值是不可调节

2021-05-16 00:02:11 723

原创 spark之RDD编程初级实践(RDD练习题)

实验目的:1.熟悉spark中RDD基本操作以及键值对操作2.熟悉使用RDD编程解决实际问题(RDD)

2021-05-01 16:58:50 2680

原创 环境搭建(Spark)

Spark环境搭建Linux环境搭建Hadoop环境搭建Spark环境搭建实现与Pycharm对接Linux环境搭建安装VMWare在VMWare中使用镜像创建Ubuntu,Ubuntu用户名使用自己的名字缩写下图用户名就是Ubuntu的名称,可以自己随意改。(考核要求改为自己名字缩写)这里建议2个处理器,2个内核,运行速度快内存建议2G下面默认硬盘建议60G(我一开始20G,后续根据实验需求,发现20G小了,还得在虚拟机里面改,虽然可以后期改,但比较麻烦,所以这里建议直接

2021-05-01 16:21:21 301

原创 BP神经网络模型---第一篇(M-P模型)

BP神经网络第一篇(M-P模型)BP神经网络背景人工神经网络(简称神经网络)神经元神经元模型M-P模型Hebb规则BP神经网络背景在认识BP神经网络模型前,得先了解一下什么是神经网络。神经网络就是一种运算模型。神经网络是由大量神经元(节点)之间相互连接构成。目前所有的数十种神经网络模型,主要是分为4种:前向型、反馈性、随机型、竞争型。前向型:就是从input开始,一级一级向output传输,最后输出。一直向前传输,网络中各个神经元接受前一级的输入,并输出到下一级。反馈型:就是在input到out

2021-04-23 23:42:43 3301

原创 spark理论体系思维导图(用一张图了解spark)

简述Spark生态的组成及其相关组件的作用。答:spark生态组成的主要组件以及组件的作用分别是:(1)spark core: 它是spark最基础,最核心的功能组件,是一种大数据分布式处理框架,建立在RDD之上,主要面向批处理,spark core负责如内存计算,任务调度,部署模式,故障恢复,存储管理等功能。它不仅实现了MapReduce的map函数和reduce函数及计算模型,还提供更多的其他算子。(2) spark SQL: 该组件用于结构化数据处理,建立在Spark和Hive基础之上的数据仓.

2021-04-23 20:40:56 2105 1

原创 lambda函数和map函数的理解和使用

lambda函数在说lambda函数前,先来想一下平时的在Python中怎么定义和使用函数的,简单的如下:def sum(x): x=x+5 return x print(sum(8))输出结果都晓得:13上面的代码中,def定义一个函数sum是函数名,x是参数,x=x+5是执行语句这些使用lambda函数来表达就是:sum=lambda x : x+5print(sum(8))输入结果也是13在lambda表达式中,sum是函数名,x是参数,

2021-04-15 23:14:27 1644

原创 sort的使用,输入字符串,输出逆排序

知识点:字符串转列表。list的使用去掉列表中的引号,列表元素string转int型。map函数的使用将得到的列表元素反转输出。sort的使用列表元素遍历输出。for循环使用string ="1,7,16,19,21,56"a=string.split(",")print(a)print(" ")b=list(a)print(b)c=map(int,b)print(c)d=list(c)print(d)d.sort(key=int,revers

2021-04-15 18:30:45 326

原创 实现win10系统下pycharm与ubuntu的对接

在学习spark过程中,使用到win系统上的pycharm与ubuntu进行对接,这里记录自己所做的实现对接的流程,其实流程很简单,但是我在这个过程中出错很多,搞得心态都要崩了,觉得有必要记录一下,给出同样错的做个参考。环境:pycharm专业版win10ubuntu14.xpip3 版本10.0.0pyspark3.0.2python默认3.5先说一下大概流程和问题,最后放详细的过程在win10中下载专业版的pycharm打开ubuntu,将默认版本设置为pyt

2021-04-10 22:43:25 2603 4

原创 hadoop和spark的安装,详细步骤

1.环境配置Hadoop安装与安装前的环境配置流程•如果你安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户。在下载好的ubuntu中需要创建hadoop用户,并为其设置密码以及所需权限,为后续的实验方便:sudo useradd -m hadoop -s /bin/bashsudo passwd hadoopsudo adduser hadoop sudo在创建成功后注销现在的环境,再次进入虚拟机使用创建的hadoop用户登录开始实验。

2021-03-27 21:56:10 6666

原创 spark之Scala的安装(Linux)

环境:Ubuntu16.4软件版本:jdk1.8、scala 2.13.4scala下载官网:https://www.scala-lang.org/download/在安装scala之前,系统中必须存在jdk1.8版本并配置好java的环境,把jdk的bin目录添加到PATH变量。不确定以前是否下载过jdk的可以使用如下命令进行查看:java -version如果系统之前配置过,就会显示出如下内容:接着正文开始1.通过官网下载好对应的版本,这里我选择的是scala2.13.4.tgz

2021-02-13 13:24:08 299

原创 java实战---图书管理系统

(平时作业在此整理记录,复习的同时用于后续学习使用)运行环境:IDEA;jdk1.8;JDBC5.5;MySQL数据库部分功能效果图:1.登陆:可选择读者或者管理员身份登陆2.读者登陆进去后的界面,公告由管理员操作发布3.管理员后台操作数据库中的内容数据库中共三张表:借阅历史表,图书表,账号密码存放的表本章主要用到核心技术:Swing、JDBC、MySQL、stocker,Thread与图书管理系统相关的详细系统文档,以及代码源码存放在资源中,需要可自行下载,源码带有详细注

2021-01-17 19:15:32 543 1

原创 tabel.intouser don‘t exist

问题描述:这是在java实现对数据库的增删改查时出现过的问题,我的表名字是user,会提示user.intouser don’t exist。问题主要原因:数据库语法有问题问题解决:后经查询,发现是插入语句的代码那部分出错。写的时候忘记空格造成插入语法不对。划线那里是要有空格的,或者在下面的user前空格也行,如果没有空格,就会是连起来的:intouser改过之后再次运行就可以成功添加数据到数据库啦...

2020-12-16 21:22:05 189

原创 决策树的代码实现--使用sklearn进行实现

上一篇说了决策树的理论知识,现在用代码进行决策树的模型训练,使用训练的模型进行预测分类数据集说明:根据特征判断是否有肿瘤,label值分为2和4,2是无,4是有。共700个样本数,11个特征集,部分数据截图如下,可以看到该数据集中有个别数据是杂乱字符,像?这种,不能直接进行训练做分类,要先对这些数据做一个数据处理至于如何处理,在代码得注释中写的很清楚:代码如下:#实现决策树分类,值得注意的是对于数据的处理import numpy as npimport pandas as pdfrom

2020-12-16 21:03:37 1178

原创 java实现数据库的增删改查(有界面版)

在此记录所做的作业,便于后续自己的复习学习效果如下:(当点击按钮时,弹出输入框,输入要添加或者更改的内容之后,可在数据库中查询到添加/更改过的内容)使用的数据库:mysql代码部分:package test5;import javax.swing.*;import java.awt.*;import java.awt.event.ActionEvent;import java.awt.event.ActionListener;import java.sql.*;import java

2020-12-14 10:39:57 10124 2

原创 决策树,信息熵,信息增益计算----机器学习

决策树(decision tree)决策树简单介绍信息量信息熵信息增益决策树简单介绍决策树是一种基于树状结构来做决策的。是一种常见的机器学习方法。主要做分类,也可以做回归。一棵决策树含有一个根结点(样本全集),若干个内部结点和若干个叶结点(最终结论)。简单的一个例子。比如我们相亲的时候,老母亲甩出来一沓照片来让你做选择。这时候我们会问一些问题来做一下筛选,比如对方的年龄,相貌,工作收入,家庭住址等等等,然后最终确定选择两个或三个人去见。这一系列问题和层层的筛选判断就是在做决策,这些问题为“子决策”。

2020-11-18 10:59:02 9539 2

转载 Calendar.get()方法--- WEEK_OF_YEAR 、MONTH

java获取时间日期WEEK_OF_YEAR 一年中的第几周由于西方的一周指的是:星期日-星期六,星期日是一周的第一天,星期六是一周的最后一天,所以,使用 calendar.get(Calendar.WEEK_OF_YEAR) 时应该注意一周的开始应该是哪一天如果一周的开始是星期一,那么可以进行如下操作:Calendar calendar=Calendar.getInstance();calendar.set(2016,9,9); //2016-10-09 这一天

2020-11-13 10:49:41 2682

原创 多分类问题OVR和OVO----机器学习

多分类学习OVO和OVRsklearn实现多分类问题:鸢尾花分类OVO和OVR之前提到的是二分类问题,问题结果是0或1这种明显分为两类的。在现实任务中往往遇到的是多分类问题,有些二分类学习方法可以推广到多分类上使用,但是在更多情况下可以使用拆解法,把一个多分类任务分成多个二分类任务解决。多分类问题的解决思路就是使用拆解法。先对问题进行拆分,再为拆分出来的每一个二分类任务训练一个二分类学习器。最后在进行预测的时候,把这些二分类学习器预测结果进行集成来获得多分类问题最终的结果。上述解决思路中最关键的就是

2020-10-31 23:21:58 6644 4

原创 分类问题的模型评价和其在代码中的实现---机器学习

分类模型评价分类模型的模型评价含义的理解在代码中的实现分类模型的模型评价含义的理解像对数几率回归模型这种用于分类问题的模型,它们对测试集数据进行预测而得到的准确率并不能很好地反映模型的性能,为了有效的判断一个预测模型的性能表现,需要结合真实值,计算出精确率,召回率和准确率等指标来衡量。一,要了解查准率和查全率的含义,首先来看一下分类结果的“混淆矩阵”----对于一个二分类问题,根据样例的真实类别和机器学习预测的类别分为TP(真正例),FP(假正例),TN(真反例),FN(假反例)看个例子理解:

2020-10-30 21:27:55 580

原创 对数几率回归原理和代码实现--机器学习

对数几率回归原理代码实现原理之前介绍了代码实现

2020-10-30 10:33:13 3996

原创 多元线性回归原理和代码实现---机器学习

多元线性回归原理代码实现原理多元线性回归是一元线性回归的升级版吧,都是线性模型。线性回归就是试图学到一个线性模型,尽可能的准确的预测出真实值。就是给机器数据集,其中包括x特征值和对应的y值,通过训练得出一个模型,再只拿一些x特征值给它,这个模型给你预测出较为精准的y值。线性回归试图学到的模型是:f(x)=ωxi+bf(x)=\omega x_{i}+bf(x)=ωxi​+b,使得预测值f(x)跟真实值y结果相似。看着眼熟不?其实本质就有点像我们的f(x)=kx+bf(x)=kx+bf(x)=kx+b

2020-10-29 22:40:45 3061 9

原创 简易记事本--java

实现一个简易记事本效果:记事本界面,实现用户编辑内容,文本字体设置,文件保存,文件打开,记事本退出先来看看最后运行的一个结果界面:(代码在最后)分析上图,第一个观察简易记事本的主要构成1.菜单栏2.文本域3.给文本域添加的滚动条第二个考虑窗体布局,明显的使用方位布局–BorderLayout。菜单栏添加到窗体的上方,文本域添加到窗体的中间。第三个考虑使用到的组件:面板JPanel,菜单栏JMenuBar,文本域JTextArea,文本域的滚动条JScrollPane,还有三个菜单JMe

2020-10-24 19:30:50 2111 3

原创 问题--Mongo运行时Pychram卡顿提示内存不足

在爬去哪儿网站的产品数据的时候出现这个问题。当把抓取的数据都存到Mongo表之后,我一打开表就会出现稍微漫长的等待,接着pychram就会提示我IDE内存不足,这个问题以前从来没遇到过,估计是表数据太大。然后就上网查找解决办法,说把pychram的运行内存扩大,我就去找了:1.先把内存使用情况展示出来看一下:打开File —> Appearance —>Windows Options —> 选中show memmory indicator —> OK在右下角就会看到这个(这

2020-10-20 12:31:01 151

原创 计算器的完整实现--JAVA

观察计算器,看它的布局,一点点剖析。首先可以先分为三个大部分布局组件功能实现1.布局第一个布局方面,一个计算器框架如下图:我们可以看三种布局方式:1.方位布局BorderLayout():上下两个大面板,上面板是文本域,下面板是按钮2.流式布局FlowLayout():上面的那个面板再设为流式布局(自左向右,自上而下),一左一右3.表格布局GridLayout(4, 4):4行4列放数字键2.组件观察都用了那些组件,第一个窗体JFrame;第二个容器(面板)JPanel;

2020-10-17 22:11:49 510

原创 梯度下降算法原理以及代码实现---机器学习

梯度下降算法GD1.批量梯度下降算法BGD原理代码实现2.随机梯度下降算法SGD原理代码实现3.小批量梯度下降算法MGD原理代码实现1.批量梯度下降算法BGD原理多元线性回归模型是:f(x^i)=x^iT(XTX)−1XTyf(\hat{x}_i)=\hat{x}_{i}^{T}(X^{T}X)^{-1}X^{T}yf(x^i​)=x^iT​(XTX)−1XTy使用此线性回归模型的条件是XTXX^{T}XXTX必须为满秩矩阵或者正定矩阵。而一般现实任务中往往不是满秩矩阵,比如当X的列数多于行数(即特

2020-10-17 21:09:22 4136 8

原创 岭回归原理以及代码实现--机器学习

岭回归代码实现过拟合与欠拟合了解正则化与岭回归岭回归代码实现过拟合与欠拟合了解在机器学习中模型的泛化能力很重要,泛化能力强的模型(本人理解为该模型对于大部分数据的拟合都能达到较好的效果即为泛化能力强的模型)是好模型。这里面就涉及到欠拟合与过拟合问题。1.欠拟合underfitting:简单来说,就是用简单的模型去拟合复杂的数据,这会导致高Bias(偏差,即模型的期望输出与真实的输出之间的差异)2.过拟合overfitting:用复杂的模型去拟合简单的数据,会导致高Variance(方差,刻画了不同的

2020-10-16 22:52:45 3126 7

原创 多项式回归原理以及代码实现--机器学习

多项式回归多项式回归使用的情况:当因变量y与自变量x为非线性关系时,线性关系不满足拟合状态,找不到合适的曲线拟合,可采用一元多项式回归(如f(x)=θ0+θ1x+θ2x2+θ3x3f(x)=\theta_{0}+\theta_{1}x+\theta_{2}x^{2}+\theta_{3}x^{3}f(x)=θ0​+θ1​x+θ2​x2+θ3​x3),通过增加x的高次项对实测点进行逼近,直到拟合结果满意为止。要说这个多项式回归吧,其实也能看做线性模型的一种。我们把x2x^{2}x2看作第二个特征x2x_{

2020-10-16 20:47:17 4091 2

图书管理系统.rar

java图书管理系统,核心使用:Swing、线程,套接字,mysql。

2021-01-17

鸢尾花卉数据集txt

该数据集是用于机器学习中的多分类问题处理。该数据集一共包含4个特征变量,1个类别变量。共有150个样本,iris是鸢尾植物,这里存储了其萼片和花瓣的长 宽,共4个属性,鸢尾植物分三类。

2020-10-31

pima-indians-diabetes.data.csv

机器学习中在进行分类模型的模型评价时可用到的测试数据。也可用于机器学习中分类模型的训练数据使用。。。。。。。

2020-10-30

watermelon3_0a.csv

西瓜书上的数据。是机器学习中对数几率回归代码所使用的数据,两个特征,十几条数据,只用来做简单的对数几率回归求解和预测。

2020-10-30

混凝土抗压强度数据集

混凝土抗压强度数据集,用于机器学习中多元线性回归模型训练时使用。共一千多条数据,需要的请自取哦

2020-10-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除