自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

BigCabbageFy的博客

无

原创目标检测 YOLOv5网络v6 0版本总结

YOLOv5s_5.xYOLOv5s_6.x与YOLOv5_5.x相比较，YOLOv5_6.x网络结构更加精简：从结构图可以看出网络分为输入端、Backbone、Neck、Head输出端四个部分。YOLOv5包含：YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四种版本，下面以YOLOv5s为例**：**数据增强Mosaic将四张图片拼成一张图片Copy paste将部分目标随机粘贴到图片中，前提是数据要有实例分割才可以Random affine随即进行仿射变换，其中包括旋转、缩放、平移和裁剪

2022-06-30 17:46:08 8704 2

原创 numpy task5排序搜索计数及集合操作

排序，搜索和计数排序numpy.sort(a[, axis=-1, kind=‘quicksort’, order=None])；axis：排序沿数组的轴方向；kind：排序的算法（快排，混排，堆排）；order：排序的字段名import numpy as np# np.random.seed()x= np.random.rand(5,5)*10x = np.around(x,2)print(x)print('+++++++++++')y = np.sort(x)pri

2020-10-31 20:26:54 326

原创 numpy Task04数学函数和逻辑函数

数学函数向量化和广播向量化和广播这两个概念是 numpy 内部实现的基础。有了向量化，编写代码时无需使用显式循环。这些循环实际上不能省略，只不过是在内部实现，被代码中的其他结构代替。向量化的应用使得代码更简洁，可读性更强，也可以说使用了向量化方法的代码看上去更“Pythonic”。广播机制描述了 numpy 如何在算术运算期间处理具有不同形状的数组，让较小的数组在较大的数组上“广播”，以便它们具有兼容的形状。并不是所有的维度都要彼此兼容才符合广播机制的要求，但它们必须满足一定的条件。若两个数组的各维

2020-10-28 18:15:54 267 1

原创 numpy Task03

数组操作更改形状numpy.ndarray.shape表示数组的维度，返回一个元组，这个元组的长度就是维度的数目，即 ndim 属性(秩)。import numpy as npx = np.array([1,2,9,4,5,6,7,8])print(x.shape)x.shape = [2,4]print(x)(8,)[[1 2 9 4][5 6 7 8]]numpy.ndarray.flat 将数组转换为一维的迭代器，可以用for访问数组每一个元素。import

2020-10-25 21:52:26 136 1

原创 numpy基础 Task02

副本与视图在 Numpy 中，尤其是在做数组运算或数组操作时，返回结果不是数组的副本就是视图。在 Numpy 中，所有赋值运算不会为数组和数组中的任何元素创建副本。numpy.ndarray.copy() 函数创建一个副本。对副本数据进行修改，不会影响到原始数据，它们物理内存不在同一位置。import numpy as npx = np.array([1,2,3,4,5,6,7,8])y = xy[0] = -1print(x)print('+++++++++++++++

2020-10-23 17:47:56 707

原创 numpy基础 Task01

常量numpy.nan表示空值numpy.inf表示正无穷大numpy.pi表示圆周率numpy.e表示自然常数时间日期和时间增量datetime64在 numpy 中，我们很方便的将字符串转换成时间日期类型 datetime64（datetime 已被 python 包含的日期时间库所占用）。从字符串创建 datetime64 类型时，默认情况下，numpy 会根据字符串自动选择对应的单位。import numpy as npa = n

2020-10-20 20:02:58 168

原创金融风控 Task5 模型融合

1 内容介绍模型融合是比赛后期上分的重要手段，特别是多人组队学习的比赛中，将不同队友的模型进行融合，可能会收获意想不到的效果哦，往往模型相差越大且模型表现都不错的前提下，模型融合后结果会有大幅提升，以下是模型融合的方式。平均：a. 简单平均法b. 加权平均法投票：a. 简单投票法b. 加权投票法综合：a. 排序融合b. log融合stacking:a. 构建多层模型，并利用预测结果再拟合预测。5. blending：a. 选取部分数据预测训练得到预测结果作为新特征，带入剩下的数据

2020-09-27 17:58:10 134

原创金融风控 Task-04 4 建模与调参

1 学习目标学习在金融分控领域常用的机器学习模学习机器学习模型的建模过程与调参流程完成相应学习打卡任务2 内容介绍逻辑回归模型：a. 理解逻辑回归模型；b. 逻辑回归模型的应用；c. 逻辑回归的优缺点；树模型：a. 理解树模型；b. 树模型的应用；c. 树模型的优缺点；集成模型a. 基于bagging思想的集成模型随机森林模型b. 基于boosting思想的集成模XGBoost模型LightGBM模型CatBoost模型模型对比与性能评估：a. 回归模型/树模

2020-09-24 21:12:34 170 1

原创金融风控 Task3-特征工程

学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法内容介绍数据预处理：缺失值的填充时间格式处理对象类型特征转换到数值异常值处理：基于3segama原则基于箱型图数据分箱：固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱特征交互：特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试特征编码：one-hot编码label-encode编

2020-09-21 21:43:52 219

原创金融风控 Task2-数据探索性分析

1 数据总体了解：#导包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings('ignore')1.1 读取数据集并了解数据集大小，原始特征维度train = pd.read_csv('./data/train.csv')testA = pd.read_c

2020-09-18 20:03:59 309

原创金融风控 Task1-赛题分析

1.1 学习目标理解赛题数据和目标，清楚评分体系。1.2 了解赛题赛题概况数据概况预测指标分析赛题1.2.1 赛题概况赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。1.2.2 数据概况

2020-09-15 21:40:19 233

原创基于支持向量机的分类预测

支持向量机线性可分的概念D0和D1是n维欧氏空间中的两个点集（点的集合）。如果存在n维向量w和实数b，使得所有属于D0的点xi都有 wxi+b>0，而对于所有属于D1的点xj则有wxj+b<0。则我们称D0和D1线性可分。线性可分支持向量机线性可分支持向量机就是：以找出线性可分的样本在特征空间中的最大间隔超平面为学习目的的分类模型。拉格朗日乘子法目标函数：minf(x,y) s.t.g(x,y)<=0利用梯度法求得：KKT约束条件将上面拆分开的严格不等式和等式两种情况

2020-08-26 20:53:30 373

原创基于企鹅数据集的决策树实战

#下载需要用到的数据集!wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/6tree/penguins_raw.csvStep1：函数库导入## 基础函数库import numpy as np import pandas as pd## 绘图函数库import matplotlib.pyplot as pltimport seaborn as sns数据描述：Step2：数据读取/载入## 我们利用Pand

2020-08-22 16:11:04 5387 1

原创基于鸢尾花数据集的逻辑回归分类

Step1：库函数导入# 基础函数库import numpy as npimport pandas as pd# 绘图函数库import matplotlib.pyplot as pltimport seaborn as sns# iris数据from sklearn.datasets import load_irisStep2:数据读取/载入data = load_iris() #得到数据iris_target = data.targetiris_features = pd

2020-08-20 17:21:47 1026

原创 leetcode_有效的括号

20. 有效的括号给定一个只包括 ‘(’，’)’，’{’，’}’，’[’，’]’ 的字符串，判断字符串是否有效。有效字符串需满足：左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。算法思路：栈的运用python代码class Solution: def isValid(self, s: str) -> bool: t = [] for i in s: if i == "

2020-08-18 16:54:09 114

原创 Leetcode_字符串相乘

43. 字符串相乘给定两个以字符串形式表示的非负整数 num1 和 num2，返回 num1 和 num2 的乘积，它们的乘积也表示为字符串形式。python 代码class Solution: def multiply(self, num1: str, num2: str) -> str: str_num = "" if num1 == "0" or num2 == "0": return "0" str_list

2020-08-18 16:48:28 129

原创 Leetcode_分治

Google大数据处理的三驾马车：GFS，Bigtable和MapReduceMapReduce主要思想：将原问题递归地分成若干个子问题，直到子问题满足边界条件，停止递归。将子问题逐个击破，将已经解决的子问题合并，最后算法会层层合并得到原问题的答案分治算法的步骤：分：递归地将问题分解为各个子问题治：将这些规模更小的子问题逐个击破合：将已解决的子问题逐层合并，最终得出原问题的解分治法适用的情况原问题的计算复杂度随着问题的规模增加而增加原问题能够被分解成更小的子问题子问题的结构和

2020-08-18 16:41:13 188

原创 Datawhale 零基础入门数据挖掘-Task5 模型融合

5.1 内容介绍简单加权融合:回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting)综合：排序融合(Rank averaging)，log融合stacking/blending:构建多层模型，并利用预测结果再拟合预测。boosting/bagging（在xgboost，Ada...

2020-04-04 19:28:20 223

原创 Datawhale零基础入门数据挖掘-Task4建模调参

4.1 学习目标了解常用的机器学习模型，并掌握机器学习模型的建模与调参流程完成相应学习打卡任务4.2 内容介绍1. 线性回归模型：线性回归对于特征的要求；处理长尾分布；理解线性回归模型；2. 模型性能验证：评价函数与目标函数；交叉验证方法；留一验证方法；针对时间序列问题的验证；绘制学习率曲线；绘制验证曲线；3. 嵌入式特征选择：Lasso回归；Ridge回归；决...

2020-04-01 17:57:44 203

原创 Datawhale零基础入门数据挖掘-Task3特征工程

Datawhale零基础入门数据挖掘-Task3特征工程标签：特征工程3.1 特征工程目标对于特征进行进一步分析，并对于数据进行处理完成对于特征工程的分析，并对于数据进行一些图表或文字总结3.2 内容介绍常见的特征工程包括：1、异常处理：通过箱线图分析删除异常值；BOX-COX转换（处理有偏分布);长尾截断；2、特征归一化/标准化：标准化；归一化；...

2020-03-28 18:40:16 286

原创 Datawhale零基础入门数据挖掘-数据探索性分析1

Datawhale零基础入门分词-数据分析标签：数据分析二手车交易预测注：本博文是在一群大神编写的教程基础上加入了一些自己的想法和注释，对很多关键性名字做出了注解。一来帮助自己加深学习，另一方面可以帮助新人降低门槛。数据探索性分析1. 目标熟悉字段含义，了解数据集利用可视化查看变量与预测值之间存在的关系进行数据处理和特征工程2. 内容2.1 python库数据科...

2020-03-24 20:25:45 724

转载 ssh: connect to host XXX.XXX.X.XX port 22: Connection refused

如果你搜索了好一段时间都没有办法解决这个问题，那么这个解决方案可能是你需要的。提前说明这个答案也是我从网上找的，但是查了好半天时间，从检查防火墙、测试sshd服务、重启虚拟机等各种尝试无果后，突然找到了一个方法，检测出了我的问题虚拟机IP冲突这是原文链接：https://jordanzheng.github.io/how-to-solve-connection-refused-errors-...

2020-01-06 13:04:23 6090

原创 logstash报错问题解决：Logstash stopped processing because of an error: (SystemExit) exit

在启动logstash过程中出现了无法启动的情况，事情经过是这样的，首先我在第一次启动的过程中是正常的可以正常运行，就像下方代码显示：在输入hello word 后，logstash可以正常输出。[root@hadoop bin]# logstash -e ""Thread.exclusive is deprecated, use Thread::MutexSending Logstash ...

2019-09-05 12:26:13 36201 3

原创模型和代价函数

1.模型的概念：什么是模型，我们可能对模型有些认知，但是又似乎不能一下子说上来，模型就可以简单的理解为是一个函数，监督学习中数据分为训练集和测试集，训练集相当于历史的真实数据，测试集相当于需要预测的数据。而模型就是根据训练集得出的一个函数表达式，将这个模型带入测试集中就可以预测数据了。2.学习过程（模型的表示）：上图就是一个机器学习的过程首先会将训练集（Training set）带入到机器...

2019-01-14 13:21:12 711

原创 spark编程实战(四) —— 词频统计（WordCount）和 Top K

最近正在看《Spark大数据处理：技术、应用与性能优化》这本书，然后对于最后一章的编程实战比较感兴趣。但是上面写的算法个人觉得还不是很简洁，无法体现出scala的优点，所以稍作了一些修改，仅供参考。Top K算法有两步，一是统计词频，二是找出词频最高的前K个词。1.实例描述假设取Top 1，则有如下输入和输出。输入：Hello World Bye WorldHello Hadoop B...

2019-01-08 20:23:49 2350

原创 spark编程实战(三) —— CountOnce

最近正在看《Spark大数据处理：技术、应用与性能优化》这本书，然后对于最后一章的编程实战比较感兴趣。但是上面写的算法个人觉得还不是很简洁，无法体现出scala的优点，所以稍作了一些修改，仅供参考。假设HDFS只存储一个标号为ID的Block，每份数据保存2个备份，这样就有2个机器存储了相同的数据。其中ID是小于10亿的整数。若有一个数据块丢失，则需要找到哪个是丢失的数据块。在某个时间...

2019-01-08 20:23:14 318

原创 spark编程实战(二) —— 中位数

最近正在看《Spark大数据处理：技术、应用与性能优化》这本书，然后对于最后一章的编程实战比较感兴趣。但是上面写的算法个人觉得还不是很简洁，无法体现出scala的优点，所以稍作了一些修改，仅供参考。设计思路海量数据求中位数有很多解决方案。假设海量数据已经预先排序本例的解决方案为：将整个数据空间划分为K个桶。第一轮，在mapPartition阶段先将每个分区内的数据划分为K个桶，统计桶中...

2019-01-07 21:35:10 2175

原创 spark编程实战(一) —— Top K

最近正在看《Spark大数据处理：技术、应用与性能优化》这本书，然后对于最后一章的编程实战比较感兴趣。但是上面写的算法个人觉得还不是很简洁，无法体现出scala的优点，所以稍作了一些修改，仅供参考。设计思路首先统计WordCount的词频，将数据转化为（词，词频）的数据对，第二个阶段采用分治的思想，求出RDD每个分区的Top K，最后将每个分区的Top K结果合并以产生新的集合，在集合中统...

2019-01-07 21:00:19 745

原创 CentOS7环境下安装git新版本并创建版本库

首先需要创建一个github账户，这个就不多做解释。接着是在CentOS7上安装git部分。1.查看yum源仓库中Git信息，有些可能是1.7版本的，有些可能是1.8版本的，我在这里将会用比较新的版本。yum info git2.安装依赖库，这个是我网上找的yum install curl-devel expat-devel gettext-devel openssl-devel zli...

2019-01-07 13:40:44 523

转载 Spark中map和flatMap的区别详解

https://www.iwwenbo.com/spark-map-flatmap/ 讲解很透彻，留作笔记

2019-01-04 15:20:07 702

原创 java集合框架

本章内容java集合框架collection接口APIiterator迭代器接口collection子接口之一：Set接口HashSet linkedHashSet TreeSetcollection子接口之二：List接口ArrayList LinkedList VectorMap子接口HashMap TreeMap Hashtable存储对象可以考虑：1.数组；2.集...

2018-12-25 14:15:31 173

原创 IDEA下使用Maven搭建spark开发环境WordCount示例

一、创建Maven项目二、添加相关依赖（配置pom.xml文件）<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2018-12-03 18:07:07 700

原创用java API连接HBase

创建maven项目1、在resource包下导入 core-site.xml、hbase-site.xml、hdfs-site.xml、log4j.properties 文件2、在pom.xml文件中添加依赖： &lt;dependency&gt; &lt;groupId&gt;org.apache.hbase&lt;/groupId&gt; &lt

2018-12-01 20:00:53 464

转载【转】Java IO流学习总结

感谢 http://www.cnblogs.com/oubo/archive/2012/01/06/2394638.html#!comments 的文章，保存下来留作学习！！Java流操作有关的类或接口：Java流类图结构：流的概念和作用—— 流是一组有顺序的，有起点和终点的字节集合，是对数据传输的总称或抽象。即数据在两设备间的传输称为流。—— 流的本质是数据传输，根据数据传输特性将...

2018-11-24 19:03:17 161

原创大数据笔记 3--MapReduce工作流程

详细步骤：1、客户端会提交相应的切片、jar包、配置文件信息到Yarn上，Yarn上的AppMater会为mapreduce申请相应的资源；2、AppMater根据相关信息计算给mapreduce程序分配出几个MapTask资源。3、 MapTask会利用InputFormat中的recorderReader将待处理的文本分割成<k,v>键值对的形式，然后根据用户自定义的Map...

2018-09-28 18:19:46 298

原创大数据笔记 2--hdfs读数据流程

注：以下简化名称所对应的全称：NN == NameNode；IO == hdfsFileinputStream；DN == DataNode；DN1 == DataNode1；DN2 == DataNode2；DN3 == DataNode3；详细流程：1、客户端向NN发送一个带有相关文件的路径请求，例如hdfs://input/xx.txt这样的一个读文件请求；2、NN会在元...

2018-09-27 20:24:35 283

原创大数据笔记 1--hadoop中的hdfs写数据流程详解

上图是一个简版的流程图，图画的不标准，但能说明问题就OK，下面是根据上图描述的写数据流程，如有不对的地方请指教。注：以下简化名称所对应的全称：NN == NameNode；IO == hdfsFileoutputStream；DN == DataNode；DN1 == DataNode1；DN2 == DataNode2；DN3 == DataNode3；详细流程1、当需要向H...

2018-09-27 19:39:54 359

原创 java算法题：只出现一次的数字

题目：给定一个非空整数数组，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。说明：你的算法应该具有线性时间复杂度。你可以不使用额外空间来实现吗？示例 1: 输入: [2,2,1] 输出: 1 示例 2: 输入: [4,1,2,1,2] 输出: 4代码：class Solution { public int singleNu...

2018-09-06 20:41:39 406

原创 java算法题：存在重复

题目：给定一个整数数组，判断是否存在重复元素。如果任何值在数组中出现至少两次，函数返回 true。如果数组中每个元素都不相同，则返回 false。示例 1: 输入: [1,2,3,1] 输出: true 示例 2: 输入: [1,2,3,4] 输出: false 示例 3: 输入: [1,1,1,3,3,4,3,2,4,2] 输出: true代码：class S...

2018-09-06 20:33:39 532

原创 java算法题：买卖股票的最佳时机 II

题目：给定一个数组，它的第 i 个元素是一支给定股票第 i 天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易（多次买卖一支股票）。注意：你不能同时参与多笔交易（你必须在再次购买前出售掉之前的股票）。示例 1: 输入: [7,1,5,3,6,4] 输出: 7 解释: 在第 2 天（股票价格 = 1）的时候买入，在第 3 天（股票价格 = 5）的时候...

2018-09-05 20:19:58 1451

电机故障数据集.rar

电机故障数据集，振动数据和电流数据，故障类别：转子断条，气隙偏心，轴承磨损，轴承座损坏，匝道短路，轴承外圈，内圈，滚动体故障。 0,正常,健康正常 1,SC2T,2匝短路 2,SC4T,2匝短路 3,SC8T,2匝短路 4,AE,气隙偏心 5,RBB,转子断条 6,BCB,轴承座坏了 7,BAF,轴承磨损轴承故障诊断数据10000*1025_1hp.csv 轴承故障诊断数据10000*1025_2hp.csv 轴承故障诊断数据10000*1025_3hp.csv 电机故障诊断振动数据8000*1025.csv 论文名称放在这里有需要的自己去找笼型异步电动机多故障智能诊断及分离方法的研究_王跃龙

2023-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除