自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 python 多进程windows报错 linux不报错 TypeError: cannot pickle ‘_thread.lock‘ object

因为windows创建一个子进程,会拷贝主进程中的所有代码,在linux和mac当中,并不会拷贝你在主进程中执行的代码。解决办法,把cal_task_job函数移到类的外面,而不作为类的一个方法,问题就解决了。多进程实现,没有报错。报错和上面一样,那就是这个self.cal_task_job有问题了.那为啥linux上就没问题呢?

2022-11-22 11:02:38 2010 2

原创 机器学习调参工具

一、超参数调优的三种常见策略网格搜索、随机搜索、贝叶斯搜索二、sklearn的网格搜索和随机搜索,以及参数取样model_selection.GridSearchCV(estimator, ...)Exhaustive search over specified parameter values for an estimator.model_selection.HalvingGridSearchCV(...[, ...])Search over specified paramet

2022-05-17 17:22:37 720

转载 问题记录:Jupyter Notebook运行不出结果没反应

后台报错bad file descriptor,经过查询发现问题是用户名为中文导致的,解决办法大多是让重装系统,几经查找,有个更简单的解决办法,就是修改环境变量即可。我的电脑—>属性—>高级系统设置—>环境变量 在“用户变量”栏里,找到TEMP与TMP,分别双击,将变量值都改为%SystemRoot%\TEMP。下面的“系统变量”栏里,同样的修改方法修改TEMP与TMP。然后重启anaconda 的jupyter notebook,果然好用了非常感谢原作者的贡献,原文连接:

2022-04-26 21:08:33 4676 4

原创 算法图谱汇总

统计机器学习深度学习排序数据结构图高级设计和分析

2022-03-22 16:28:58 357

原创 机器学习性能相关

Python性能测试profile 各函数执行次数时间line_profiler 逐行测试memory_profiler 逐行分析代码内存占用PyCharm图形化性能测试工具Spark性能测试算法空间复杂度算法训练集测试集样本量选取...

2022-03-21 20:40:23 3236

原创 机器学习开源工具

名称 单机or分布式 支持语言 说明 libsvm 单机 C++,java,matlab,python 支持向量机最好的 WEKA 单机 java scikit-learn 单机 python OpenCV 单机 python 图像处理 Orange 单机 交互操作 机器学习 可视化 Mallet 单机 Java 自然语言处理NLP NLTK ..

2022-03-19 15:20:45 3581

原创 大数据平台架构

MapReduce虽然只有map和reduce这两个函数,但几乎可以满足任何大数据分析和机器学习的计算场景。不过,复杂的计算可能需要使用多个job才能完成,这些job之间还需要根据其先后依赖关系进行作业编排,开发比较复杂。传统上,主要使用SQL进行数据分析,如果能根据SQL自动生成MapReduce,就可以极大降低大数据技术在数据分析领域的应用门槛。Hive就是这样一个工具。Spark在MapReduce的基础上进行了改进,它主要使用内存进行中间计算数据存储,加快了计算执行时间,在某些情况下性能

2022-03-19 11:27:19 1520

转载 算法时间复杂度

算法的时间复杂度反映了程序执行时间随输入规模增长而增长的量级,在很大程度上能很好反映出算法的优劣与否。算法执行时间需通过依据该算法编制的程序在计算机上运行时所消耗的时间来度量。算法中基本操作重复执行的次数是问题规模n的某个函数,用T(n)表。时间复杂度O(n)是T(n)的同数量级函数。如果把T(n)当做一棵树,那么O(n)所表达的就是树干,只关心其中的主干,其他的细枝末节全都抛弃不管。若算法中语句执行次数为一个常数,则时间复杂度为O(1)常见的时间复杂度有:常数阶O(1),对数阶O(log2n),线

2022-03-17 21:20:59 145

原创 anaconda配置成python3.5 并安装tensorflow

说明:windows10环境首先下载安装了最新的anaconda3,python是3.6的,现在想要改成python3.5,并安装tensorflow以下命令都用管理员身份运行1. 安装官网介绍的方法https://conda.io/docs/user-guide/tasks/manage-python.html首先创建一个新环境conda create -n py35 pyt...

2018-08-17 15:15:49 15189 5

原创 python环境安装H2O

1.安装相关依赖包pip install requestspip install tabulatepip install scikit-learnpip install coloramapip install future2.安装H2Opip installhttp://h2o-release.s3.amazonaws.com/h2o/rel-wright/2/Python/h2o-3.20.0...

2018-07-02 09:19:04 3701

原创 机器学习:SVM

一、硬间隔样本在原始特征空间中线性可分假设分隔超平面为此平面要满足两点:1.可将两类点分开:使此不等式中等号成立的样本就是支持向量2.超平面和的间隔r最大化经推导综合以上两点求解满足①②的ω、b即可。(用拉格朗日对偶问题原理)二、软间隔样本大体上线性可分,但边界处有少量样本跑到对面去了对每个样本引入松弛变量ξ例如某个样本是+1类的,但离超平面距离-0.5,这个样本的松弛变量ξ=1.5所以越是偏离本...

2018-06-21 16:31:49 243

原创 机器学习:决策树

信息熵:变量X有多种取值x1,x2,x3...xi...xn,现有一样本,用各种取值的频率近似作为概率用,求得:p1,p2,p3...pi...pn熵这里的log可以以2,10,e为底,反正后面要用的是熵的差值或比值。信息增益:g(D,A)=样本原本熵H(D)-用A特征分类后的熵H(D|A)H(D|A)算法:假设D被A分为多组,D1,D2...Di...,每组的样本数量n1,n2...ni...H...

2018-06-21 15:33:09 211 1

原创 机器学习:逻辑回归

一句话概括逻辑回归:    逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,达到将数据二分类的目的。原理:有一组特征变量:,表示为x,一组参数:,表示为θ,,表示为,值域为(-∞,﹢∞)。将值域归到0~1之间,则可以符合概率的值域:现有一组样本:极大似然函数:极大似然函数再取对数,变成对数损失函数,对数损失函数是连续可导的凸函数,可以用梯度下降求解。特点:很多特征...

2018-06-21 15:09:18 453

原创 反向传播原理

1. 要对ω5权值更新,先求Etotal对ω5的偏导(链式法则)各值代入,求出,此值表示ω5为当前值时,Etotal的变化率。若此值>0,表示Etotal正在上升,需要调小ω5此值<0表示Etotal正在下降,需要调大ω52. 要对ω1更新每次调整完权重,求得新的Etotal,与上次比较,不再变化或变化较小则收敛。...

2018-06-15 13:23:04 882

原创 卷积神经网络CNN简图

2018-06-15 11:32:21 1802

原创 softmax及在多分类中的应用

一、softmax的定义现有一组值x1、x2、x3x1变换为,x2、x3依次类推变换后的新值值域是[0,1],所有新值的和等于1,跟概率特征很像,所以有了以下应用。二、在多分类中应用某个网络要做多分类,假设分3类,输出节点就有3个,输出值经过了softmax变换,所以输出值值域为[0,1],所有输出值的和等于1。用xi表示第i个样本,h1(xi)表示样本xi为输入时,第一个输出值的值,h2(xi)...

2018-06-15 11:20:09 1786

原创 RBF神经网络

特点:单隐层、前馈、局部逼近φ的形式一般为高斯函数,σ为常数,反映函数的宽度,σ越小,函数越有选择性。φ的值域是[0,1],样本点与中心点越相似,φ值越大,这个神经元越被激活,所以是局部逼近。...

2018-06-15 10:42:32 831

原创 奇异值分解与PCA

一、奇异值分解每个矩阵A都可以分解成若干个小矩阵之和:A=σ₁Β₁+σ₂Β₂+....σ是奇异值,按从大到小排序奇异值越大,σiBi所含的信息越重要去噪音原理:噪音通常包含在奇异值小的项中,可以令小的奇异值为0来去噪音。numpy.linalg.svd()二、PCAn个Sample,m个feature,形成:X是m*n维的矩阵是协方差矩阵,代表各feature间相关性,角对称矩阵现在要对X变换,使...

2018-06-15 10:10:36 436

原创 笔记抄写4——sklearn其他

一、Feature Selection1.过滤掉方差太小的变量sklearn.feature_selection.VarianceThreshold2. 用单因素统计检验sklearn.feature_selection.f_classif 方差分析sklearn.feature_selection.chi2 卡方检验3. Select Fpr、Fdr、Fwe4. 递归特征淘汰先用所有featur...

2018-05-30 17:27:14 253

原创 笔记抄写3——sklearn回归相关

一、Ridge Regression岭回归最小二乘法的改进,加入正则项(L2)min||xω-y||²+α||ω||²   (α≥0)α越大,正则项比重越大,模型间方差越小,系数越稳定α越趋近0,越接近最小二乘法可尝试不同的α,画系数变化图选取合适的α,原则是系数要稳定二、Lasso Regression使用L1正则项,可以去掉某些feature,岭回归只是把某些feature的权重调小α||ω|...

2018-05-30 17:08:05 173

原创 笔记抄写2——sklearn聚类相关

一、Kmeans1.欧几里德距离在高维度时会膨胀,所以先做降维2.终止条件是新旧中心点的距离小于一个阈值,即中心点几乎不再动了3.由于初始中心点对结果影响很大,所以要选不同的初始点多次建模二、AffinityPropagation原理:目的是找到一些标本点,可以代表所有样本。两样本点间互通的信息有两种:responsibility(吸引度) r(i,k)表示k样本可以作为i样本的标本的程度avai...

2018-05-30 16:20:24 183

原创 笔记抄写1——sklearn分类相关

一、Naive Bayes朴素贝叶斯1. 特点常用于文档分类和垃圾邮件过滤,假设特征间独立(所以叫朴素)。需要训练集量少,训练快。擅长分类,不擅长估计,结果的p值不必太认真对待。2.种类对P(xi|y)选择不同的分布使得NB分类器不同1)高斯分布 sklearn.naive_bayes.GaussianNB2) 多项式分布sklearn.naive_bayes.MultinomialNB3) 伯努...

2018-05-29 16:30:18 348

原创 spark学习笔记6

pyspark.sql.DataFrame对象的方法aggr=sparkdf.agg({"a":"max","b":"min"}) #对列的聚合操作print aggr.collect()print sparkdf.approxQuantile('a',[0.25,0.5,0.75],0) #对某列求分位数,只是近似值print sparkdf.colRegex("\w+") #spar...

2018-04-16 10:42:54 1799

原创 spark学习笔记5

1.pyspark读取各种数据源通过pyspark.sql.DataFrameReader对象的各种方法可以读取各种数据源先创建个SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("Word Count") \ .config("mysqlusername", "alarm") \...

2018-04-13 18:34:53 118

原创 spark学习笔记4

一、spark2.0+ 版本只用spark.sql的SparkSession就可以代替之前的SparkContext、SQLContext等。SparkSession的建立:spark = SparkSession.builder \ .master("local") \ .appName("Word Count") \ .config("mysqlusername", "...

2018-04-12 18:16:23 140

原创 图论学习笔记3

最短路径算法1.Dijkstra算法顶点:1,2,3,4,5,6D=[[0,7,9,inf,inf,14],      [7,0,10,15,inf,inf],      [9,10,0,11,inf,2],      [inf,15,11,0,6,inf],      [inf,inf,inf,6,0,9],      [14,inf,2,inf,9,0]] #inf表示正无穷求1到5最短距离1...

2018-04-11 18:29:33 281

原创 图论学习笔记2

一、图的表示1.邻接表假设顶点有1,2,3,4,5G=[[2,3], #1的邻接表      [4,3,5], #2的邻接表      [1,4], #3的邻接表      [3], #4的邻接表      [1,3]] #5的邻接表邻接表可以是list,set(集合),dict,如果是dict,则可以表示权重了2.邻接矩阵a, b, c, d, e, f, g, h = range(8)N = ...

2018-04-11 15:34:20 234

原创 图论学习笔记1

1.基本概念图(graph)顶点(vertex)边(edge)同构(Isomorphism )不改变顶点代表的事物本身,不改变顶点之间的逻辑关系有向图(Directed Graph)边有方向,可单、双向无向图( Undirected Graph)权重(weight)边的权重,可表示距离等路径(path)不会重复经过同一个点和同一条边的路线最短路径(shortest path)环(loop)连通图(...

2018-04-11 14:09:49 438

原创 spark学习笔记3

一、pycharm开发spark程序配置方法:在C:\Anaconda\Lib\site-packages目录下新建pyspark.pth,内容是D:\hadoop_spark\spark-2.0.2-bin-hadoop2.7\python 即spark目录下的的python目录,也就是spark的python API.其实就是将pyspark当做一个普通的python包对待而已,没有做其他的配...

2018-04-09 09:57:43 172

原创 spark学习笔记2

(pyspark)sc.parallelize([1,2,3,4,5,6])创建出一个可以被并行操作的分布式数据集mapPartitions(func) func应用于RDD的每个分区上,所以func的输入是一个block>>> def squareFunc(a):. . .     for i in a:. . .         yield i*i. . .>>&...

2018-04-04 18:06:44 259

原创 spark学习笔记1

pyspark命令练习:textFile = sc.textFile(“README.md”)创建一个RDDtextFile.count()返回元素个数textFile.first()返回第一个元素linesWithSpark = textFile.filter(lambda line: “Spark” in line)过滤元素textFile.filter(lambda line: “Spark...

2018-04-04 11:13:16 459

原创 遗传算法原理

遗传算法的原理概括来说就是:优胜劣汰,淘汰种群中不好的基因,保留好的基因。假设一个个体有n个基因,每个基因有多种型可选,n个基因连在一起就是一个染色体,代表一个个体,目的是找到那个最符合要求的个体。0 初始:生成一个初始种群,基因型越丰富越好。1 计算适应度:即每个个体符合要求的程度。2 选择:留下适应度高的个体,淘汰适应度太低的。3 交叉:两个个体交换基因,产生新的后代。

2018-01-13 09:33:39 385

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除