Tomator01-CSDN博客

原创子域名爆破改写

趁着程序员节日，发一篇赢取狗头嘻嘻直接上代码了，有时间再来写文字借鉴自猪猪侠的wydomain工具# encoding: utf-8"""内网子域名解析,搜索内网需要设置域名解析服务器author:tomator1|DNS解析2|从crossdomain.xml文件中提取query(self, qname, rdtype=1, rdclass=1, tcp=False, ...

2019-10-24 23:10:57 530

原创 python 实现AdaBoost 算法

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。目前程序的训练部分分类器部分没有问题，但是最后的predict部分还存在点问题，一直没有找出来，等有时间了再来修改吧。采用的数据集：github：https://github.com/Tomator01/-Machine-Learning# -*- coding:utf-8 -*-# AdaBoost算法...

2019-05-27 22:27:12 1586

转载转《光明日报》：“大数据面前，统计学的价值在哪里”

转《光明日报》：“大数据面前，统计学的价值在哪里”统计学对大数据的意义很高兴有这样一个机会，我能与大家在这里做一些关于统计学与大数据的交流，与大家分享一些观点。在讲大数据之前，我们首先来看看什么是数据。很长一段时间里，大家对数据的理解，可能只是停留在阿拉伯数字这个层面。近些年来，大家开始讲大数据。结果有人就开始好奇了：这个大数据和我们之前说的数据有什么关系呢？阿拉伯数...

2019-05-20 11:37:14 763

原创 python 实现逻辑斯谛回归（logistic regression）

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。logistic regression模型的原理可以参考这两篇博客：https://www.jianshu.com/p/4cf34bf158a1https://blog.csdn.net/c406495762/article/details/77723333这两篇博客在训练模型时采用的公式是：，也就是代码中...

2019-05-08 13:53:52 4804

原创 python 实现CART算法决策树

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。本次代码是基于上一节决策树ID3\C45修改过来的，建议两篇博客一起看。具体算法原理等有时间了再写。# -*- coding:utf-8 -*-# Decision tree by cart决策树，cart算法，算法参考李航《统计学习方法》P71#author:Tomatorimport numpy a...

2019-04-28 20:32:52 6279 1

原创 Python实现决策树分类回归

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。在上一篇博客的基础上增加了使用决策树进行预测的功能（Decision_tree类有稍微改变）。预测函数其实可以使用递归来实现，但是经过苦思冥想之后觉得不用递归也可以简便的写出来，（~~此处颇为自豪~~哈哈），只是逻辑上面需要更清晰一些，尽力写了很多注释，语言表达能力不太好，希望读者理解。 """ 使用决策树分类 ...

2019-04-25 22:06:26 5204 2

原创 python实现决策树生成算法ID3、C4.5

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。目录决策树原理决策树模型决策树生成算法python实现前言：本章节实现了ID3和C4.5的决策树生成算法，决策树的剪枝请参考下一篇博客。算法是基于李航老师的《统计学习方法》，相关公式在代码中都分别标注了。博客内容参考于李航老师《统计学习方法》和某位大佬的博客https://blog.csdn...

2019-04-25 15:37:46 4422 5

原创线性不可分数据生成

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。用于生成两个直径不等的圆周数据集。# -*- coding:utf-8 -*-# 线性不可分数据的生成#author:Tomatorimport mathimport numpy as npimport matplotlib.pyplot as pltf=open("SVM非线性数据集.txt",'w...

2019-04-23 22:46:58 1275

原创 python实现支持向量机SVM源码（SMO算法）

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。本次是学习了李航博士《统计学习分析》后实现了算法，算法实现了线性支持向量机和非线性支持向量机，采用SMO算法求解。算法中实现了两种核函数：高斯核函数和多项式核函数。下面代码中采用的数据集为鸢尾花数据集中的两个类别的数据，若要尝试非线性数据集可以从笔者github：https://github.com/Tomator01/-Machin...

2019-04-23 22:40:07 3128 4

原创 python实现朴素贝叶斯分类器（连续数据）

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。一、算法算法原理参考周志华老师的《机器学习》p151和李航老师的《统计学习方法》。博客内容部分借鉴于腾讯云“海天一树”老师。二、数据集本文中的数据集使用的是“皮马印第安人糖尿病数据集”。该数据集由美国国立糖尿病、消化和肾脏疾病研究所（United States National Institute of Dia...

2019-04-18 19:32:15 8198 3

原创 python 获取字典最大值的两种方法

import operator# 先通过sorted 和operator 函数对字典进行排序，然后输出最大value的键classCount={"c":1,"b":4,"d":2,"e":6}print(classCount.items())SortedclassCount1= sorted(classCount.items(), key=operator.itemgetter(1),...

2019-04-18 01:06:41 14099 1

原创 python 实现朴素贝叶斯分类器（离散数据）

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。朴素贝叶斯算法步骤：贝叶斯估计代码：# -*- coding:utf-8 -*-# naive Bayes 朴素贝叶斯法#author:Tomator"""算法参考与李航博士《统计学习方法》采用贝叶斯估计(拉普拉斯平滑)计算先验概率和条件概率"""from collectio...

2019-04-18 00:58:15 4236 2

原创感知机python实现

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。感知机原理参考博客：https://www.cnblogs.com/huangyc/p/9706575.html算法引用李航博士《统计学习方法》p29.# -*- coding:utf-8 -*-# 感知机import numpy as npimport matplotlib.pyplot as plt...

2019-03-22 14:38:30 613

原创二分k-means算法(Bisecting k-means cluster)python 实现

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。代码：# -*- coding:utf-8 -*-# kmeans : Bisecting k-means cluster(二分K-means算法)import numpy as npimport matplotlib.pyplot as pltdef readfile(filename): """...

2019-03-18 21:12:26 4747 2

原创 numpy.ndarray 对特定行或列取值

import numpy as npb = [[1,2,0],[4,5,0],[7,8,1],[4,0,1],[7,11,1] ]a=np.array([b]).reshape((5,3))print(a)c=[1,3,4]# print(a[c])d=np.nonzero(a[:, 2] == 0)print(d)print(a[d])...

2019-03-16 23:05:30 6811

原创 k-means聚类 python实现

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。kmeans算法又名k均值算法。其算法思想大致为：先从样本集中随机选取kk个样本作为簇中心，并计算所有样本与这kk个“簇中心”的距离，对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中，对于新的簇计算各个簇的新的“簇中心”。根据以上描述，我们大致可以猜测到实现kmeans算法的主要三点：（1）簇个数kk的...

2019-03-16 22:56:20 1983 4

原创 python 中的sort、sorted、 operator.itemgetter

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。sort 与 sorted 区别：sort 是应用在 list 上的方法，sorted 可以对所有可迭代的对象进行排序操作。list 的 sort 方法返回的是对已经存在的列表进行操作，无返回值，而内建函数 sorted 方法返回的是一个新的 list，而不是在原来的基础上进行的操作。sorted(iterable[,...

2019-03-15 10:47:51 642

原创 k近邻法（KNN）python 实现

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。KNN关于knn的原理就不赘述了，算法原理可以参考李航博士的《统计学习方法》。这次采用的是最简单的线性扫描方法来寻找k个最近邻点。但是这种方法面对很大的训练集时，计算会非常耗时，因此为了提高k近邻搜索的效率，可以考虑kd树方法。距离度量采用的是欧式距离（euclidean distance）。import nu...

2019-03-14 22:37:19 1521

原创牛顿法python 实现

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。牛顿法也是求解无约束最优化问题的常用方法，有收敛速度快的优点。牛顿法是迭代算法，每一步需要求解目标函数的海赛矩阵的逆矩阵。同时还有拟牛顿法、阻尼牛顿法、修正牛顿法等等。算法步骤：import randomimport numpy as npimport matplotlib.pyplot as pltd...

2019-03-13 20:05:55 15516 1

原创最速下降法（梯度下降法）python实现

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。最近在写论文，做的是共轭梯度反演方法，所以将论文中的部分内容分享出来吧。大部分的机器学习算法的本质都是建立优化模型，通过最优化方法对目标函数（或损失函数）进行优化，从而训练出最好的模型。常见的最优化方法有梯度下降法、牛顿法和拟。牛顿法、共轭梯度法等等。在数学领域称为最优化，在地球物理领域也称为反演。关于最速下降法的原理这里...

2019-03-13 19:55:14 19658 9

原创 dict.fromkeys

Python 字典 fromkeys() 函数用于创建一个新字典，以序列 seq 中元素做字典的键，value 为字典所有键对应的初始值。# fromkey的坑# 如果fromkeys第二个参数是可变数据类型，所有的key用的都是同一个列表，改变其中一个。另一个也跟着改变v = dict.fromkeys(['k1','k2'],[])v['k1'].append(666)pri...

2019-03-05 22:22:18 826

原创 python处理Excel文件的方法集合及性能对比

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。最近工作需要批量处理excel文本，写个小总结。一、xlwt、xlrd处理excel文件 Python中一般使用xlrd库来读取Excel文件，使用xlwt库来生成Excel文件，使用xlutils库复制和修改Excel文件。注意xlwt只支持到Excel2003，即xls文件；xlrd对xls、xlsx文件都可以...

2019-01-31 15:51:25 15386 1

原创 python 对xml文件的操作

有用请点赞，没用请差评。欢迎分享本文，转载请保留出处。一、对xml文件的解析python解析XML常见的有三种方法：一是xml.dom.*模块，它是W3C DOM API的实现，若需要处理DOM API则该模块很适合；二是xml.sax.*模块，它是SAX API的实现，这个模块牺牲了便捷性来换取速度和内存占用，SAX是一个基于事件的API，这就意味着它可以“在空中”处理庞大数量...

2019-01-26 18:32:30 2868

原创 pycharm-python-Django：runserver error

因为笔者的电脑装作死装了四个python解释器，在pycharm下面原本用的是Anaconda3,而Anaconda3安装文件里面的python.exe文件没有改名，依然是“python”，我在pycharm下面terminal里面就直接敲的是python3 manage.py runserver 命令行,此时根据环境变量python3启用的应该是其他的没有安装django的python解释器，而...

2018-12-12 10:55:17 271

原创 C语言动态库建立方法，以及和python混合编程

这篇小结是2016年暑假在新疆出差阶段所写，因为项目需要所以研究了一下。如有错误，欢迎互相交流。不同编译器实现python调用C语言动态库方法小结Windows平台下Visual Studio 2010编译器创建动态库，并调用第一步：创建动态dll动态库1打开visual studio，新建一个项目，选择Visual C++创建一个Win32 控制台应用程序，命名为tes...

2018-10-11 17:25:38 590

原创 python、C语言、fortran 三种语言的语法对比

Differences between Python 、 FORTRAN and C Operation Python FORTRAN C Computation of the logarithm base 10 of the input value with missing va...

2018-10-11 17:21:09 5100

原创 python中直接赋值、浅拷贝、深拷贝的区别

最近看到老师PPT中关于字典赋值的内容，突然想到自己以前也看过一些深浅拷贝的内容，所以就整理一起发出来。对于python而言，python的一切变量都是对象，变量的存储，采用引用语义的方式，存储的只是一个变量的值所在的内存地址，而不是这个变量的值本身，是通过地址去引用值（引用自CSDN某博客）。而在C语言中，变量的值是直接保存在变量的存储区里面。继续话题赋值、浅拷贝、深拷贝，话不多说，直接上代码：...

2018-07-14 01:15:19 374

Big_Pai的博客