自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

低到尘埃,仰望星空

合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下。

  • 博客(62)
  • 资源 (7)
  • 收藏
  • 关注

原创 伽罗华域(Galois Field, GF, 有限域)的四则运算

有限域的构造之常见本原多项式伽罗华域(Galois Field,GF,有限域)乘法运算伽罗华域(Galois Field)理解、基于伽罗华域的四则运算(附详细python代码)

2020-03-08 11:25:15 1582

原创 卷积神经网络CNN--PyTorch实现

本文纯属个人这几天学习后的看法,如有不实,还望指正。(一)相关理论浅谈  在我看来,卷积神经网络对图像处理的过程就是:①先将图像读入程序,得到图像的每个像素点的每个颜色通道的值。本篇博客是使用MNIST数据集,是28 ×\times× 28的图像,并且使用单颜色通道。然后将读入的图像数据转换成一致尺寸的tensor数据结构。②使用不同的卷积核对图像进行卷积计算,需要设置使图像卷积后大小不变...

2020-02-02 19:55:16 1824

原创 线性回归-tensorflow(1)

Codeimport numpy as npimport matplotlib.pyplot as pltimport tensorflow.compat.v1 as tftf.disable_v2_behavior()rng = np.random#超参数learning_rate = 0.01training_epochs = 1000display_step = 50#训...

2020-01-28 14:51:54 238

原创 分布式爬虫

分布式概念  Python执行环境大部分依赖于GIL,而GIL限制了多线程的功能。Pyhton代码可以通过CPython、PyPy、Psyco等不同的Python执行环境来执行,其中JPython就没有GIL。所以,GIL并不是Python的特性,Python完全可以不依赖于GIL。为什么会有GIL  由于物理上的限制,各个CPU厂商在核心频率上的比赛已经被多核所取代。为了更有效地利用多核处...

2019-12-28 00:26:49 208

原创 数据清洗

字符串操作清洗数据有三种常用的方法:字符串操作、正则表达式和第三方模块库。用于清洗数据的字符串操作:截取、替换、查找和分割。#1. 截取:字符串[开始位置:结束位置:间隔位置]#默认从0开始,空值默认取到字符串尾部。间隔位置默认为1str = 'ABCDEFG'#间隔为负数,开始位置为最后一个,结束位置到字符串首部print('与原字符串顺序相反的字符串:' + str[::-1])...

2019-12-27 11:09:17 8243

原创 爬取酷狗TOP500的数据

题目和代码  爬取https://www.kugou.com/yy/rank/home/1-8888.html?from=rank 排名情况、歌手、歌曲名和歌曲时间。import requestsfrom bs4 import BeautifulSoupimport timeimport pandas as pddef get_links(): links_list = []...

2019-12-10 11:23:13 1295 1

原创 爬取北京地区短租房信息

题目爬取http://bj.xiaozhu.com/ 中北京地区短租房13页的信息(标题、地址、价格、房东名称、房东性别和房东头像的链接)。注意:这个小猪网址,第一次打开需要验证,所以先在浏览器上打开这个网页,完成验证后,再运行代码,以及多次爬取后,可能需要再次打开网页进行验证。codeimport requestsfrom bs4 import BeautifulSoupimpo...

2019-12-10 00:35:01 437

原创 Requests数据爬取

Requests简介及安装  与Urllilb对比,Requests是在Urllib的基础上进一步封装的,具备Urllib的全部功能;在开发使用上,语法简单易懂,完全符合Python优雅、简介的特性;在兼容性上,完全兼容Python2和Python3,具有较强的适用性。  Requests可通过pip安装:Windows 系统:pip install requestsLinux 系统:s...

2019-12-09 15:26:01 1185 1

原创 Urllib数据抓取

Urllib简介Urllib是Python自带的标准库,无须安装,直接引用即可。Url通常用于爬虫开发、API数据获取和测试。在Python3中,Urllib模块是一堆可以处理URL的组件集合,就是将Urllib和Urllib2合并在一起使用,并且命名为Urllib.urllib.request: 用于打开和读取URLurlib.error: 包含提出的例外urllib.request...

2019-12-05 21:45:28 170

原创 爬虫开发基础

HTTP与HTTPS  HTTP是一个客户端和服务器端请求和应答的标准(TCP)。通过使用Web浏览器、网络爬虫或者其他工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。这个客户端叫用户代理(UserAgent)。响应的服务器上存储着资源,比如HTML文件和图像,这个服务器为源服务器(Origin Server),在用户代理和服务器中间可能存在多个中间层,比如代理、网关或者...

2019-11-27 12:25:02 149

原创 图算法--图的存储和遍历

图的存储邻接矩阵  设图G(V,E)G(V, E)G(V,E)的顶点标号为0,1,⋯ ,N−10, 1, \cdots , N-10,1,⋯,N−1, 那么可以令二维数组G[N][N]G[N][N]G[N][N]的两维分别表示图的顶点标号,即如果G[i][j]G[i][j]G[i][j]为1, 则说明顶点i和j之间有边;如果G[i][j]G[i][j]G[i][j]为0,则说明顶点i和顶点j之...

2019-11-07 16:13:24 339

原创 图算法--Floyd算法

  floyd算法用来解决全源最短路问题,即对给定的图G(V,E)G(V, E)G(V,E),求任意两点u,vu, vu,v之间的最短路径长度,时间复杂度是O(n3)O(n^3)O(n3)。由于n3n^3n3的复杂度决定了顶点数nnn的限制约在200以内,因此使用邻接矩阵来实现Floyd算法是非常合适且方便的。  Floyd 算法基于这样一个事实:如果存在顶点kkk,使得以kkk作为中介点时顶点...

2019-11-04 17:29:38 1096

原创 卑微的我,喜欢遥远的你

“七月的风,八月的雨,卑微的我,喜欢遥远的你” ,第一次听到这句歌词时,就很喜欢它,因为喜欢所以卑微,因为喜欢所以低到尘埃,就如张爱玲所说的,“见了他,她变得很低很低,低到尘埃里。但她心里是欢喜的,从尘埃里开出花来”。  有很多女生也有过这样的感觉吧,有那么一瞬间,你发现你已经无可救药地喜欢上那个人后,于是他就被你心中的滤镜美化、美化再美化,相比之下,心中的自己却变得那么卑微,那么不堪。喜...

2019-10-21 14:01:06 5489

原创 理解网络爬虫

文章目录爬虫的定义爬虫的类型爬虫的原理通用网络爬虫的实现原理聚焦网络爬虫的实现原理爬虫的搜索策略深度优先搜索宽度优先搜索最佳优先搜索反爬虫技术及解决方案爬虫的定义网络爬虫时一种按照一定的规则自动地抓取网络信息的程序或者脚本。爬虫的类型通用网络爬虫:又称为全网爬虫,常见的有百度、Google、必应等搜索引擎。聚焦网络爬虫:又称为主题网络爬虫,是选择性地爬行根据需求的主题相关页面的网络爬虫...

2019-10-21 13:57:37 1108 1

原创 过去的那些故事

人往往只有跌倒摔跤了,才会开始反思反省。大学这两年经历了一些事,遇见了一些人,明白了一些事。感谢它们,让我遇见了更好的自己。story 1两年前的我,除了学习和看剧,什么都不care,出去玩,聚餐,参加活动,元旦晚会,竞选什么职位,甚至是班级联谊,一律不参加。why, 我觉得这些都不重要,结果呢,社交圈里,大概只有我自己,还自得其乐,不识“孤独”何滋味。事实上呢,懵懂的大一,无知的大一...

2018-10-26 23:58:56 1327 2

原创 用Newton切线法、Newton下山法、割线法求一元非线性方程的近似解-Python

实验内容分别用Newton切线法、Newton下山法和割线法求方x2−2x−ex+2=0x^2-2x-e^x+2=0x2−2x−ex+2=0的近似根,其对应函数图像如下图所示。算法描述Newton切线法迭代公式xk+1=xk−f(xk)f(xk)x_{k+1}=x_k-\frac{f(x_k)}{f (x_k)}xk+1​=xk​−f(xk​)f(xk​)​算法流程图Newton...

2018-10-15 23:53:30 6890

原创 基于Schema的XML文档有效性验证

此前是在网上搜了一份答案,然而发现这份答案竟不是完全正确的,于是修改了很多后,决定把自认为正确的答案写在此处题目对于下列XML文档,创建一个模式文档,要求如下:Order元素在XML文档中可以出现多次,但是至少要出现一次。OrderID的值的格式必须是AXXX,其中X为0~9的数字。number的值的格式要在1~99之间。zip元素的内容的格式必须是XXXXXX,其中X为0~9的...

2018-10-14 15:20:07 3610

原创 LaTeX中画邻接矩阵、邻接表、排列树

最近的算法分析作业总是要编辑公式和画图,wordwordword操作的实在是不太友好,于是“杀鸡用牛刀”–便用了LATEXLATEX\LaTeX{}。 题目如下:给出下图的权矩阵和邻接表权矩阵:\usepackage{amsmath}\begin{equation*}\begin{matrix}\quad &V_1 &V_2&V...

2018-09-12 19:56:28 2477 2

原创 机器学习21-XGBoost模型

  提升(Boosting)分类器隶属于集成学习模型。它的基本思想是把成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。这个模型的特点在于不断迭代,每次迭代就生成一颗新的树。对于如何在每一步生成合理的树,大家提出了很多的方法,比如我们在集成(分类)模型中提到的梯度提升树(Gradient Tree Boosting)。它在生成每一棵树的时候采用梯度下降的思想,以之前生成的所有决策...

2018-08-25 09:09:44 715

原创 机器学习20-词向量(Word2Vec)技术

使用gensim工具包,利用20类新闻文本(20newsgroups)进行词向量训练; 并且通过抽样几个词汇,查验Word2Vec技术是否可以在不借助任何语言学知识的前提下,寻找到相似的其他词汇。from sklearn.datasets import fetch_20newsgroupsfrom bs4 import BeautifulSoupimport nltk, refrom ...

2018-08-24 10:47:31 1331

原创 机器学习19-自然语言处理包(NLTK)

使用词袋法(Bag-of-Words)对示例文本进行特征向量化from sklearn.feature_extraction.text import CountVectorizersent1 = 'The cat is waking in the bedroom'sent2 = 'A dog was running across the kitchen'count_vec = Co...

2018-08-23 21:20:32 564

原创 tensorflow安装与测试

  今天还是比较顺利地装好了tensorflow, 迈出了走向AI的第一步,还是有点小兴奋的。   网上很多安装教程,却似乎没有一篇写得很简洁清楚。为此,我就小小总结一下我的安装过程。我的环境win10+python 3.6+vs2015+vs2013+vs2017 VS只需要安装一个和版本一致的即可。CPU版与GPU版的选择GPU版本的tensorflow...

2018-08-23 00:47:45 27990 4

原创 NumPy高级应用2-ufunc高级应用

NumPy的通用函数的一些高级用法能使我们丢开循环编写出更为简洁的代码。 以下代码引入的包和模块:from numpy.random import randnimport numpy as np1、 用np.add.reduce对数组中的各个元素进行求和比sum快arr = np.arange(10)%timeit np.sum(arr)#out[]:#2.39 µs ± ...

2018-08-20 10:40:10 347

原创 Python-误区

持续更新中…..赋值与拷贝import copya = [[1, 2, 3], [4, 5, 6]]b = a #赋地址c = copy.copy(a) #只拷贝父对象d = copy.deepcopy(a) #拷贝父对象和子对象import pandas as pddf = pd.DataF...

2018-08-19 22:14:24 162

原创 机器学习18-超参数搜索

网格搜索(GridSearch)(GridSearch)(GridSearch)网格搜索是对多种超参数组合的空间进行暴力搜索。 class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, c...

2018-08-19 16:06:07 824

原创 NumPy高级应用1-广播

广播(broadcasting)指的是不同形状的数组之间的算术运算的执行方式。它是一种非常强大的功能。将标量跟数组合并时就会发生最简单的广播。import numpy as nparr = np.arange(5)print(arr)#out[]:[0 1 2 3 4]print(arr * 4)#out[]:[ 0 4 8 12 16]...

2018-08-18 21:01:59 209

原创 别想着付出就能马上得到回报

只有当你的付出与能力相匹配时,回报才会缓缓到来。付出就想马上得到回报,适合做钟点工。如果自己付出,就一定要别人也付出来回报自己的话,这就不是付出,而是生意。也许你此刻正在苦苦煎熬,付出了很多仍没有得到想要的结果。但请你记住一定不要放弃,在黑暗中沉睡,只有熬过了那艰难的几年,才能冲破牢笼见到光明,找到属于自己的天空许多时候,我们之所以一事无成,不是天资不够,也非运气不佳,而是因为我们犯了一...

2018-08-18 17:16:04 1747

原创 Python-时间序列1-数据类型和索引

日期和时间数据类型及工具时间序列基础日期的范围、频率以及移动时区处理时期及其算术运算重采样及频率转换时间序列绘图移动窗口函数性能和内存使用方面的注意事项...

2018-08-18 13:11:39 889

原创 机器学习17-模型正则化

欠拟合与过拟合L1L1L_1范数正则化L2L2L_2范数正则化

2018-08-17 19:50:43 1030

原创 机器学习16-特征提升

特征抽取特征筛选

2018-08-10 12:01:56 948

原创 Give me some sunshine, Give me another chance

蓦然回首,暑假将逝,我终究还是玩掉了这个暑假。唉,懒散依旧是我难以打败的一大敌人。在舒适的日子里仍能克己勤学,真的好难做到呀! 哈哈,那就先喝点鸡汤吧!《最伟大的励志书》-天才出自勤奋英国画家雷诺兹对什么是天才有过这样的解释,“天才除了全身心地投入自己的目标,工作非常勤奋以外,与常人完全一样。”在特罗洛普刚刚从事写作的时候,一个作家的建议使他终生受益,后来,他又把这句话送...

2018-08-07 18:10:47 518 2

原创 机器学习15-特征降维PCA

codeimport pandas as pdimport numpy as npfrom sklearn.decomposition import PCAfrom matplotlib import pyplot as pltdigits_train = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-data...

2018-08-07 16:00:48 275

原创 机器学习14-数据聚类

前言  无监督学习(Unsupervised Learning)着重于发现数据本身的分布特点。与监督学习(Supervised Learning)不同,无监督学习不需要对数据进行标记。这样,在节省大量人工的同时,也让可以利用的数据规模变得不可限量。   从功能角度讲,无监督学习模型可以帮助我们发现数据的“群落”,同时也可以寻找“离群”的样本;另外,对于特征维度特别高的样本,我们同样可以通过无...

2018-07-28 20:17:24 1410 1

原创 网络爬虫笔记3-相关库以及登录问题

Requests发送请求,传递URL参数,读取响应内容(文本/二进制/Json),定制请求头部,Post请求,响应状态码,重定向和历史,超时…import jsonimport requestsfrom PIL import Imagefrom io import BytesIO# print(dir(requests))url = "http://www.baidu.com...

2018-07-28 14:07:10 496

原创 机器学习13-回归-集成模型

模型介绍使用普通随机森林(Ramdom Forests)和提升树模型的回归器,以及极端随机森林(Extremely Randomized Trees)。与普通的随机森林模型不同的是,极端随机森林在每当构建一棵树的分裂节点的时候,不会任意地选取特征;而是先随机收集一部分特征,然后利用信息熵(Information Gain)和基尼不纯性(Gini Impurity)等指标挑选最佳的节点特征。...

2018-07-27 12:36:14 800

原创 机器学习12-回归树

模型介绍  回归树在选择不同特征作为分裂节点的策略上,与决策树的思路类似。不同之处在于,回归树叶节点的数据类型不是离散型,而是连续型。决策树每个叶节点依照训练数据表现的概率倾向决定了其最终的预测类别;而回归树的叶节点却是一个个具体的值,从预测值连续这个意义上严格地讲,回归树不能称为“回归算法”。因为回归树的叶节点返回的是“一团”训练数据的均值而不是具体的、连续的预测值。代码fr...

2018-07-27 11:17:39 223

原创 机器学习11-回归-K近邻

模型介绍K近邻模型只是借助周围K个最近训练样本的目标是数值,对待测样本的回归值进行决策。自然,也衍生出衡量待测样本回归值的不同方式,即到底是对K个近邻目标数值使用普通的算术平均算法,还是同时考虑距离的差异进行加权平均。代码使用两种不同配置的K近邻回归模型对美国波士顿房价数据进行回归预测和评估from sklearn.svm import SVRfrom sklearn.d...

2018-07-27 10:25:38 262

原创 机器学习10-回归-支持向量机回归

from sklearn.svm import SVRfrom sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitimport numpy as npfrom sklearn.preprocessing import StandardScalerfrom sklea...

2018-07-25 15:07:50 590

原创 网络爬虫学习笔记2

CSScss = Cascading Style Sheets样式定义如何显示HTML元素选择器: eg: h1{color: red; font-size: 14px} 元素选择器: 直接选择文档元素。类选择器: 元素的class属性,eg: < h1 class=”important”>.important选择所有有这个类属性的元素结合元素选择器,比如p.imp...

2018-07-24 19:14:08 203

原创 机器学习9-回归-线性回归模型

数据描述:“美国波士顿地区房价预测”性能测评from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error平均绝对误差(MAE)回归值与真实值之间的误差绝对值。 SSabs=∑i=1m|yi−yipredict|SSabs=∑i=1m|yi−ypredicti|SS_{abs} =...

2018-07-23 16:30:05 207

MFC 画板制作源代码

使用MFC制作可以绘画矩形,椭圆,直线的图层画板,可以改变线条粗细和颜色,还可以填充颜色,可以拖动等等的mfc源码

2018-12-05

数据挖掘导论(完整版).pdf

数据挖掘导论(完整版).pdf , introduction to data ming.

2018-03-26

Introduction to Data Mining.pdf 数据挖掘导论英文版

Introduction to Data Mining.pdf 数据挖掘导论英文版

2018-03-26

《数学建模算法与程序》司守奎

《数学建模算法与程序》司守奎,数学建模必备资料。包含线性规划,整数规划,图,网络,排队论等算法

2018-03-26

AP聚类算法matlab

function [idx,netsim,i,unconverged,dpsim,expref]=apcluster(s,p,varargin); % Handle arguments to function if nargin<2 error('Too few input arguments'); else maxits=500; convits=50; lam=0.5; plt=0; details=0; nonoise=0; i=1; while i<=length(varargin) if strcmp(varargin{i},'plot') plt=1; i=i+1;

2017-10-02

Clustering by Passing Messages Between Data Points

AP算法提出原文。Clustering data by identifying a subset of representative examples is important for processing sensory signals and detecting patterns in data. Such “exemplars” can be found by randomly choosing an initial subset of data points and then iteratively refining it, but this works well only if that initial choice is close to a good solution. We devised a method called “affinity propagation,” which takes as input measures of similarity between pairs of data points. Real-valued messages are exchanged between data points until a high-quality set of exemplars and corresponding clusters gradually emerges. We used affinity propagation to cluster images of faces, detect genes in microarray data, identify representative sentences in this manuscript, and identify cities that are efficiently accessed by airline travel. Affinity propagation found clusters with much lower error than other methods, and it did so in less than one-hundredth the amount of time.

2017-10-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除