贼贼弟-CSDN博客

原创如梦令·残阳垂柳孤江

残阳垂柳孤江，映衬半晌烦伤。静坐理思绪，回望青春时光。心慌，心慌，解愁全靠杜康。

2023-10-31 11:23:53 58

原创如梦令·长风轻抚小路

长风轻抚小路，江水不及泪目。归途恍如初，飞入繁华深处。如沐，如沐，原是梦里锦簇。

2023-10-31 11:21:18 55

原创如梦令·三月春风吹夏

2021年3月，毕业季，与《如梦令·晨起路赶霜踏》为姊妹篇，记录于博士毕业论文致谢中。三月春风吹夏，离别声泪俱下。怀恋校时光，酒水催人比划。也罢、也罢，最后一句酒话。

2023-10-31 11:18:16 75

邀约**致未来时间旅行者未来的时间旅行者，你们好！21世纪卑微、自强的虫子向未来的地球人发出邀请：如果未来实现了时间穿梭，请一定要在人类纪元公元2021年1月16日19点08分，前往太阳系地球亚洲中国湖北省武汉市洪山区珞喻路1037号华中科技大学水工楼205办公室与我擦肩而过！如果你担心因为你的到来而对世界产生扰动，那么你就以你的方式告诉我你来过，我一定保守秘密！代号：邀约公布时间：2021年1月16日 20点整。奇葩说更新了，哈哈哈哈哈哈...

2021-01-16 20:00:21 254 5

原创缩脚诗

四四方方一口钟悬挂亭台中撞一下嗡

2020-11-25 16:42:33 245 3

原创爱蚝屋无题四首

七人一桌饮酒醉四面环坐把心碎天籁之音催人泪醉酒于此无所谓爱屋迎清风，醉酒把心横，问谁能carry，还看创兄整。蚝中藏双蟹，爱屋聚七杰，曲终催灯灭，残月照离别。常思离别自悲伤，酒中伤感荡回肠。心忧何处把身寄此间雅舍是故乡。...

2020-11-18 10:50:31 171

原创如梦令

如梦令*晨起路赶霜踏晨起路赶霜踏，归心如雪难化。老友催日暮，喜来酒馆叱咤。比划、比划，不如一席酒话。无题狂风卷枯叶大雨碎人心寒风正凛冽旅人徒伤悲

2020-11-17 16:21:38 181 2

原创集成回归模型

集成回归模型综合考量多个回归器的预测结果从而做出决策，这种“综合考量”的方式大体上分为两种：（1）利用相同的训练数据同时搭建多个独立的回归模型，然后通过投票的方式，以少数服从多数的原则作出最终的回归决策。比较有代表性的是随机森林分类器（2）按照一定次序搭建多个分类模型，这些模型之间存在依赖关系，一般而言，每一个后续模型的加入都需要对现有的集成模型的综合性能有所贡献，进而不断提升更新

2017-07-06 17:18:03 4378 1

原创回归树预测

本文不具体介绍回归树的具体算法，采用波士顿房价预测的案例来使用回归树模型。语言是Python3.6，集成环境是Anaconda3。#导入数据from sklearn.datasets import load_bostonboston=load_boston()print(boston.DESCR)from sklearn.cross_validation import train_t

2017-07-05 17:01:53 2687

原创 K近邻回归

K近邻回归模型不需要训练参数，只需要借助周围K个最近训练样本的目标值，对待测试样本的回归值进行决策。由此就衍生出衡量待测样本回归值的不同方式，即普通的算术平均算法和考虑距离差异的加权平均。下面不具体介绍详细的算法，而是采用一个对波士顿房价进行预测的案例来使用这两种模型，并对两种模型的性能进行比较。语言是Python3.6，集成环境是Anaconda3。1、源代码#导入数据from s

2017-07-04 15:13:43 3584 1

原创支持向量机（预测）

在训练样本时搜索更加有效的那部分数据而不是所有数据，这种数据我们称为“支持向量”。对于支持向量的回归预测，采用不同的核函数会有不用的性能，下面不去介绍具体的算法，而是采用预测波斯顿房价一个案例来介绍三种不同核函数下的支持向量机的回归预测模型，并比较他们的性能。使用的语言是python3.6版本，集成环境是Anaconda3。1、源代码from sklearn.datasets im

2017-07-04 11:03:03 23109

原创 Scrapy爬虫实战五：爬虫攻防

本篇博客需要读者有一定的爬虫基础，需要在爬虫过程中遇到一些反爬虫机制学起来才有意思。如果对爬虫不是很了解的可以先看下我前面4个实战。本文项目采用python3.6版本语言，利用scrapy框架进行爬取。实现的功能是爬取美剧100（http://www.meijutt.com/new100.html）的信息。下面是本次项目的目录结构：----meiju100----meiju100-

2017-06-15 16:45:59 1019

原创线性回归预测

回归问题和分类问题的区别在于：其待预测的目标是连续变量。这里不详细介绍线性回归模型的具体算法，而是用一个预测波士顿房价的案例来使用LinearRegression模型和SGDRegressor模型，这里使用python3.6版本，Anaconda3进行编程实现。from sklearn.datasets import load_bostonboston=load_boston()print

2017-06-15 15:59:24 2187

原创 Scrapy爬虫实战四：糗事百科

本文项目采用python3.6版本语言，利用scrapy框架进行爬取。该案例相比于之间几个案例新增的知识点是：添加中间件。实现的功能是爬取糗事百科（http://www.qiushibaike.com）的信息。下面是本次项目的目录结构：----qiushi----qiushi----middlewares__init__.pycustomMiddlewares.

2017-06-13 21:46:21 510 1

原创集成模型分类

集成分类模型综合考量多个分类器的预测结果从而做出决策，这种“综合考量”的方式大体上分为两种：（1）利用相同的训练数据同时搭建多个独立的分类模型，然后通过投票的方式，以少数服从多数的原则作出最终的分类决策。比较有代表性的是随机森林分类器（2）按照一定次序搭建多个分类模型，这些模型之间存在依赖关系，一般而言，每一个后续模型的加入都需要对现有的集成模型的综合性能有所贡献，进而不断提升更新过后的集

2017-06-13 20:30:40 977

原创决策树分类

如果要借由一个人的年龄来预测患流感的死亡率，这里肯定无法采用线性模型，如果要用数学表达式描述这种非线性关系，使用分段函数最为合理，而在机器学习模型中，决策树就是描述这种非线性关系的不二之选。决策树常用的度量方法包括信息熵和基尼不纯性，Scikit-learn中决策树模型默认配置的就是基尼不纯性。本篇博客不讲述决策树分类模型的理论知识，而是采用一个对泰坦尼克号乘客是否能够生还进行预测的实例进行学

2017-06-13 19:46:42 531

原创 K近邻分类

K近邻算法和其他模型最大的区别在于该模型没有参数训练过程，它不通过学习算法分析训练数据，而只是根据测试样本在训练数据的分布直接作出分类的决策。K近邻中的K值不属于模型通过训练数据学习的参数，而是在模型初始化过程中提前确定的，不同的K值会获得不同效果的分类器。本篇博客不讲述K近邻模型的理论知识，而是采用一个对鸢尾数据集进行分类的实例进行学习。语言是Python3.6，环境是Anaconda3。

2017-06-06 15:08:09 1349

原创朴素贝叶斯分类器

朴素贝叶斯模型在文本分类中有着广泛的应用，特别是在互联网新闻分类、垃圾邮件的筛选中。朴素贝叶斯模型假设各个特征向量之间相互独立，这使得模型预测所需要估计的参数规模从幂指数数量级向线性量级减少，极大地节约了内存的消耗和计算时间。但是也正是由于这种强假设的限制，模型训练无法将各个特征之间的联系考量在内，使得模型在其他数据特征关联性较强的分类任务上的性能表现不佳。本篇博客不讲述朴素贝叶斯模型的理论知

2017-06-06 09:27:36 726

原创 Scrapy爬虫实战三：获取代理

本文项目采用python3.6版本语言，利用scrapy框架进行爬取。该项目实现的功能是获取http://www.proxy360.cn和http://www.xicidaili.com网站中的代理信息，由于网站设有反爬虫机制，网站是通过浏览器发送过来的User-Agent的值来确认浏览器身份的，所以为了避免被查出是爬虫，所以该项目中修改了USER_AGENT的值，关于常见反爬虫机制请参照本博

2017-06-04 22:37:54 4103

原创 Scrapy爬虫实战二：获取天气信息

本文项目采用python3.6版本语言，利用scrapy框架进行爬取。该项目实现的功能是爬取某城市的天气以及往后预报一周的天气，并将爬取到的信息保存为.txt文件和写入mysql数据库。利用scrapy爬虫就像是做填空题，只需要在相应的文件里填入相应的内容，连文件名都不用该。下面是本次项目的目录结构：----weather----weather----spide

2017-06-03 09:41:32 3531 1

原创支持向量机（分类）

支持向量机分类器（Support Vector Classifier）是根据训练样本的分布，搜索所有的线性分类器中最佳的那个，有使用过线性分类器的小伙伴们会发现决定直线位置的样本并不是所有训练数据，而是其中两个空间间隔最小的两个不同类别的数据点，我们把这种真正帮助决策最优线性分类模型的数据点叫做“支持向量”。下面使用Scikit-learn内部集成的手写体数字图片数据集进行编程实现，使用的语言

2017-06-02 09:51:50 1169

原创 Scrapy爬虫实战一：获取中影国际影城信息

· 本文采用python3.6版本语言，利用scrapy框架进行爬取。还没有安装scrapy的小伙伴需要先安装scrapy，网上有很多教程，但是大多数是针对python2.7的，其实python3.6版本下安装scrapy很简单，python3.6版本在安装时候已经将pip环境搭建好，windows下只需要cmd ->pip install scrapy即可安装。不过安装scrapy还是有点看运气

2017-06-01 21:45:39 1068

原创线性分类器

这里介绍两种基本的线性分类器，分别是逻辑斯蒂回归模型（Logistic Regression）和随机梯度下降模型（SGDClassifier）。这里不详细介绍各种模型或算法的理论表述，而采用“良/恶性乳腺癌肿瘤预测”案例来谈具体的编程实现。原始数据来源于(https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-

2017-05-30 21:00:20 1033 1

python的scrapy框架爬取天气预报

利用python的scrapy框架爬取天气预报的信息，是python爬虫入门的好程序，如果还有小伙伴不会运行scrapy框架程序的，可以在下方评论区里说明。

2017-12-02

python用scrapy框架爬取代理ip的案例

使用python3.6版本，scrapy框架写的，学习网络爬虫一个很好的入门案例。可以直接运行，如果有小伙伴不会运行scrapy写的程序的可以评论留言，也可以去我的博客里逛逛。

2017-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

贼贼弟的博客