自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 scrapy的安装

一般我们cmd——>pip install scrapy进行安装,但是pip包管理工具是与Linux系统兼容的,与Windows系统兼容一般。所以在Windows系统执行前面命令时,很可能出现各种问题,其中就有依赖包的缺失或不兼容,需要重新进行安装,此时就要下载相应的whl文件(https://www.lfd.uci.edu/~gohlke/pythonlibs/)。本人在安装和创建项目时具...

2018-10-16 12:06:26 167

原创 豆瓣评论第一页爬取

import requests# 先进行第一次安装from lxml import etreeimport pandas as pdurl="https://book.douban.com/subject/1084336/comments/"r=requests.get(url).texts=etree.HTML(r)# 获取文本内容用text(),观察下面获取的第一个、第二个文本...

2018-10-16 11:08:12 382

原创 朴素贝叶斯之垃圾邮件自动识别系统

该垃圾邮件自动识别系统的实现是基于朴素贝叶斯分类法的应用,主要使用的是Python语言。在项目初期,也是参考了一些网址,然后根据自己的理解画系统流程图并进行编程。(如:http://blog.csdn.net/shijing_0214/article/details/51200965)给大家分享一些写类似任务的项目文档说明的技巧:一般从原理分析、识别过程和结果分析三方面进行阐述。原理分析主要是...

2018-07-19 16:13:50 1770

原创 k均值算法——python实现

无监督学习中应用最多的就是聚类,其中k均值算法就是典型的聚类算法,下面是一段从文本中读取30数据,然后进行聚类的过程,包括输出读取的数据集、随机选择的K个初始均值向量、30行数据各自所属的类别以及最后的聚类中心,因为每次是随机选择K个初始均值向量,所以每次运行结果不一样的。如果各位需要全部引用的话,请标注来源,具体的数据集需要的话,可以找我要。import numpy as npimport m...

2018-07-05 14:53:14 4075 1

原创 turtle库绘制科赫雪花曲线

from turtle import *# 最重要的便是递归函数:要理解科赫曲线的原理:取一段直线的1/3长度,# 以该长度的4条小直线拼成,其中中间两条小直线凸起(60度)# 以此类推,每条小直线再接着细分def koch(size,n):    if n==0:        fd(size)    else:        for angel in [0,60,-120,60]:      ...

2018-06-03 16:27:18 3720

原创 jieba中文分词学习

尝试对三国演义中的人物进行词频统计,这只是初步统计,后续还应该继续优化。import jiebatxt = open("threekingdoms.txt", "r", encoding='utf-8-sig').read()#注意上面用utf-8或utf-8-sig(文件很大时可用)编码,相应的文本文件的编码方式也应该是utf-8,查询方式#是用记事本打开,然后点击另存为,查看用的什么编码,一开...

2018-05-20 09:29:59 447 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除