自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 4、认识正则表达式和re库

regular expression regex   RE正则表达式:是用来简洁表达一组字符串的表达式(一行胜千言)。正则表达式:通用的字符串表达框架(就像数学规律题的公式)简洁表达一组字符串针对字符串表达“简洁”和“特征”思想的工具判断某字符串的特征归属作用:表达文本类型的特征(病毒,入侵等)查找或替换一组字符串匹配字符串(主要作用)使

2017-08-12 20:49:37 727

原创 3、信息组织与提取方法

信息的标记:形成信息组织结构,增加信息维度有利于通讯,存储和展示标记的结构和信息一样有着重要的价值有利于程序理解与处理,应用HTML的信息标记:     html是www(World Wide Web)的信息组织方式,将声音,图像,视频等超文本信息嵌入到文本中     html是通过预定义的标签形式将不同类型信息组织起来的1、信息标记的三种形式:XML、JSON、Y

2017-04-22 21:43:56 674

原创 2、Beautiful Soup库(bs4)入门

该库能够解析HTML和XML使用Beautiful Soup库: frombs4importBeautifulSoup soup =BeautifulSoup('<p>data</p>', 'html.parser') #html解析器:html.parser ,前一个参数则是要解析的内容小测:from b...

2017-04-13 14:47:50 38454 4

原创 三、Python2.x 数据的获取与表示

3.1本地数据获取注意,打开文件要记得关闭文件文件的打开     file_obj = open(filename,mode = 'r',buffering = -1)     filename:强制参数,必须要有的参数     mode:为可选参数,模式参数,默认为'r'也就是读;'w'为写     buffering: 可选参数,默认为-1, 0代表不缓冲,1或大于1的

2017-04-13 13:32:17 857

原创 二、Python2.x 基本内容2

2.1 条件结构if语句     if 条件表达式:         #注意有冒号          代码块              #注意缩进     else:                       #与if对齐          代码块    elif语句     if 条件:          代码块     elif 条件:   

2017-04-13 13:24:57 353

原创 一、Python 2.x 基础内容1

1.1:Python的简介1.2:Python的第一个程序“Hello world”Python输出:print语句:print 'Hello world'输入:raw_input()Python风格:注释:以#开始续行:\一行多语句:分号隔开(一般不用)缩进:1——缩进表示语句块的开始;2——相同缩进表示同级别语句块;3——减少缩进表示语句块的退出1.3:Python

2017-04-13 13:20:29 433

原创 1、网络爬虫之规则之requests库入门

导学:掌握定向网络数据爬取和网页解析的基本能力一、 Requests库入门公认的爬取网页最好的第三方库,简单和简洁import requestsr = requests.get('http://www.baidu.com')num = r.status_code    #状态码print(num)r.encoding = 'utf-8'print(r.tex

2017-04-13 12:19:35 2165

原创 Scikit learn:machine learning in Python之贝叶斯学习

chapter 2之朴素贝叶斯.       朴素贝叶斯是一个简单却很强大的分类器,基于贝叶斯定理的概率模型。本质来说,贝叶斯是基于每个特征值的概率去决定该实例属于一类的概率,前提条件,也就是假定每个特征之间是独立的。朴素贝叶斯的一个非常成功的应用就是自然语言处理(natural language processing , NLP),NLP问题有很重要的,大量的标记数据(一般为文本文件),

2016-12-18 19:16:36 1782 2

原创 分类问题之逻辑回归

逻辑回归(logistic regression):Logistic regression is a method for classifying data into discrete outcomes.(将数据分类为离散的结果输出,例如将分类邮件为垃圾邮件或非垃圾邮件)首先,了解一下分类:例如,给出一堆邮件,将其分为垃圾邮件和非垃圾邮件;又比如将肿瘤分类为良性和恶性两

2016-09-17 16:19:36 5003

原创 过度拟合与正规化线性回归

过度拟合(over fitting):在拟合数据时,如果要包含每条训练记录数据,则很容易产生过度拟合,换句话说,过度拟合现象在特征变量很多很多时容易产生。(如下图2所示)                           解决过度拟合的两种方法:减少选取特征变量的数量(reduce number of features)正规化:保留所有特征变量,但是减少数量级或者参数大小(k

2016-09-07 21:00:28 2282

原创 回归问题之线性回归II

1、线性回归(linear regression):b、多元线性回归 multivariate linear regression:形式如下:令则因此:有                                          参数有:那么,cost function(代价函数)为:

2016-08-30 15:57:14 2544

原创 在pycharm中使用anaconda

Python是一种强大的编程语言,其提供了很多用于科学计算的模块,常见的包括numpy、scipy、pandas和matplotlib, 而这些模块可能又依赖于其它的软件包或库,因而安装和使用起来相对麻烦。有人专门在做这一类事情,将科学计算所需要的模块都编译好,然后打包以发行版的形式供用户使用,Anaconda就是其中一个常用的科学计算发行版:https://www.continuum.i

2016-08-22 16:00:10 65183

原创 使用matplotlib实现画图

画图主要分为两部分:函数和图像使用matplotlib画图,先把函数表达出来(通常使用numpy第三方库),然后pyplot模块plot就可以了。1、函数部分:y=f(x),将x 和 y 都表达出来:eg:from matplotlib import  pyplot as pltimport numpy as npx =np.arange(-7,10,0.5

2016-08-18 16:39:02 911

原创 回归问题之线性回归

1、线性回归(linear regression):a、单变量线性回归univariate linear regression:形式:关键是怎么选择模型的参数,:应该是使得尽可能/无限 接近训练样本(x,y)中的y值,也就是最小化问题:线性回归的整体目标函数其中,i 表示第i个样本;m 表示训练样本数量。令,那么,我们要做的便是使得最小化

2016-08-17 16:46:04 1395

原创 监督学习与无监督学习

监督学习:supervised learning (given the "right answer" for each example in the data)          监督学习是指数据集中,有部分数据是已经含有正确答案,即为训练集,根据该类数据集去算出另一部分数据集的答案。监督学习主要分为有两大类问题:回归      虽然给的数据集可能是离散的,但是一般会理解为

2016-08-17 16:45:14 564

原创 插值

在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点。插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。       与拟合不同的是,它要求曲线通过所有的已知数据。python中:scipy的interpolate模块提供了许多插值运算的函数1、B样条曲线插值:一维数据的插值运算通

2016-08-12 16:54:10 2964

原创 基于anaconda安装模块(threading)

基于anaconda安装模块, 不能直接用pip或者conda命令安装,需要自己手动安装。先下载threading模块,https://pypi.python.org/pypi/threading-sched/1.0.0解压,threading_sched-1.0.0命令行进入解压的文件夹路径:输入 python setup.py install 即

2016-07-25 16:10:40 3814

原创 python之字典

字典:以大括号“{}”包围的数据集合。字典与列表的最大不同在于字典是无序的。字典中是通过健来访问成员字典可变,可以包含任何其他类型字典中的成员位置只是象征性的,不能通过其位置来访问该成员常用的字典操作:dic.clear()                                    清空字典dic.copy()                      

2016-07-21 17:11:05 632

原创 install Chaco——交互式图表

安装chaco模块:下载chaco模块,https://pypi.python.org/pypi/chaco/4.5.0因为chaco模块要求先有numpy,distribute和enable模块,numpy已安装,故下载后两模块:https://pypi.python.org/pypi/distribute/0.7.3和https://github.com/enthought/enabl

2016-04-22 20:10:23 2532

原创 在Source Insight 中阅读python

先下载安装Source Insight, 下载个SI的CLF文件,地址为http://www.sourceinsight.com/public/languages/Python.CLF在options中的preference中导入.clf文件然后在options中的document中设置就可以了,如下:

2016-04-22 20:08:02 479

原创 python之引入外援模块

模块下载地址:https://pypi.python.org/pypi下载,安装python模块:在cmd里进行:    #显示位置所有目录     #进入python安装目录,使用pip下载和安装模块(pip install Ipython)注意: pip install -d可以下载安装包查

2016-04-18 15:25:45 1104

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除