自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 收藏
  • 关注

原创 python调用百度API实现中英文互译

import httpimport hashlibimport urllib.requestimport randomimport jsonimport csvimport pandas as pddef nodes_name_translate(node_name): appid = '' # 自己申请appid和secretKey secretKey = '' httpClient = None myurl = '/api/trans/vip/trans

2020-12-02 16:55:52 855

原创 python实现简单问答

import jiebaimport refrom gensim import corpora,models,similaritiesimport pandas as pd载入用户词典jieba.load_userdict('userdict.txt')创建停用词表def stopwordslist(filepath): stopwords=[line.strip() for line in open(filepath,'r',encoding='utf-8').readline

2020-09-04 17:16:11 1397

原创 启动Stata时的基本设定

*说明:*此文件设定了每次启动stata时需要做的一些基本设定*你可以在此文件中添加你希望在stata启动时立刻执行的命令 set type double set memory 50m set matsize 2000 set scrollbufsize 500000 //窗口中显示的行数上限 set more off,perma adopath + "D:\Stata16\ado\personal"*采用相似的方式,可添加其它允许stata搜索的目录// sysdir se

2020-08-06 12:32:24 4143

原创 stata中出现unrecognized command: xxx命令无法识别或无法执行怎么办

当stata提示信息“unrecognized command: xxx”时,意味着命令“xxx”无法识别。主要包括三类:第一类是Stata自带的,统一存放于“D:\Stata\ado\base”文件夹下,这些命令通常不会出现无法识别的问题;第二类是自己下载的外部命令,统一存放于“D:\Stata\ado\plus”文件夹中,可以自己在安装stata后设置下stata的文件路径,这样就不会出现命令无法识别的问题;第三类是自己编写的命令,统一存放于“D:\Stata\ado\personal\ ”文件夹中,要

2020-08-06 11:40:17 64941 1

原创 机器学习特征工程基本流程

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom sklearn.preprocessing import

2020-07-12 20:47:54 365

原创 NLTK--词性标注

tag标注说明import nltkfrom nltk.tag import pos_tagfrom nltk.tokenize import word_tokenize1.词性标注器text=word_tokenize('And now for something completely different')print(pos_tag(text))out:[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'),

2020-07-10 11:49:59 5824 1

原创 LDA主题模型进阶

其实我在TF-IDF和gensim实现主题提取写过LDA关于LDA的理论相关知识以后有机会阐释import numpy as npfrom gensim import corpora,models,similaritiesfrom pprint import pprint #打印出来的更好看1.构建停用词列表def load_stopword(): f_stop=open('stopword.txt') sw=[line.strip() for line in f_stop]

2020-07-08 11:24:23 548

原创 scikit-learn实现ROC

ROC曲线import numpy as npimport matplotlib.pyplot as pltimport sklearn.datasets as sddigits=sd.load_digits()x=digits.datay=digits.target.copy()y[digits.target==9]=1 #自定义分类标签y[digits.target!=9]=0训练集、测试集划分import sklearn.model_selection as smx_tria

2020-07-05 21:34:07 275 1

原创 网站该不该给用户贷款呢

1.数据预处理1.1去掉Url以及描述等内容​import pandas as pdloans_2007 = pd.read_csv('LoanStats3a.csv', skiprows=1) #skiprows=1表示从第二行开始读half_count = len(loans_2007) / 2loans_2007 = loans_2007.dropna(thresh=half_count, axis=1)#thresh=n,即剔除NA值,保留下来的每一行,其非NA的数目>=nloan

2020-07-05 15:53:23 179

原创 机器学习--交叉验证

数据集划分对于分类问题训练集和测试集的划分不应该用整个样本空间的特定百分比作为训练数据,而应该在其每一个类别的样本中抽取特定百分比作为训练数据。sklearn模块提供了数据集划分相关方法,可以方便的划分训练集与测试集数据,使用不同数据集训练或测试模型,达到提高分类可信度。数据集划分相关API:import sklearn.model_selection as msms.train_test_split(输入集, 输出集, test_size=测试集占比, random_state=随机种子)

2020-06-17 16:31:19 484

原创 TF-IDF和gensim实现主题提取

主题抽取经过分词、单词清洗、词干提取后,基于TF-IDF算法可以抽取一段文本中的核心主题词汇,从而判断出当前文本的主题。属于无监督学习。gensim模块提供了主题抽取的常用工具 。主题抽取相关API:import gensim.models.ldamodel as gmimport gensim.corpora as gc# 把lines_tokens中出现的单词都存入gc提供的词典对象,对每一个单词做编码。line_tokens = ['hello', 'world', ...]dic =

2020-06-15 15:20:14 1344

原创 自然语言处理之TF-IDF

词频(TF)单词在句子中出现的次数除以句子的总词数称为词频。即一个单词在一个句子中出现的频率。词频相比单词的出现次数可以更加客观的评估单词对一句话的语义的贡献度。词频越高,对语义的贡献度越大。对词袋矩阵归一化即可得到词频。案例:对词袋矩阵进行归一化import nltk.tokenize as tkimport sklearn.feature_extraction.text as ftimport sklearn.preprocessing as spdoc = 'The brown dog i

2020-06-15 15:15:22 423

原创 自然语言处理工具包 - NLTK

文本分词分词处理相关API:import nltk.tokenize as tk# 把样本按句子进行拆分 sent_list:句子列表sent_list = tk.sent_tokenize(text)# 把样本按单词进行拆分 word_list:单词列表word_list = tk.word_tokenize(text)# 把样本按单词进行拆分 punctTokenizer:分词器对象punctTokenizer = tk.WordPunctTokenizer() word_lis

2020-06-15 14:59:35 398

原创 随机森林分析共享单车的需求

随机森林相关API:import sklearn.ensemble as se# 随机森林回归模型 (属于集合算法的一种)# max_depth:决策树最大深度10# n_estimators:构建1000棵决策树,训练模型# min_samples_split: 子表中最小样本数 若小于这个数字,则不再继续向下拆分model = se.RandomForestRegressor(max_depth=10, n_estimators=1000, min_samples_split=2)案例:

2020-06-04 11:56:07 1795 2

原创 Tensorflow神经网络的实现过程

1、准备数据集,提取特征,作为输入喂给神经网络( Neural Network NN)2、搭建 NN 结构,从输入到输出(先搭建计算图,再用会话执行)3、大量特征数据喂给 NN ,迭代优化 NN 参数4、使用训练好的模型预测和分类基于tensorflow的前向传播变量初始化:在 sess.run 函数中用 tf.global_variables_initializer() 汇总所有待优化变量。init_op = tf.global_variables_initializer()sess.run

2020-06-04 11:28:31 385

原创 逻辑回归实现自动分类

人工分类特征1特征2输出3102511816405203514714-10………681510案例:import numpy as npimport matplotlib.pyplot as mpx = np.array([ [3, 1], [2, 5], [1, 8], [6, 4], [5, 2], [3, 5],

2020-05-25 22:36:51 424 2

原创 多线程爬取小米应用商店

目标1、网址 :百度搜 - 小米应用商店,进入官网2、目标 :所有应用分类 应用名称 应用链接实现步骤1、确认是否为动态加载1、页面局部刷新2、右键查看网页源代码,搜索关键字未搜到# 此网站为动态加载网站,需要抓取网络数据包分析2、F12抓取网络数据包1、抓取返回json数据的URL地址(Headers中的Request URL) http://app.mi.com/categotyAllListApi?page={}&categoryId=2&amp

2020-05-25 22:12:22 872

原创 Pandas数据处理常用操作(更新中)

1.查看数据相关信息df.info() #查看数据类型df.shape #查看数据规模df.describe() #数据统计信息描述2.如何设置才能不隐藏DataFram的列?pd.set_option("max_columns",100) #这里100可以调整:最大显示列数pd.set_option('display.max_columns',None) #这种是都显示3.如何将序列的索引转换成数据帧的列?import numpy as npimport pandas as pdm

2020-05-20 17:42:28 3015 2

原创 Python数据预处理相关库

数据预处理相关库# 解决机器学习问题的科学计算工具包import sklearn.preprocessing as sp均值移除(标准化)由于一个样本的不同特征值差异较大,不利于使用现有机器学习算法进行样本处理。均值移除可以让样本矩阵中的每一列的平均值为0,标准差为1。如何使样本矩阵中的每一列的平均值为0呢?例如有一列特征值表示年龄: 17, 20, 23mean = (17 + 20 + 23)/3 = 20a' = -3b' = 0c' = 3完成!如何使样本矩阵中的每一

2020-05-18 22:22:37 739 2

原创 Python实现数据预处理--特征标准化与归一化

本文不对标准化和归一化相关原理和公式作阐述标准化(均值移除)由于一个样本的不同特征值差异较大,不利于使用现有机器学习算法进行样本处理。均值移除可以让样本矩阵中的每一列的平均值为0,标准差为1。转换公式如下:标准化的意义:想象一下,我们经常通过梯度下降来进行优化求解,公式一般如下,如果特征之间的数值差异太大,那么更新的结果肯定也会产生较大的差异,这是我们所不希望的。在最开始的时候,我们认为特征之间的重要程度的是一样,并不想偏袒哪个特征,所以这部预处理工作必做!import pandas as p

2020-05-18 22:15:06 7340

原创 Python实现数据预处理-离散值处理

关于特征值离散化的相关内容可以看机器学习面试题之机器学习基础(一)1.pandas进行特征离散处理import pandas as pddf = pd.DataFrame([ ['green', 'M', 10.1, 'class1'], ['red', 'L', 13.5, 'class2'], ['blue', 'XL', 15.3, 'class1']])df.columns = ['color', 'size',

2020-05-17 21:27:03 5054 1

转载 scipy--统计检验

今天整理了一下使用python进行常用统计检验的命令与说明,具体的关于假设检验、统计量、p值等统计学相关的知识可以参考数据分析之必会统计学1.正态性检验正态性检验是检验数据是否符合正态分布,也是很多统计建模的必要步骤,在Python中实现正态性检验可以使用W检验(SHAPIRO-WILK TEST)检验原假设:样本服从正态分布结果解释:当p值小于某个显著性水平α(如0.05)时,则认为样本不是来自正态分布的总体,否则承认样本来自正态分布的总体。from scipy.stats import sha

2020-05-17 11:42:47 1782 2

原创 Seaborn--热力图(六)

%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np; np.random.seed(0)import seaborn as sns;sns.set()uniform_data = np.random.rand(3, 3)print (uniform_data)heatmap = sns.heatmap(uniform_data)ax = sns.heatmap(uniform_data, vmin=0

2020-05-10 18:23:34 271 2

原创 Seaborn--facetgrid画图(五)

%matplotlib inlineimport numpy as npimport pandas as pdimport seaborn as snsfrom scipy import statsimport matplotlib as mplimport matplotlib.pyplot as pltsns.set(style="ticks")np.random.seed(sum(map(ord, "axis_grids")))tips = sns.load_dataset("t

2020-05-10 18:16:50 296 1

原创 Seaborn--多变量分析(四)

参数:x,y,hue 数据集变量 变量名date 数据集 数据集名row,col 更多分类变量进行平铺显示 变量名col_wrap 每行的最高平铺数 整数estimator 在每个分类中进行矢量到标量的映射 矢量ci 置信区间 浮点数或Nonen_boot 计算置信区间时使用的引导迭代次数 整数units 采样单元的标识符,用于执行多级引导和重复测量设计 数据变量或向量数据order, hue_order 对应排序列表 字符串列表row_order, col_order 对应排序列表 字

2020-05-09 22:00:25 453

原创 Seaborn--单变量分析(三)

%matplotlib inlineimport numpy as npimport pandas as pdfrom scipy import stats, integrateimport matplotlib.pyplot as pltimport seaborn as snssns.set(color_codes=True)np.random.seed(sum(map(ord...

2020-05-03 17:06:05 363

原创 Seaborn--调色板(二)

调色板颜色很重要color_palette()能传入任何Matplotlib所支持的颜色color_palette()不写参数则默认颜色set_palette()设置所有图的颜色import numpy as npimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinesns.set(rc={"...

2020-05-03 16:42:32 840 1

原创 Seaborn--图形风格设置(一)

SeabornSeaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。同时它能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。Seaborn的...

2020-05-03 15:02:16 2108 1

原创 Python时间序列--股票预测(七)

1.数据获取import pandas as pdimport datetimeimport pandas_datareader.data as webimport matplotlib.pyplot as pltimport seaborn as snsfrom statsmodels.tsa.arima_model import ARIMAfrom statsmodels.gra...

2020-05-02 11:54:48 5153 4

原创 Python时间序列--ARIMA模型参数选择(六)

ARIMA模型参数选择流程import pandas as pdimport numpy as np# TSA from Statsmodelsimport statsmodels.api as smimport statsmodels.formula.api as smfimport statsmodels.tsa.api as smt# Display and Plottin...

2020-04-29 12:27:29 7527 9

原创 Python时间序列--ARIMA模型参数选择(五)

自回归模型(AR)自回归模型的限制移动平均模型(MA)ARIMA(p,d,q)模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)AR是自回归, p为自回归项; MA为移动平均q为移动平均项数,d为时间序列成为平稳时所做的差分次数原理:将非平稳时间序列转化为平稳时间序列然后将因变量仅对它...

2020-04-29 11:16:18 9318 3

原创 Python时间序列--数据平稳(四)

1.平稳性来自于扯扯金融平稳性是用来描述时间序列数据统计性态的特有术语。2.时间序列平稳性的理解凭以推测经济系统(或其相关变量)在未来可能出现的状况,亦即预测经济系统(或其相关变量)的走势,是我们建立经济计量模型的主要目的。而基于随机变量的历史和现状来推测其未来,则是我们实施经济计量和预测的基本思路。这就需要假设随机变量的历史和现状具有代表性或可延续性。换句话说,随机变量的基本特性必须能在...

2020-04-27 15:09:06 2356 1

原创 Python时间序列--滑动窗口(三)

滑动窗口滑动窗口就是能够根据指定的单位长度来框住时间序列,从而计算框内的统计指标。相当于一个长度指定的滑块正在刻度尺上面滑动,每滑动一个单位即可反馈滑块内的数据。滑动窗口的意义为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。例如想使用2020年1月1日的一个数据,单取这个时间点的数据当然是可行的,但是太过绝对,有没有更好的办法呢?可以选取2...

2020-04-27 14:25:24 9747 2

原创 Python时间序列--数据重采样(二)

数据重采样重采样分为上(升)采样和下采样,下(降)采样时需要对信号进行抽取,上采样时需要对信号进行插值时间数据由一个频率转换到另一个频率降采样升采样import pandas as pdimport numpy as nprng = pd.date_range('1/1/2020', periods=90, freq='D')ts = pd.Series(np.random....

2020-04-27 13:59:03 2730

原创 Python时间序列--时间段(一)

时间序列时间戳(timestamp)固定周期(period)时间间隔(interval)import pandas as pdimport numpy as npdate_range可以指定开始时间与周期H:小时D:天M:月Y:年# TIMES #2020 Apr 27 4/27/2020 27/4/2020 2020-4-27 2020/04/27rng = ...

2020-04-27 13:41:50 1981

原创 mysql--分支/循环

流程控制结构顺序、分支、循环一、分支结构1.if函数语法:if(条件,值1,值2)功能:实现双分支应用在begin end中或外面2.case结构语法:情况1:类似于switchcase 变量或表达式when 值1 then 语句1;when 值2 then 语句2;...else 语句n;end 情况2:case when 条件1 then 语句1...

2020-04-23 16:08:34 472 1

原创 mysql--函数

函数含义:一组预先编译好的SQL语句的集合,理解成批处理语句1、提高代码的重用性2、简化操作3、减少了编译次数并且减少了和数据库服务器的连接次数,提高了效率区别:存储过程:可以有0个返回,也可以有多个返回,适合做批量插入、批量更新函数:有且仅有1 个返回,适合做处理数据后返回一个结果一、创建语法*/CREATE FUNCTION 函数名(参数列表) RETURNS 返回类...

2020-04-23 10:46:30 982

原创 NLTK健康领域英文文本分词、词性标注、词频统计

import reimport numpy as npimport pandas as pdimport nltk.tokenize as tkimport nltk.corpus as nchandel_file = 'health_handel.csv' #分词好要保存的数据文件路径#读取数据data=pd.read_excel('health.xlsx')print(dat...

2020-04-21 23:41:29 1121 5

转载 电影推荐-基于用户的协同过滤推荐

推荐引擎推荐引擎意在把最需要的推荐给用户。在不同的机器学习场景中通常需要分析相似样本。而统计相似样本的方式可以基于欧氏距离分数,也可基于皮氏距离分数。欧氏距离分数欧氏距离分数=11+欧氏距离欧氏距离分数 = \frac{1}{1+欧氏距离}欧氏距离分数=1+欧氏距离1​计算所得欧氏距离分数区间处于:[0, 1],越趋于0样本间的欧氏距离越远,样本越不相似;越趋于1,样本间的欧氏距离越...

2020-04-21 16:08:26 664

转载 利用python进行数据清洗

在做数据分析之前,我们首先要明确数据分析的目标,然后应用数据分析的思维,对目标进行细分,再采取相应的行动。我们可以把数据分析细分为以下 8 个步骤:(1)读取(2)清洗(3)操作(4)转换(5)整理(6)分析(7)展现(8)报告下面我们用一副待清洗的扑克牌作为示例,假设它保存在代码文件相同的目录下,在 Jupyter Lab 环境中运行以下代码:import numpy as...

2020-04-21 15:50:14 9248 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除