tatumWei-CSDN博客

原创《Python 数据分析与挖掘实战》第十五章电商产品评论数据LDA主题模型、文本挖掘

一、分析方法与过程本次针对京东商城上的“美的”热水器的文本评论数据进行建模分析。本文进行基本的预处理、分词等操作后建立LDA主题模型，实现对文本评论数据的倾向性判断及信息挖掘分析。（1）利用爬虫进行数据采集（由于最近较忙，爬虫代码等空了再附上，暂且先用书中提供的数据进行建模），原始文本评论数据为将品牌为“美的”的一列评论抽取，另存为文本文件。代码如下（2）对数据进行基本处理，包括数据预处理、中文分...

2018-07-03 10:48:31 15525 7

原创 Python数据分析与挖掘实战第三章笔记之相关性分析

#相关性分析：分析连续变量之间线性相关程度的强弱，并用适当的统计指标表示出来# 直接绘制散点图# 绘制散点图矩阵：当同事考虑多个变量间的相关关系时，可以利用散点图矩阵同时绘制各变量间的散点图。# 计算相关系数：二元变量的相关性分析中常用pearson相关系数，spearman秩相关系数和判定系数；pearson相关系数要求连续变量的取值服从正态分布，不服从正态分布的变量、分类或者等级变量之间...

2018-05-30 21:11:29 636

原创 Python数据分析与挖掘实战第三章笔记之贡献度分析代码

# 贡献度分析：又称帕累托分析，原理是帕累托法则，又称20/80定律。80%的利润常常来自于20%的最畅销产品，剩下的80%的产品只产生了20%的利润。# 帕累托图代码from __future__ import print_functionimport pandas as pddish_profit='E:/WTTfiles/自我学习/机器学习/python数据分析与挖掘实战/chapt...

2018-05-30 21:10:34 1155

原创 Python数据分析与挖掘实战第三章笔记之数据特征分析

#3.2数据特征分析（分布分析，对比分析，统计量分析，周期性分析，贡献度分析，相关性分析）#分布分析：能解释数据的分布特征和分布类型。定量数据：绘制频率分布表，频率分布直方图，茎叶图。定性数据：绘制饼图，条形图。# 对比分析：是指把两个相互联系的指标进行比较，从数量上展示和说明研究对象规模的大小，水平的高低，适用于指标间的横纵向比较，时间序列的比较分析。# 对比分析主要有：绝对数比较，相对...

2018-05-30 21:09:52 729

原创 Python数据分析与挖掘实战第三章笔记之数据质量分析

# 3.1数据质量分析# 数据质量分析主要任务是检查原始数据中是否存在脏数据（缺失值，异常值，不一致的值，重复数据及含有特殊符号的数据）# 缺失值：使用简单的统计分析可以得到含有缺失值的属性的个数，以及每个属性的未缺失数，缺失数与缺失率等。对于缺失值处理分为删除存在缺失值的记录，对可能的值进行插补和不处理。# 异常值也称为离群点。简单的描述性统计，查看哪些数据是不合理的，常用的统计量是最大值...

2018-05-30 21:09:09 820

原创 Python数据分析与挖掘实战第四章笔记之数据规约、主成分分析

# 4.4数据规约：降低无效、错误数据对建模的影响，提高建模的准确性；少量且具有代表性的数据将大幅缩减数据挖掘所需时间；降低存储数据的成本。# 属性规约：通过属性合并来创建新属性维数，或者直接通过删除不相关的属性来减少数据维数。# 常见方法：# 1、合并属性：将一些旧属性合为新属性# 2、逐步向前选择：从一个空属性集开始，每次从当前属性子集中选择一个当前最优的属性并将其添加到当前属性子集中...

2018-05-30 21:07:45 1086 3

原创 Python数据分析与挖掘实战第四章笔记之属性离散化

# 在一些分类算法中，要求数据是分类属性形式，这样，常常需要将连续属性变换成分类属性，即连续属性离散化# 1、离散化过程：在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或者整数值代表落在每个子区间中的数据值。# 2、离散化方法：# （1）等宽法：将属性的值域划分成具有相同宽度的区间，区间的个数由数据本身的特点决定，或者由用户指定。# （2）等频...

2018-05-30 21:05:45 648

原创 Python数据分析与挖掘实战第四章笔记之数据预处理

# 数据预处理：包括数据的清洗，数据集成，数据变化和数据规约。# 数据清洗主要是删除原始数据集中的无关数，重复数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，处理缺失值，异常值等# 缺失值的处理：删除记录，数据插补和不处理三种方法。# 数据插补方法：1、均值、中位数、众数插补；2、使用固定值插补：将缺失的属性值用一个常量进行替换；3、最近临插补：在记录中找到与缺失样本最接近的样本的该属性值进...

2018-05-30 21:03:42 910

原创 Python数据分析与挖掘实战第五章笔记之离群点检测

#离群点检测：发现与大部分其他对象显著不同的对象# 离群点成因：数据来源于不同的类，自然变异，数据测量和收集误差# 离群点类型：# 1、全局离群点和局部离群点：从整体来看某些对象没有离群特征，但是从局部来看，却显示了一定的离群性。# 2、数值型离群点和分类型离群点# 3、一维离群点和多维离群点# 离群点检测方法：# 1、基于统计：构建一个分布模型，并计算对象符合该模型的概率，把具有低...

2018-05-29 18:47:19 5489 1

原创 Python数据分析与挖掘实战第五章笔记之时间序列分析

#时间序列分析：给定一个已被观测了的时间序列，预测该序列的未来值# 时间序列算法：# 1、平滑法：常用语趋势分析和预测，利用修匀技术，虚弱短期随机波动对序列的影响，使序列平滑化，根据平滑技术的不同，分为移动平均法和指数平滑法# 2、趋势拟合法：把时间作为自变量，相应的序列观察值作为因变量，建立回归模型，根据序列的特征，可具体分为线性拟合和曲线拟合# 3、组合模型：时间序列的变化主要受到长期...

2018-05-29 18:46:43 969

原创 Python数据分析与挖掘实战第五章笔记之关联规则

关联规则：也称购物篮分析。#常用关联规则算法：# 1、Apriori：关联规则最常用的挖掘频繁项集的算法，核心思想是通过连接产生选项及其支持度然后通过剪枝生成频繁项集。# 2、FP-Tree：针对Apriori固有的多次扫描事务数据集的缺项，提出不产生候选频繁项集的方法# 3、Eclat：是一种深度优先算法，采用垂直数据表示形式，在概念格理论的基础上利用基于前缀的等价关系将搜索空间划分为较...

2018-05-29 18:45:55 769

原创 Python数据分析与挖掘实战第五章笔记之聚类分析

#聚类分析：# 聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。可以建立在无类标记的数据上，是一种非监督的学习算法。划分原则是组内距离最小化，组间距离最大化。# 常用的聚类方法：# 1、划分方法：K-Means（K均值），K-Medoids（K-中心点），Clarans算法# 2、层次分析方法：BIRCH算法（平衡迭代规约和聚类），CURE算法（代表点聚类），C...

2018-05-29 18:44:59 1308

原创 Python数据分析与挖掘实战第五章笔记之人工神经网络

#人工神经网络是模拟生物神经网络进行信息处理的一种数学模型。人工神经元是人工神经网络操作的基本信息处理单位。# 人工神经网络的学习也称为训练，指的是神经网络在收到外部环境的刺激下调整神经网络的参数，使神经网络以一种新的方式对外部环境做出反应的一个过程。# 在分类与预测中，人工神经网络主要使用指导的学习方式，即根据给定的训练样本，调整人工神经网络的参数以使网络输出接近于已知的样本类标记或其他形式...

2018-05-29 18:44:17 1313

原创 Python数据分析与挖掘实战第五章笔记之决策树

#决策树算法分类：# 1、ID3算法：其核心是在决策树的各级节点上，使用信息增益方法作为属性的选择标准，来帮助确定生成每个节点时所应采用的合适属性# 2、C4.5算法：是使用信息增益率来选择节点属性，ID3只适用于离散的属性描述，而C4.5既能够处理离散的描述属性，也可以处理连续的描述属性# 3、CART算法：是一种十分有效地非参数分类和和i回归方法，通过构建树、修剪树、评估树来构建一个二叉...

2018-05-29 18:43:27 1118

原创 Python数据分析与挖掘实战第五章笔记之回归分析

#分类与预测：# 分类：是一个构造分类模型，输入样本的属性值，输出对应的类别，将每个样本映射到先定义好的类别；分类模型建立在已有类标记的数据集上，模型在已有样本上的准确率可以方便计算。# 分类两步：第一步是学习步，通过归纳分析训练样本集哎加你分诶模型得到分类规则；第二步是分类不，先用一直的测试样本集评估分类规则的准确率，如果准确率可以接受，则使用该模型对未知类标号的待测样本集进行预测。# 预...

2018-05-29 18:42:32 649

原创 python数据分析与挖掘实战第六章拓展思考题

拓展思考题是汽车是否偷漏税识别问题。查看数据后进行以下分析1、数据探索对数据进行简单分析，看销售模式和销售类别对偷漏税是否有影响import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] ...

2018-05-29 18:37:11 2822

qq_41775711的博客