自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Andrewings

路漫漫其修远兮

  • 博客(50)
  • 收藏
  • 关注

原创 python核心技术与实战学习笔记(十六):巧用上下文管理器和with语句精简代码

16.巧用上下文管理器和with语句精简代码16.1 上下文管理器简介16.2 上下文管理器的实现16.2.1 基于类的上下文管理器16.2.2 基于生成器的上下文管理器16.1 上下文管理器简介在任何一门编程语言中,文件的输入输出、数据库的连接断开等,都是很常见的资源管理操作。但是资源是有限的,我们必须注意要在使用资源后进行资源的释放,否则容易造成资源泄露,使得系统处理缓慢甚至会系统奔溃。...

2019-09-08 00:01:24 294

原创 python核心技术与实战(十五):合理利用assert

15. 合理利用assert15.1 什么是assertassert expression1assert expression1,expression215.2 assert的用法例1例2例315.3 assert的错误示例例1例215.1 什么是assertassert语句是一个debug的好工具,主要用于测试一个条件是否满足:满足:什么也不做,相当于执行了语句pass不满足:抛出As...

2019-09-01 22:23:53 353

原创 python核心技术与实战(十四):Asyncio实现并发

14. Asyncio实现并发14.1 Asyncio简介14.2 Asyncio的工作原理14.3 Asyncio使用示例14.1 Asyncio简介多线程已经可以带来较大的效率提升,那么我们还需要asyncio的原因是:多线程运行过程容易被打断,有可能出现race condition的情况线程切换本身存在一定的消耗,若I/O操作非常heavy,多线程很有可能满足不了高效率、高质量的需...

2019-08-28 19:07:44 1127

原创 python核心技术与实战学习笔记(十三):Futures多线程实现并发

13.多线程实现并发13.1 python中并发的两种方式:threading和asyncio并发和并行的概念并发与并行的对比13.2 threading多线程实现并发编程(Futures)单线程与多线程性能比较并行执行版本13.1 python中并发的两种方式:threading和asynciothreading:操作系统知道每个线程的所有信息,会自主在适当的时候做线程切换。asynci...

2019-08-25 21:59:34 408

原创 西瓜书学习笔记——第十六章:强化学习

16. 强化学习16.1 任务与奖赏16.1 任务与奖赏

2019-08-20 16:04:13 1065

原创 python核心技术与实战学习笔记(十二):python协程

12. python协议12.1 协程的概念12.2 协程的代码实现12.3 解析协程如何运行取消超时协程任务和处理出错的协程任务12.4 总结12.1 协程的概念根据维基百科给出的定义,“协程 ,英文Coroutines,是一种比线程更加轻量级的存在,是为非抢占式多任务产生子程序的计算机程序组件,协程允许不同入口点在不同位置暂停或开始执行程序”。它是实现并发编程的一种方式。以往这种方式都是...

2019-08-16 00:24:20 228

原创 西瓜书学习笔记——第十五章:规则学习

15. 规则学习15.1 基本概念15.2 序列覆盖产生规则的策略15.3 剪枝优化15.4 一阶规则学习FOIL算法15.5 归纳逻辑程序设计15.1 基本概念规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则规则本身是一个贪心的搜索过程规则集合:规则集合中的每条规则都可以看作一个子模型,规则集合是这些子模型的一个集合冲突:当同一条示例被判别结果不同的多条规则覆盖时,称发...

2019-08-14 18:14:26 1309 2

原创 python核心技术与实战学习笔记(十一):深入理解迭代器与生成器

11. 深入理解迭代器与生成器11.1 容器,可迭代对象和迭代器11.2 生成器11.2.1 生成器的概念:11.2.2 生成器的作用11.2.3 生成器的使用示例1示例2示例311.1 容器,可迭代对象和迭代器容器:对象的集合,如列表、元组、字典、集合所有容器都是可迭代的(iterable)迭代器(iterator)提供了next()方法,调用这个方法,要么得到容器的下一个对象,要么得...

2019-08-12 23:49:48 191

原创 Python核心技术与实战学习笔记(十):强大的装饰器

10. 强大的装饰器10.110.1

2019-08-12 10:47:06 242

原创 数据挖掘小组学习:模型构建与模型评估

3. 模型构建3.1 任务3.2 代码3.1 任务用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。(不需要考虑模型调参)3.2 代码导入逻辑回归、svm、决策树、随机森林和XGBoost等模型:from sklearn.linear_model import LogisticRegressionfrom sklearn.svm import ...

2019-08-11 22:10:03 496

原创 数据挖掘小组学习:特征工程

2. 特征工程2.1 任务要求2.2 特征衍生2.3 归一化处理2.4 IV值进行特征选择计算公式WOE2.1 任务要求特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理2.2 特征衍生根据特征’history_suc_fee’和’history_fail_fee’计算历史借款总额和还款成功率和失败率features = pd.concat([X_tr...

2019-08-09 18:08:58 293

原创 西瓜书学习笔记——第十四章:概率图模型

14.概率图模型14.0 概率图模型14.1 隐马尔可夫模型14.2 马尔科夫随机场(MRF)14.3 条件随机场(CRF)14.4 学习与推断14.4.1 变量消去14.4.2 信念传播14.5 LDA话题模型14.0 概率图模型机器学习的核心在于根据一些已经观察到的证据(例如训练样本)来对未知变量进行估计和预测。其中基于概率的模型将学习任务归结为计算变量的概率分布,正如之前已经提到的:生成...

2019-08-07 22:41:51 1256

原创 数据挖掘小组学习:数据探索和分析

1. 数据探索和分析1.1 读取数据1.2 探索数据1.3 数据清洗¶1.3.1 去除重复记录1.3.2 删除无关特征1.3.3 数据类型分析1.3.4 数据类型转换1.3.5 缺失值处理1.1 读取数据本次的数据集格式为.csv,利用pandas中的read_csv()函数读入数据集,encoding为gb18030:import pandas as pdusers_data = pd....

2019-08-06 18:35:14 313

原创 西瓜书学习笔记——第十三章:半监督学习

13.半监督学习13.1 未标记样本13.2 生成式方式高斯混合生成式模型其他生成式模型13.3 半监督SVMTSVM半监督支持向量机13.4 基于分歧的方法13.5 半监督聚类约束k均值算法(必连勿连)约束种子k均值算法(少量有标记样本)13.1 未标记样本训练样本集D由有标记样本集DlD_lDl​和未标记样本集DuD_uDu​组成,若使用传统监督学习算法,则只能使用DlD_lDl​,DuD...

2019-08-01 20:29:50 2242 1

原创 西瓜书学习笔记——第十二章:计算学习理论

12. 计算学习理论12.1 基础知识泛化误差与经验误差12.2 PAC学习12.3 有限假设空间12.3.1 可分情形13.3.2 不可分情形12.4 VC维(无限假设空间)12.5 Rademacher复杂度12.6 稳定性12.1 基础知识计算机学习理论研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证。例如:在什么条件...

2019-07-25 20:49:06 1337 1

原创 Python函数的参数传递

Python函数的参数传递1. C++中函数的参数传递1.1 参数传递:1.2 引用传递:2. Python中的参数传递2.1 immutable变量的参数传递2.2 mutable变量的参数传递1. C++中函数的参数传递C++中常见的参数传递有值传递和引用传递两种:值传递:拷贝参数的值,传递给函数里的新变量。原变量和新变量之间互相独立,互不影响。引用传递:把参数的引用传递给新的变量,...

2019-07-24 19:11:56 244

原创 Python核心技术与实战学习笔记(九):Python对象的比较和拷贝

9.Python对象的比较和拷贝1. == 与 is1.1 应用1.2 ==与is的效率比较immutable变量之间的==判断是否永远不变1.3 浅拷贝与深拷贝浅拷贝深拷贝的方式1. == 与 is1.1 应用==:比较对象之间的值是否相等is:比较对象身份标识是否相等,即是否为同一个对象a = 10b = 10a == bTrueid(a)4427562448id(...

2019-07-23 18:00:04 767

原创 Python核心技术与实战学习笔记(八):Python模块化

8. Python模块化8.1 简单模块化同一文件夹下不同文件夹下8.2 项目模块化项目中如何设置模块的路径8.3 if \__name\__ == '\__main\__'8.1 简单模块化同一文件夹下简单模块化的方式,如将函数,类,常量拆分到不同的文件中,再放到同一个文件夹下,然后再import调用,就可以在文件内调用这些函数和类了。将get_sum函数放到一个文件中# util...

2019-07-20 17:00:25 165

原创 sklearn决策树算法参数详解

sklearn决策树算法参数详解1. 决策树分类器DecisionTreeClassifier2.回归树——CART1. 决策树分类器DecisionTreeClassifierfrom sklearn.tree import DecisionTreeClassifier# 创建ID3决策树clf = DecisionTreeClassifier(criterion='entropy')...

2019-07-19 14:18:40 4575

原创 西瓜书学习笔记——第十一章:特征选择与稀疏学习

第十一章:特征选择与稀疏学习

2019-07-18 18:54:03 1894

原创 西瓜书学习笔记——第十章:降维与度量学习

10. 降维与度量学习10.1 k近邻学习10.2 低维嵌入经典降维方法:多维缩放(MDS)10.3 主成分分析10.1 k近邻学习k近邻学习(knn)是一种监督学习算法,它直接使用测试样本和训练样本,没有显示的训练过程,工作机制如下:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。通常,对于不同类型的任务,使用的预测方法不同:分类任...

2019-07-11 13:48:27 1976 2

原创 Python核心技术与实战学习笔记(七):Python中的面向对象

7. Python中的面向对象7.1 Python类中的各种变量与函数7.2 继承7.3 抽象函数和抽象类7.1 Python类中的各种变量与函数class Document(): WELCOME_STR = 'Welcome! The context for this book is {}.' def __init__(self, title, autho...

2019-07-09 13:05:39 220

原创 Python核心技术与实战学习笔记(六):自定义函数与匿名函数

6.自定义函数与匿名函数6.1 函数嵌套6.2 函数变量作用域局部变量全局变量函数内部访问全局变量内部函数访问外部函数定义的变量6.3 闭包使用闭包的三个好处:6.4 匿名函数函数式编程函数编程的优点和缺点map(function,iterable)filter(function,iterable)reduce(function, iterable)在数据量较大的情况下,比如机器学习的应用,一般更...

2019-07-06 23:23:22 226

原创 优先队列实现机制

优先队列实现机制优先队列实现机制主要有以下两种:Heap(Binary,Binomial,Fibonacci)Binary Search TreeHeap有很多种实现形式,之前学习的小顶堆和大顶堆是二叉堆,不同结构的堆在实现同样的需求时所需时间复杂度也是不同的,具体如下图所示:注:Binominal:多项式堆;Fibonacci:斐波那契堆;Strict Fibonacci:严格斐...

2019-07-06 01:30:17 421

原创 西瓜书学习笔记——第九章:聚类

9. 聚类9.1 聚类任务9.2 性能度量外部指标:定义外部指标内部指标定义簇内样本平均距离avg( C)簇内样本间最远距离diam( C )簇间最近样本距离$d_{min}(C)$簇中心间距$d_{cen}(C_i,C_j)$内部指标9.3 距离计算闵可夫斯基距离(Minkowski distance)曼哈顿距离(街区距离)欧氏距离切比雪夫距离根据属性的性质选择采用的距离有序属性无序属性混合属性...

2019-07-04 19:51:43 3258 3

原创 MATLAB学习:3.变量与档案存取

3.变量与档案存取3.1 变量3.1.1 字符串String寻找字符串中某个字符出现的位置将字符串的指定字符转换为另一个指定字符比较两个字符串是否相同3.1.2 结构体定义StructureStructure FunctionsNesting Structures3.1.3 Cell ArrayAccessing Cell ArrayCell Array Functions3.1.4 多维数组re...

2019-06-30 00:18:00 678 2

原创 西瓜书学习笔记——第八章:集成学习

8.集成学习8.1 个体与集成8.2 Boosting8.1 个体与集成8.2 BoostingBoosting工作机制如下图所示:其中各个基学习器的对应权重由其误差计算确定,基学习器误差大的则对应的权重小,误差小的则对应权重大...

2019-06-27 18:52:51 2017 1

原创 大规模数据处理学习笔记:2. 如何实现大型电商热销榜

2.如何实现大型电商热销榜2.1 案例描述2.2 小规模的经典算法2.3 大规模分布式解决方案2.3.1 统计每个商品的销量2.3.2 找出销量前k2.3.3 汇总最终结果2.1 案例描述本文以大型电商热销榜为例,讲述了从1万用户到1亿用户,从GB数据到PB数据系统,技术思维需要什么样的升级。假设某电商网站销售10亿件商品,已经跟踪了网站的销售记录:商品id以及购买时间{product_id...

2019-06-26 17:35:25 335

原创 MATLAB学习:2.结构化函数与自定义

2.结构化函数与自定义2.1 一些Matlab操作2.2 函数语句逻辑关系符循环和条件关键字if elseif elseswitchwhileforbreak2.3 技巧pre-allocating space:加快运行速度书写换行2.4 自定义函数单个输出多个输出判断函数参数大小2.5 匿名函数2.6 小练习2.1 一些Matlab操作%表示将语句作为注释%%可以将一段代码作为一个小节单...

2019-06-25 21:43:15 703

原创 Python核心与实战学习笔记(五):条件与循环

5.条件与循环5.1 条件语句5.2 循环语句善用enumerate(\)函数善用continue5.3 效率比较5.4 循环进阶:一行代码写多重循环5.5 总结5.6 思考题多行代码一行代码5.1 条件语句在使用条件语句时,很多人喜欢省略判断条件:if s: # s is a string ...if l: # l is a list ...if i: # i is a...

2019-06-24 17:24:56 310

原创 MATLAB学习:1. 基本操作与矩阵输入

1.基本操作与矩阵输入 1.1 特殊变量和常量1.2:MATLAB中的keyword1.3 数值显示格式控制1.4 command window和workspace的显示控制command widow显示控制workspace显示控制1.5 矩阵输入1.6 矩阵元素subset的提取MATLAB对矩阵元素位置解读的两种角度角度一:A(row, col)提取单个元素一次提取多个元素(利用复合形式的r...

2019-06-23 18:34:34 7091

原创 大规模数据处理学习笔记:1.从未入门到放弃MapReduce

1. 从未入门到放弃MapReduce\quad之前看过一些关于大数据技术的内容和文章,了解了一些关于MapReduce的东西,不得不感慨技术发展是如此之快,MapReduce这么快已经开始逐渐沦落为“明日黄花”了。到2014年,Google内部已经几乎没有人写新的MapReduce了。MapReduce被取代的原因主要有以下两个:高昂的维护成本时间性能达不到用户期待MapReduc...

2019-06-22 17:04:23 153

原创 Python核心技术与实战学习笔记(四):python黑箱:输入与输出

for word in word_list: word_cnt[word] = word_cnt.get(word,0) + 1NLP小项目:import redef parse(text, word_count_dic): # 大写转小写 text = text.lower() # 构建这一行字符串的单词表 word_l...

2019-06-21 23:36:21 413

原创 Python核心技术与实战学习笔记(三):深入浅出字符串

3. 深入浅出字符串3.1 字符串基础3.2 字符串的常用操作字符串修改字符串连接字符串分割3.1 字符串基础字符串是python中常见的数据类型,如日志的打印,程序中函数的注释,数据库的访问,变量的基本操作等等,都用到了字符串。字符串是由独立字符组成的一个序列,通常包含在单引号(’’)双引号("")或者三引号之中,需要注意的就是引号间的匹配和冲突问题:"I'm a student"p...

2019-06-21 11:41:00 334

原创 西瓜书学习笔记——第二章:模型评估与选择

第2章:模型评估与选择2.1 经验误差与过拟合2.1.1 一些概念2.1.2 过拟合与欠拟合2.2 学习器泛化误差评估方法2.2.1 留出法2.2.2 交叉验证法交叉验证法的特例:留一法2.2.3 自助法(适合小数据集)2.2.4 调参与最终模型训练集,测试集,验证集2.3 性能度量(衡量模型泛化能力的标准)2.3.1 错误率与精度2.3.2 查准率、查全率与F1查准率-查全率曲线(P-R曲线)...

2019-06-20 20:31:16 1488

原创 Python核心技术与实战学习笔记(二):字典和集合的辨析

2. 字典和集合的辨析2.1 概念字典集合2.2 操作创建快速创建一个有规律的字典的方法:利用zip函数:字典推导式:字典的fromkeys()方法访问字典直接访问索引get(key,[value])setdefault(key,[value])集合增删查改排序对字典排序对集合排序2.3 字典和集合的性能2.4 字典和集合的工作原理老版本python的哈希表结构:新版本python的哈希表结构操作...

2019-06-19 01:47:20 309

原创 Python核心技术与实战学习笔记(一):列表和元组的辨析

1. 基本数据结构之列表和元组的辨析1.1 概念相同:区别:2.2 操作负数索引切片操作列表与元组相互转换内置函数1.1 概念相同:其他大部分编程语言要求集合存放的元素数据类型一致,但python中没有这样的要求,列表和元组都是可以存放任意数据类型的有序集合。(也可互相嵌套)l = [1, 2, 'hello', 'world'] # 列表中同时含有 int 和 string 类型的元素...

2019-06-17 12:35:11 693

原创 西瓜书读书笔记——第七章:贝叶斯分类器

第七章:贝叶斯分类器7.1 贝叶斯决策论条件风险7.2 极大似然估计首先介绍一下贝叶斯公式:实际上,分母为全概率公式,分子为联合概率。在机器学习中,更常见的形式为P(B∣A)=P(A∣B)P(B)P(A)P(B|A)=\dfrac{P(A|B)P(B)}{P(A)}P(B∣A)=P(A)P(A∣B)P(B)​贝叶斯公式的作用在于将P(B|A)的估计转化为估计P(A|B)和P(B)7.1...

2019-06-13 22:12:39 2249 2

原创 西瓜书读书笔记——第五章:神经网络

西瓜书读书笔记——第五章:神经网络5.1 神经元模型5.2 感知机与多层网络5.2.1 感知机5.3 误差逆传播算法5.4 全局最小与局部极小5.1 神经元模型在生物神经网络中,每个神经元与其他神经元相连,当某个神经元兴奋时,它就会向其他相连的神经元传递化学物质,从而改变了这些神经元内的电位;如果某个神经元的电位超过了一个阈值(threshold),那么就会被激活,即兴奋起来,向其他神经元发送...

2019-06-06 12:21:03 2595 1

原创 西瓜书学习笔记——第六章:支持向量机

西瓜书学习笔记——第六章:支持向量机6. 本章简介6.1 间隔与支持向量6.2 对偶问题6.3 核函数6.4 软间隔与正则化6.5 支持向量回归6.6 核方法6. 本章简介支持向量机(Support Vector Machine),简称SVM,是一种经典的二分类模型,属于监督学习算法。6.1节:介绍了支持向量机的目标是确定一个对样本的分类结果最鲁棒的线性分类器,即找到一个具有最大间隔的划分...

2019-05-30 21:50:16 4044 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除