天台的猫爷爷-CSDN博客

转载 [LeetCode]384.最长无重复字符的子串

class DistinctSubstring {public: int longestSubstring(string A, int n) { map<char, int> m; //map中的键key存放字符串中出现的字符，值value存放该字符当前的位置 int maxLength = 0; //保存最长字...

2018-09-09 15:10:04 223

转载对生成对抗网络GANs原理、实现过程、应用场景的理解（附代码），另附：深度学习大神文章列表

生成对抗网络是14年Goodfellow Ian在论文Generative Adversarial Nets中提出来的。记录下自己的理解，日后忘记了也能用于复习。原文地址： http://blog.csdn.net/sxf1061926959/article/details/54630462生成模型和判别模型理解对抗网络，首先要了解生成模型和判别模型。判别模型比较好理解，就像分类一样，有一个判...

2018-06-17 10:15:45 2690

转载人脸检测及识别python实现系列（5）

转自https://www.cnblogs.com/neo-T/p/6477378.html经过前面稍显罗嗦的准备工作，现在，我们终于可以尝试训练我们自己的卷积神经网络模型了。CNN擅长图像处理，keras库的tensorflow版亦支持此种网络模型，万事俱备，就放开手做吧。前面说过，我们需要通过大量的训练数据训练我们的模型，因此首先要做的就是把训练数据准备好，并将其输入给CNN。前面我们已经准备...

2018-05-15 16:41:14 2057

转载聚类方法：DBSCAN算法研究（1）--DBSCAN原理、流程、参数设置、优缺点以及算法

DBSCAN聚类算法三部分：1、 DBSCAN原理、流程、参数设置、优缺点以及算法；http://blog.csdn.net/zhouxianen1987/article/details/689458442、 matlab代码实现； blog：http://blog.csdn.net/zhouxianen1987/article/details/68946169code...

2018-05-05 14:38:58 2905

转载【用Python学习Caffe】0. 前言及介绍

转载自https://blog.csdn.net/tostq/article/details/736114370.前言及介绍老实说现在的Caffe已经不够流行了（说到这里，我有点无力了，近年来深度学习发展实在是太快了，完全跟不上学习脚步了，刚刚Caffe有点了解后，马上就要跟不上时代了=_=||）。如果对于现在的我来说，我更愿意推荐去学习Tensorflow或者是Pytorch，甚至是Caffe2...

2018-05-03 20:16:41 493

转载 Keras:基于Theano和TensorFlow的深度学习库

catalogue1. 引言2. 一些基本概念3. Sequential模型4. 泛型模型5. 常用层6. 卷积层7. 池化层8. 递归层Recurrent9. 嵌入层 Embedding 1. 引言Keras是一个高层神经网络库，Keras由纯Python编写而成并基Tensorflow或Theano简易和快速的原型设计（keras具有高度模块化，极简，和可扩充特性）支持CNN...

2018-05-03 14:13:06 838

原创 sklearn.model_selection在新版本中改变问题

在sklearn.model_selection最新0.20版本中，更改了交叉验证KFold的函数以及参数。class sklearn.model_selection.StratifiedKFold(n_splits=3, shuffle=False, random_state=None)为了方便大家查找，下文附上链接。点击打开链接...

2018-04-30 12:42:16 1314

转载主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]

刷比赛利器，感谢分享的人。摘要最近打各种比赛，在这里分享一些General Model，稍微改改就能用的环境： python 3.5.2XGBoost调参大全： http://blog.csdn.net/han_xiaoyang/article/details/52665396 XGBoost 官方API： http://xgboost.readthedocs.io/en/latest//pyth...

2018-04-28 15:04:12 372

转载微软开源分布式高性能GB框架LightGBM Ubuntu、CentOS下编译安装过程

LightGBM（Light Gradient Boosting Machine）是一个基于决策树算法的快速的、分布式的、高性能 gradient boosting（GBDT、GBRT、GBM 或 MART）框架，可被用于排行、分类以及其他许多机器学习任务中。开源项目地址： https://github.com/Microsoft/LightGBM 开源 LightGBM：三天内收获GitHub...

2018-04-27 21:05:52 281

转载机器学习中的范数规则化之（二）核范数与规则项参数选择

上一篇博文，我们聊到了L0，L1和L2范数，这篇我们絮叨絮叨下核范数和规则项参数选择。知识有限，以下都是我一些浅显的看法，如果理解存在错误，希望大家不吝指正。谢谢。三、核范数核范数||W||*是指矩阵奇异值的和，英文称呼叫Nuclear Norm。这个相对于上面火热的L1和L2来说，可能大家就会陌生点。那它是干嘛用的呢？霸气登场：约束Low-Rank（低秩）。OK，OK，那我们得知...

2018-04-25 22:34:36 321

转载机器学习中的范数规则化之（一）L0、L1与L2范数

原文链接地址：http://blog.csdn.net/zouxy09/article/details/249728691.监督学习的基本模型监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”，也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我...

2018-04-25 22:32:45 290

转载基于sklearn 的one hot encoding

1.one hot编码的由来在实际的应用场景中，有非常多的特征不是连续的数值变量，而是某一些离散的类别。比如在广告系统中，用户的性别，用户的地址，用户的兴趣爱好等等一系列特征，都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里，比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数，比如男性是0号特征，女性为1号特征。这种方式最大的优点就是简单...

2018-04-25 21:16:34 293

转载用户特征工程超详细解读

在网上找到了美团一位叫付晴川同学些的ppt，里面有一幅描述用户特征工程的图，感觉总结得还是比较到位的。现在把图片贴出来：这张图将用户特征工程里的大面基本都囊括了。因为ppt本身做得比较简单，现在我们试图针对图里的每一项，结合具体的业务场景，做个比较详细的分析。1.原始数据提取原作者画图的时候将第一项命名为特征提取，我觉得作者想表达的本意应该是从哪获得相关数据，所以叫原始数据提取可能更为合适一些。...

2018-04-25 21:13:52 935

转载如何进行特征选择？

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我们经常不管三七二十一，选择一种自己最熟悉或者最方...

2018-04-24 20:31:46 296

转载 Adaboost算法原理分析和实例+代码（简明易懂）

Adaboost算法原理分析和实例+代码（简明易懂）【尊重原创，转载请注明出处】 http://blog.csdn.net/guyuealian/article/details/70995333 本人最初了解AdaBoost算法着实是花了几天时间，才明白他的基本原理。也许是自己能力有限吧，很多资料也是看得懵懵懂懂。网上找了一下关于Adaboost算法原理分析，大都是你复制我，我摘抄你，...

2018-04-22 11:26:54 6343 3

转载 sklearn.svm.SVC 参数说明

经常用到sklearn中的SVC函数，这里把文档中的参数翻译了一些，以备不时之需。本身这个函数也是基于libsvm实现的，所以在参数设置上有很多相似的地方。（PS: libsvm中的二次规划问题的解决算法是SMO）。sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, prob...

2018-04-01 10:26:10 735

转载设计模式(一) 工厂模式五种写法总结

转载请标明出处： http://blog.csdn.net/zxt0601/article/details/52798423本文出自:【张旭童的博客】系列开篇瞎BB设计模式相关的文章学习与总结，一直有意为之，一直又觉得时机不到。一是怕自己代码经验还不够，学习了也不懂，强行理解没有意义。二是怕自己学习了以后总结出来，万一有不对的地方，误人子弟。

2018-03-06 12:50:26 123

转载回文串

给定一个字符串s，你可以从中删除一些字符，使得剩下的串是一个回文串。如何删除才能使得回文串最长呢？输出需要删除的字符个数。输入描述:输入数据有多组，每组包含一个字符串s，且保证:1输出描述:对于每组数据，输出一个整数，代表最少需要删除的字符个数。输入例子:abcdagoogle输出例子:22#include #inc

2018-02-07 18:06:21 192

转载 xgboost入门与实战（实战调参篇）

前言前面几篇博文都在学习原理知识，是时候上数据上模型跑一跑了。本文用的数据来自kaggle，相信搞机器学习的同学们都知道它，kaggle上有几个老题目一直开放，适合给新手练级，上面还有很多老司机的方案共享以及讨论，非常方便新手入门。这次用的数据是Classify handwritten digits using the famous MNIST data—手写数字识别，每个样本相当于一

2018-01-27 13:41:16 462

转载 xgboost入门与实战（原理篇）

前言：xgboost是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包，比常见的工具包快10倍以上。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN, MPI, Sungrid Engine等各个平台上面运行

2018-01-27 13:39:54 342

转载 pandas聚合和分组运算之groupby

pandas提供了一个灵活高效的groupby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。根据一个或多个键（可以是函数、数组或DataFrame列名）拆分pandas对象。计算分组摘要统计，如计数、平均值、标准差，或用户自定义函数。对DataFrame的列应用各种各样的函数。应用组内转换或其他运算，如规格化、线性回归、排名或选取子集等。计算透视表或交叉表。执行分位数分析以及其

2018-01-26 16:26:29 273

原创精品旅行服务成单预测----参赛经验分享（1）

在数据集中转换时间import timedef time_conv(x): timeArray=time.localtime(x) otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) return otherStyleTime#action_train.actionTime=action_

2018-01-26 15:53:54 879

转载 GitHub 上最火的 Python 开源项目

https://github.com/tensorflow/tensorflow Star 68481Google 的 TensorFlow 是最流行的开源 AI 库之一。它的高计算效率，丰富的开发资源使它被企业和个人开发者广泛采用。TensorFlow 是一个采用数据流图，用于数值计算的开源软件库。TensorFlow 最初由Google 大脑小组（隶属于 Google 机器智能研究机构

2018-01-25 16:04:46 2395

转载 uboot是用来干什么的，有什么作用？

uboot是用来干什么的，有什么作用？uboot 属于bootloader的一种，是用来引导启动内核的，它的最终目的就是，从flash中读出内核，放到内存中，启动内核所以，由上面描述的，就知道，UBOOT需要具有读写flash的能力。uboot是怎样引导启动内核的？uboot刚开始被放到flash中，板子上电后，会自动把其中的一部分代码拷到内存中执行，这部分代码

2018-01-23 19:22:47 371

转载人机对战初体验—四子棋游戏

一、实验介绍1.1 实验内容实验利用Python模拟AI和玩家进行四子棋游戏，利用游戏实验Pygame库，为游戏提供界面和操作支持。AI算法借用蒙特卡洛搜索树思想。通过设置AI的难度系数，即AI所能考虑到的未来棋子的可能走向，从而选择出最佳的方案和玩家对抗。难度系数越大，AI搜索范围越广，它所能做出的决定越明智。游戏最终效果截图：1.2 实验知识点

2018-01-21 13:04:39 1834

转载机器学习-周志华-课后习题答案-决策树

4.1试证明对于不含冲突数据（即特征向量完全相同但标记不同）的训练集，必存在与训练集一致（即训练误差为0）的决策树答：假设不存在与训练集一致的决策树，那么训练集训练得到的决策树至少有一个节点上存在无法划分的多个数据（若节点上没有冲突数据，那么总是能够将数据分开的）。这与前提-不含冲突数据矛盾，因此必存在与训练集一致的决策树 4.2试析使用“最小训练误差”作为决策树划分选择的缺陷。答：若以最小训练

2018-01-17 20:09:29 6566 1

转载机器学习-周志华-课后习题答案-线性模型

3.1试分析在什么情况下，在以下式子中不比考虑偏置项b。答：在线性回归中，所有参数的确定都是为了让残差项的均值为0且残差项的平方和最小。在所有其他参数项确定后，偏置项b（或者说是常数项）的变化体现出来的就是拟合曲线的上下整体浮动，可以看做是其他各个解释变量留下的bias的线性修正。因此在线性拟合过程中是需要考虑偏置项的。但若需要做的是比较不同自变量对因变量的影响，那么不需要考虑常数项，这样得到的回

2018-01-17 19:43:34 13779 1

转载中文分词的基本原理以及jieba分词的用法

结巴分词是国内程序员用Python开发的一个中文分词模块，可能是最好的Python中文分词组件？中文分词的原理1、中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程2、现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法基于字符

2018-01-12 23:11:23 4861

转载 PANDAS 数据合并与重塑（join/merge篇）

mergepandas的merge方法提供了一种类似于SQL的内存链接操作，官网文档提到它的性能会比其他开源语言的数据操作（例如R）要高效。和SQL语句的对比可以看这里merge的参数on：列名，join用来对齐的那一列的名字，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。left_on：左表对齐的列，可以是列名，也可以是和dataf

2018-01-12 14:29:14 398

转载 pandas中关于set_index和reset_index的用法

1.set_indexDataFrame可以通过set_index方法，可以设置单索引和复合索引。 DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) append添加新索引，drop为False，inplace为True时，索引将会还原为列

2018-01-12 14:28:30 11341

转载波士顿房价预测

机器学习模型评价与验证项目 1: 预测波士顿房价欢迎来到机器学习工程师纳米学位的第一个项目！在此文件中，有些示例代码已经提供给你，但你还需要实现更多的功能来让项目成功运行。除非有明确要求，你无须修改任何已给出的代码。以编程练习开始的标题表示接下来的内容中有需要你必须实现的功能。每一部分都会有详细的指导，需要实现的部分也会在注释中以TODO标出。请仔细阅读所有的提示！

2018-01-07 23:54:51 9378 3

转载 PaddlePaddle(v0.10.0)源码方式安装

0、前言 PaddlePaddle，百度旗下深度学习开源平台。 2016年9月27日，百度宣布其全新的深度学习开源平台PaddlePaddle在开源社区Github及百度大脑平台开放，供广大开发者下载使用。百度成为继Google、Facebook、IBM后另一个将人工智能技术开源的科技巨头，同时也是国内首个开源深度学习平台的科技公司。—摘自百度百科：PaddleP

2018-01-02 23:01:18 381

转载 MFC修改任务栏，窗口和exe图标

最近开始学习MFC，发现程序在任务栏，窗口和exe都使用的默认图标，那么，我们想使用自己的图标该如何做？1、我们将自己要使用的icon的图标导入项目中。资源视图--》xx.rc(xx代表项目的名称)---》右键Icon--》添加资源---》将自己的准备的Icon添加进来即可如图：2、导入后，修改属性，名称变成如下3、来

2017-12-24 08:56:02 2483 1

原创推荐个学习python的网站

本系列题目属于在线闯关题http://www.pythonchallenge.com/

2017-12-17 19:17:50 582

转载 Sklearn-train_test_split随机划分训练集和测试集

sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档：http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split

2017-12-16 21:00:58 1297

原创（2017-12）最新12306爬虫

#!/usr/bin/python # vim: set fileencoding=utf-8 :"""命令行火车票查看器Usage: tickets [-gdtkz] Options: -h,--help 显示帮助菜单 -g 高铁 -d 动车 -t 特快 -k 快速 -z 直达Example: tickets -d 南京上海 2017-12-

2017-12-15 21:35:59 465

转载 python requests的安装与简单运用

requests是python的一个HTTP客户端库，跟urllib，urllib2类似，那为什么要用requests而不用urllib2呢？官方文档中是这样说明的：python的标准库urllib2提供了大部分需要的HTTP功能，但是API太逆天了，一个简单的功能就需要一大堆代码。我也看了下requests的文档，确实很简单，适合我这种懒人。下面就是一些简单指南。

2017-12-11 23:36:44 261

转载 Python PrettyTable 模块(美化库）

Python PrettyTable 模块简介安装示例使用创建表直接创建从已有文件创建CSVHTMLSQL添加元素按行添加按列添加输出格式ASCII码表直接输出无表格框输出HTML表选择子表表排序控制表样式自带样式手动控制样式可调整选项用法调整对齐方式的几种方法参考资料

2017-12-11 15:40:14 16737

转载 Python脚本报错AttributeError: ‘module’ object has no attribute’xxx’解决方法

最近在编写Python脚本过程中遇到一个问题比较奇怪：Python脚本完全正常没问题，但执行总报错"AttributeError: 'module' object has no attribute 'xxx'"。这其实是.pyc文件存在问题。问题定位：查看import库的源文件，发现源文件存在且没有错误，同时存在源文件的.pyc文件问题解决方法：1

2017-12-10 21:22:52 69548 4

转载 docopt：为Python程序创造一个优雅的命令行界面

docopt根据你写的文档描述，可以自动为你生成解析器，可以非常容易的为你的python程序创建命令行界面（Command Line Interface，CLI）。docopt的视频介绍链接：PyCon UK 2012: Create *beautiful* command-line interfaces with Python 一个简单的例子

2017-12-10 11:04:32 887

空空如也

空空如也