自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (5)
  • 收藏
  • 关注

原创 IV值的计算逻辑

在建模的时候,我们对会单个变量的预测能力进行预测,主要使用IV值这个指标,IV值的预测能力如下: IV<=0.02 : 无预测能力; 0.02 - 0.1 :弱预测能力; 0.1 - 0.3 :中预测能力; 0.3 - 0.5 :强预测能力; 大于0.5的为超强预测能...

2020-04-15 16:16:18 5429

原创 怎么清除spyder之前程序运行的变量

在使用spyder运行python代码的时候,如果不清除之前的变量,再次运行该变量的时候,程序有时会在该变量的基础上继续运行,导致我们会对结果的误判;案例如下: step1:运行d3的时候,结果如下; step2: 在变量d3中新增一列d3['total'] = d2.X.count(),且对d3['sum']进行注释,但是结果如下(主要原因是上一次的...

2020-04-15 15:14:12 2277

转载 随机森立预测风险

在本文中,我将向大家介绍如何使用Apache Spark的Spark.ml库中的随机森林算法来对银行信用贷款的风险做分类预测。Spark的spark.ml库基于DataFrame,它提供了大量的接口,帮助用户创建和调优机器学习工作流。结合dataframe使用spark.ml,能够实现模型的智能优化,从而提升模型效果。分类算法分类算法是一类监督式机器学习算法,它根据已知标签的样本(

2016-12-27 14:24:49 1801

转载 8个提高机器学习模型的准确率的方法

模型的开发周期有多个不同的阶段,从数据收集开始直到模型建立。不过,在通过探索数据来理解(变量的)关系之前,建议进行假设生成(hypothesis generation)步骤(如果想了解更多有关假设生成的内容,推荐阅读(why-and-when-is-hypothesis-generation-important)。我认为,这是预测建模过程中最被低估的一个步骤。花时间思考要回答的问题

2016-12-27 14:05:12 1418

转载 决策树分类和预测算法的原理及实现

作者:蓝鲸算法决策树是一种通过对历史数据进行测算实现对新数据进行分类和预测的算法。简单来说决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中的特征。并以此为依据对新产生的数据结果进行预测。决策树由3个主要部分组成,分别为决策节点,分支,和叶子节点。其中决策树最顶部的决策节点是根决策节点。每一个分支都有一个新的决策节点。决策节点下面是叶子节点。每个决策节点表示一个待分类的

2016-12-27 14:03:41 3206

转载 机器学习在金融大数据风险建模中的应用

【摘要】在互联网金融、消费金融的蓬勃发展的当下,央行征信在数据时效性、全面性和层次性上的短板日益凸显。深度挖掘互联网大数据信息,开发大数据风控模型,更加精准的评估风险,已经逐渐成为了新一代信用风险模型体系建设的核心课题。本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构。采用T-L核模型替代RF模型中的传统决策树

2016-12-27 11:39:48 18587 4

原创 mysql中交集,并集,差集,左连接,右连接

学习mysql也有一个月啦,在这个月中,都是按照需求对数据表进行一些基本操作,在这个过程当中,经常使用到左连接,右连接,交集,取差集等,现在对其基本操作进行归纳总结。数据源:表一:                                                               表二:id    name     sex age

2016-12-26 18:37:39 42565 1

转载 银行风控案例-python学习笔记

前言:风险控制是挖掘中最为常见的应用,属于监督学习的“分类器”使用案例。我们通过以往历史数据判断用户违约的概率。本文使用了Logistic Regression 方法完成案例。注:根据CDA课程自己总结的学习笔记。使用的是ipython,数据及代码都已上传至个人网盘http://pan.baidu.com/s/1ntR2tmD。如果有任何问题或错误欢迎各位指正

2016-09-13 10:47:26 3557 1

原创 自动生成与数据库交互代码

Mybatis是一种与数据库交互的框架,在进行SSM框架的时候,我们基本上都会运用到Mybatis的内容,通过框架来构架软件体系,使逻辑关系更加规范有序,基本流程是:jsp-->controller-->service-->serviceImpl-->Mapper.java-->Mapper.xml-->entity-->DataBase 即可与数据库进行交互。这篇文章主要是通过自动生成软件来生成

2016-09-07 17:42:23 1496

转载 逻辑回归应用之Kaggle泰坦尼克之灾

1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完前两篇逻辑回归的介绍和各个角度理解之后,我们讨论群(戳我入群)的小伙伴们纷纷表示『好像很高级的样纸,but 然并卵 啊!你们倒是拿点实际数据来给我们看看,这玩意儿 有!什!么!用!啊!』talk is cheap, sh

2016-08-27 17:03:51 1053

原创 chrome的插件Postman安装方法

在进行web接口开发的时候,为了更加方便的测试,Google提供了postman插件,在安装的过程中也犯了有些错误,为此写篇博客,按照这个步骤进行安装,基本不会出错。1.下载postman插件: 网上postman插件可谓良莠不齐,通过实战,成功安装了postman插件,并且可以进行测试 下载地址:http://download.csdn.net/

2016-08-27 15:27:23 31556 6

原创 数据库之间的复制

在做项目的时候,为了更好的进行测试,把测试数据和后台数据相分离,因此会用到数据库中表的复制。因此,本篇文章主要是数据库与库之间的复制。本方法是在MySQL数据库图形化界面中进行,步骤如下:1.打开数据库,选择comparision->New schema comparision进入复制的操作界面2.进行数据的复制界面后,我们要正确的选择源数据库和目标数据库以及数据库的IP地址,

2016-08-26 14:23:33 723

转载 [Python]一起来写一个Python爬虫工具类whyspider

很高兴在GITCAFE遇到了志同道合的人发送了合并请求^_^希望更多的人可以参与进来写了很多简单的Python爬虫的小例子,今天突然想做个开源的工具包,在gitcafe上和大家一起分享源码。项目源地址:https://gitcafe.com/callmewhy/whyspider今天写了个最简单的功能:GE

2016-08-24 16:14:49 356

转载 [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程

(建议大家多看看官网教程:教程地址)我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问:把网站装进爬虫里,总共分几步?答案很简单,四步:新建项目 (Project):新建一个新的爬虫项目明确目标(Items):明确你想要抓取的目标制作爬虫(Spider):制作爬虫开始爬取网页存储内容(Pipeli

2016-08-24 16:14:00 569

转载 [Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!

前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。于是乎,爬虫框架Scrapy就这样出场了!Scrapy = Scrach+Python,Scrach这个单词是抓取的意思,暂且可以叫它:小抓抓吧。小抓抓的官网

2016-08-24 16:13:08 345

转载 [Java] 知乎下巴第5集:使用HttpClient工具包和宽度爬虫

下载地址:https://code.csdn.net/wxg694175346/zhihudown说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于一些比较高级的功能,比如重定向的处理,HTML标记的去除,仅仅使用URLConnection还是不够的。在这里我们可以使用HttpClient这个第三方jar包,下载地址点击

2016-08-24 16:12:35 564

转载 [Java]知乎下巴第4集:再把抓到篮子里的知乎塞到硬盘里吧

上一回我们说到了如何把知乎的某些内容爬取出来,那么这一回我们就说说怎么把这些内容存储到本地吧。说到Java的本地存储,肯定使用IO流进行操作。首先,我们需要一个创建文件的函数createNewFile:[java] view plain copy public static boolean createNewFil

2016-08-24 16:11:45 366

转载 [Java]知乎下巴第3集:来人啊快把知乎的答案装到篮子里去

上次我们已经能把知乎的问题抓出来了,但是答案还木有抓出来。这一回合,我们就连着把答案也一起从网站中抠出来=。=前期我们抓取标题是在该链接下:http://www.zhihu.com/explore/recommendations但是显然这个页面是无法获取答案的。一个完整问题的页面应该是这样的链接:http://www.zhihu.com/

2016-08-24 16:11:03 405

转载 [Java]知乎下巴第2集:使用爬虫来获取知乎的编辑推荐内容

上一回我们拿百度做了测试,那么这一次开始做知乎下巴啦。首先花个三五分钟设计一个Logo=。=作为一个程序员我一直有一颗做美工的心!好吧做的有点小凑合,就先凑合着用咯。接下来呢,我们开始制作知乎的爬虫。首先,确定第一个目标:编辑推荐。网页链接:http://www.zhihu.com/explore/recomm

2016-08-24 16:10:22 384

转载 [Java]知乎下巴第0集:让我们一起来做一个知乎爬虫吧哦耶

身边的小伙伴们很多都喜欢刷知乎,当然我也不例外,但是手机刷太消耗流量,电脑又不太方便。于是,就诞生了这一款小软件:铛铛铛铛!知乎下巴=。=知乎下巴,音译就是知乎下吧 ~首先我们来缕一缕思绪,想想到底要做什么,列个简单的需求。需求如下:1.模拟访问知乎官网(http://www.zhihu.com/)2.下载指定的页面内容,包括:今日最热,本月

2016-08-24 16:09:35 456

转载 [Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)

先来说一下我们学校的网站:http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是加权平均分。显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用python做一个爬虫来解决这个问题。1.决战前夜先来准备一下工

2016-08-24 16:08:57 934

转载 [Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析

更新:感谢评论中朋友的提醒,百度贴吧现在已经改成utf-8编码了吧,需要把代码中的decode('gbk')改成decode('utf-8')。百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。源码下载:http://download.csdn.net/detail/wxg694175346/

2016-08-24 16:08:10 469

转载 [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)

Q&A:1.为什么有段时间显示糗事百科不可用?答:前段时间因为糗事百科添加了Header的检验,导致无法爬取,需要在代码中模拟Header。现在代码已经作了修改,可以正常使用。2.为什么需要单独新建个线程?答:基本流程是这样的:爬虫在后台新起一个线程,一直爬取两页的糗事百科,如果剩余不足两页,则再爬一页。用户按下回车只是从库存中获取最新的内容,而不是上网

2016-08-24 16:07:21 455

转载 [Python]网络爬虫(七):Python中的正则表达式教程

接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html整理时

2016-08-24 16:06:34 424

转载 [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫

[python] view plain copy# -*- coding: utf-8 -*-  #---------------------------------------  #   程序:百度贴吧爬虫  #   版本:0.1  #   作者:why  #   日期:2013-05-14  #   语言:Python 2.7  # 

2016-08-24 16:05:29 353

转载 [Python]网络爬虫(五):urllib2的使用细节与抓站技巧

前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。新建test14来实现一个简单的代理Demo:[python] view

2016-08-24 16:04:52 801

转载 [Python]网络爬虫(四):Opener与Handler的介绍和实例应用

更好的学习网址:http://www.voidspace.org.uk/python/articles/urllib2.shtml#openers-and-handlers以下为个人学习笔记。在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError

2016-08-24 16:04:05 409

转载 [Python]网络爬虫(三):异常的处理和HTTP状态码的分类

先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。 1.URLError通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不

2016-08-24 16:03:17 504

转载 [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容

版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs

2016-08-24 16:02:24 6081

转载 [Python]网络爬虫(一):抓取网页的含义和URL基本构成

一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如

2016-08-24 16:01:37 699

原创 Pycharm的基本配置

一.字体大小的配置1).打开pycharm软件,在通过File->Settings,点击Settings即可找到需要配置的页面。2).进如配置页面,我们现在可以依据自己的需求配置相对应的选项,接下来我们配置字体的大小(大多数人都不喜欢代码字体太小)。  通过Editor->Font->Save As->Name->OK这个步骤即可创建自己喜欢自己的名称。其中Name创建为自己的

2016-08-23 09:17:14 943

原创 通过实战来了解Mybatis

在我们最开始做开发的时候,基本上都是用JDBC来与数据库进行连接,这种方法相对而言比较繁琐。但是,自从Mybatis 是问世以后,让我们与数据库之间的连接更加方便快捷,我们现在通过简单的实战来了解mybatis是如何与数据库进行连接的。1.设计数据库中的表结构   CREATE TABLE mybatis001.customer ( id int(11) NOT NULL AUTO_I

2016-08-22 16:13:22 345

原创 servlet对象返回json数据

任务:通过调取我提供的接口,返回一个json格式的数据。本实验是在myeclipse这个平台上运行,并且对返回的json进行在线校验。response.setCharacterEncoding("UTF-8"); response.setHeader("content-type", "text/json"); //返回数据为json格式对于json的数据格式,返回值有两种情

2016-08-22 15:09:43 2049

IV值实现公式.xls

IV值计算逻辑;使用excel中的公式,对IV和woe值进行计算,可以有效的理解公式含义和实现逻辑;

2020-04-15

pgadmin4-4.2-x86

gAdmin 4绿色版,这是一款非常专业的数据库设计工具,而且该软件支持多平台,还拥有多个部署模型,让你的操作变得更加的简单,有兴趣的小伙伴不妨来游迅网下载试试,相信这款软件一定不会让你失望的。

2019-04-01

mybatis自动生成mapper等数据

自动生成与数据库交互的代码,提高代码的正确率。

2016-08-31

Doolr-guvnor

初学Drools,可以互相探讨。

2016-05-19

Drools5开发教程

东西还不错, 适合基础学习。

2016-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除