自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

GitzLiu

喜欢喵的汪星人ʕ •ᴥ•ʔ~

  • 博客(59)
  • 收藏
  • 关注

原创 数据分析----LR和GBDT模型训练

本篇是 LR和GBDT模型训练【放链接】 的附属篇一、常用库 # -*- coding: UTF-8 -*- import numpy as npfrom numpy import medianimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as sns...

2019-07-04 19:08:26 807

原创 Hive学习总结

http://note.youdao.com/noteshare?id=73cf7b73fac3c713f8d1c2847ae89530&sub=B7DD177CAB404E3280060A0F4FC6E17A

2019-06-12 20:06:47 396

原创 LR和GBDT模型训练

【待补充】一、LR模型训练1、特征分析分析每个特征和标签的关系【放个链接,在别的博客里写】2、分析每个特征的基本特点步骤1是看相关性,是为了筛选特征,删除不必要特征本步分析特征基本特点是在选完特征基础上,为数据处理做准备【放个链接?】3、根据特征的特点,以及模型的输入要求 对数据集进行整理包括:处理缺失值get_dummiesbins(cut 或者 qcut)保存训练...

2019-06-12 20:00:40 1212

原创 记录-mysql操作-crontab操作

一 mysql基本操作show databases;use [数据库名字]show tables;参考:https://www.cnblogs.com/dannyyao/p/6533567.html查看建表语句show create table t_xifan_user_login;查看有哪些列desc t_xifan_user_login;限制显示行数select * fro...

2019-02-15 17:25:55 471

原创 Hadoop streaming-Python编写map reduce任务

本篇记录自己学习用python写mr任务 的总结由于图片比较分散,本篇放上有道链接。http://note.youdao.com/noteshare?id=08673fa58add61d2797a31672e3dcb45

2019-02-02 17:18:44 325

原创 python近期使用总结

【一】读1readlines() 之间的差异是后者一次读取整个文件,象 .read() 一样。.readlines() 自动将文件内容分析成一个行的列表,该列表可以由 Python 的 for … in … 结构进行处理。https://www.cnblogs.com/zywscq/p/5441145.htmlwith open('./data/threedaysdata/t_xifan_c...

2019-01-28 11:42:59 854

原创 DNN实战-猫狗分类

深层的神经网络来解决一个猫、狗的分类问题。这是一个典型的二分类问题。输入是一张图片,我们会把 3 通道的 RGB 图片拉伸为一维数据作为神经网络的输入层。神经网络的输出层包含一个神经元,经过 Softmax 输出概率值P,若 P>0.5,则判断为猫(正类),若 P≤0.5,则判断为非猫(负类)。对于整个神经网络模型,我们可以选择使用不同层数,以此来比较模型分类的性能,从而得到较深的神经网...

2018-11-21 17:58:31 4903 7

原创 激活函数-sigmod tanh relu leaky-relu

神经网络每个神经元都需要激活函数(Activation Function)来进行非线性运算。逻辑回归模型使用的 Sigmoid 函数,也是一种激活函数。下面重点介绍几个神经网络常用的激活函数 g(x),并作个简单比较。观察 Sigmoid 函数和 tanh 函数,我们发现有这样一个问题,就是当 |z| 很大的时候,激活函数的斜率(梯度)很小。因此,在这个区域内,梯度下降算法会运行得比较慢...

2018-11-21 16:11:52 2832

原创 Linux网络配置经验总结

虚拟机选择NAT模式1、在etc/network/interfaces中配置好如下三项# The primary network interfaceauto eth0iface eth0 inet staticaddress 192.168.234.80netmask 255.255.255.0gateway 192.168.234.2dns-nameservers 8.8.8.8...

2018-10-24 11:00:39 631

原创 C语言数组

今天记录一个让人蛋疼的问题,在写c语言读csv文件的时候,由于csv文件为 80w*5, 每个元素是字符串,因此想用一个二维字符串数组存一下,可一查才知道,c语言没有二维字符串数字,思来想去,准备用5个数字符串数组代替,每个字符串数组存储1列。char dataset_wr[800000][MAX_LINE_SIZE] ;char dataset_pid[800000][MAX_LINE_S...

2018-10-20 11:36:58 430

翻译 预测Facebook广告点击量的实践经验(翻译)

由于没法导出为md格式,上传的CSDN,只能放我翻译的链接了。分享链接http://note.youdao.com/noteshare?id=866cda0a11142307c27b6c072a79d3eb&sub=A8E3505A71D242A3802C82D6921535CB...

2018-10-18 22:01:15 974

原创 过拟合(正则化处理)- 欠拟合 处理方法

1 过拟合过拟合——过多的变量(特征),同时只有非常少的训练数据,会导致出现过度拟合的问题1 、方法一:尽量减少选取变量的数量2、正则化正则化中我们将保留所有的特征变量,但是会减小特征变量的数量级这个方法非常有效,当我们有很多特征变量时,其中每一个变量都能对预测产生一点影响。正如我们在房价预测的例子中看到的那样,我们可以有很多特征变量,其中每一个变量都是有用的,因此我们不希望把它们删掉,...

2018-09-17 20:36:50 1422

原创 模型融合-Stacking

这篇是作为我的笔记,所以写的可能不易大家阅读。这是我理解的Stacking方法 结合下面这站图一起来看 看懂这两张图,stacking就没啥问题了。感觉正常情况下,stacking方法应该是很有效。 注意几点: 使用的是 predict_probe() 方法,而非 predict() 方法,因此,若model没有 predict_probe() 方法,则无法使用stacki...

2018-09-12 23:26:56 1832

原创 机器学习——画图方法

本篇博客与Titanic博客相关联,是其第2部分内容,由于涉及大量通过可视化图形 进行数据预览、分析的地方,因此独立成篇,作为画图方法的笔记。1、预览数据集加载数据集# -*- coding:utf-8 -*-import numpy as np #科学计算import pandas as pd #数据分析from pandas import Series, D...

2018-09-12 22:48:50 5001

原创 学习曲线-Learning Curve

学习曲线是什么?【简单来说】学习曲线(learning curve)来判断模型状态:过拟合欠拟合【详细来说】学习曲线是不同训练集大小,模型在训练集和验证集上的得分变化曲线。也就是以样本数为横坐标,训练和交叉验证集上的得分(如准确率)为纵坐标。learning curve可以帮助我们判断模型现在所处的状态:过拟合(overfiting / high variance) or ...

2018-09-11 23:29:09 26074 6

原创 Pandas中loc用法——索引、补全缺失值

loc——通过行标签索引行数据 loc[1]表示索引的是第1行(index 是整数)import pandas as pd data = [[1,2,3],[4,5,6]] index = [0,1] columns=['a','b','c'] df = pd.DataFrame(data=data, index=index, columns=columns) pri...

2018-09-07 11:41:27 4367

原创 Kaggle——高分泰坦尼克灾难生存预测详细讲解(LR、Bagging)

前言 老规矩,先上项目完整代码,再详细讲解代码每一段内容。博文结尾附Github地址,里面包含我在完成本项目过程中,不同版本的代码。讲解不清的地方请多包涵,我们开始吧! [ Kaggle泰坦尼克号灾难预测竞赛地址 ] 0、泰坦尼克号灾难生存预测代码这里写代码片...

2018-09-06 23:30:30 4953 3

原创 Pandas库qcut( )与cut( )的用法与区别

1、pd.qcut()qcut是根据这些值的频率来选择箱子的均匀间隔,即每个箱子中含有的数的数量是相同的>>> factors = np.random.randn(9)[ 2.12046097 0.24486218 1.64494175 -0.27307614 -2.11238291 2.15422205 -0.46832859 0.16444572 1.525...

2018-08-30 22:02:38 2937

原创 随机森林回归 sklearn.ensemble.RandomForestRegressor

随机森林回归:随机森林是一种目标估计,通过对数据集上的部分样本形成一个分类决策树,并使用averaging去提高预测准确率和控制过拟合发生。class sklearn.ensemble.RandomForestRegressor(n_estimators=10, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_l...

2018-08-22 23:10:17 9208

原创 sklearn中predict与predict_proba区别

predict_proba 返回的是一个 n 行 k 列的数组,列是标签(有排序), 第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1。predict 直接返回的是预测 的标签。具体见下面示例:# conding :utf-8 from sklearn.linear_model import LogisticRegression...

2018-08-22 22:49:05 3937

原创 matplotlib常用画图方法

【matplotlib】Series.plot()参数表参数 说明 label 用于图例的标签 ax 要在其上进行绘制的matplotlib subplot对象。如果没有设置,则使用当前matplotlib subplot style 将要传给matplotlib的风格字符串(for example: ‘ko–’) alpha 图表的填充不透明(0...

2018-08-21 22:11:08 999

原创 kaggle-旧金山犯罪分类详细讲解 (朴素贝叶斯、逻辑回归、随机森林方法)

前言 记得一位老先生说,如果你所讲的知识不能让一个8岁孩子听懂,说明你还是没真正掌握。 本文秉持这样的理念,先给出全部代码,让读者一窥全貌,再逐段详细讲解。旧金山犯罪分类kaggle地址0、旧金山犯罪分类代码import pandas as pdimport numpy as np# 1、载入数据train = pd.read_csv('dataset/...

2018-05-06 18:01:18 7028 5

转载 非参数估计---直方图法、Kn近邻估计法、Parzen窗法

当需要估计的概率密度函数的形式未知,比如我们并不能知道样本的分布形式时,我们就无法用最大似然估计方法或贝叶斯估计方法来进行参数估计,而应该用非参数估计方法。这里就介绍三种非参数估计方法。 需要知道的是,作为非参数方法的共同问题是对样本数量需求较大,只要样本数目足够大众可以保证收敛于任何复杂的位置密度,但是计算量和存储量都比较大。当样本数很少时,如果能够对密度函数有先验认识,则参数估计能取得更好的估...

2018-04-03 11:15:09 11671 2

原创 python学习笔记

【python学习笔记】 data:2017-12-28#!/usr/bin/env python# Filename : helloworld.pyprint 'Hello World'解释器 ////////////////////////////////////////// 命令行输入python启动解释器 可以直接 print‘hello world’运行一个python文件

2018-03-10 10:56:23 954

原创 linux学习笔记

linux学习笔记 Date:2017-03-27mkdir +文件夹名字touch +文件名字rm -fr 删除文件,问价夹 -f强制删除 -r是递归ls > cmd.txt 把 ls 列出的目录和文件信息写到 cmd.txt 里。ls >> cmd.txt 是追加到 cmd.txt 里边去修改root密码:sudo passwd rootsu是在用户间切换,可以是从普通用户切换到roo

2018-03-10 10:49:17 814

原创 链表专题

在不构造新的链表前提下 可以创建一个新节点,dummy,并赋初值为INT_MIN 直接用这个新节点作为头节点,去直接连接l1、l2中所需节点。 这样就不用以l1(或l2)为最终要合成的链表,不停插入来自l2(或l1)的节点了,省去了大量操作。

2017-11-20 22:59:25 880

原创 【二、Leetcode哈希表专题】

【哈希表专题】一、难度:easy【第一题 】Two Sum(No.1)详细见数组专题;【第二题】Single Number(No.136)题目描述 Given an array of integers, every element appears twice except for one. Find that single one.Note: Your algorithm should have

2017-11-06 23:05:37 1153

原创 【一、Leetcode数组专题(1)easy】

【数组专题】难度:easy【第一题】 Two Sum(NO.1) Given an array of integers, return indices of the two numbers such that they add up to a specific target. You may assume that each input would have exactly one s

2017-10-28 00:59:04 970 1

原创 【深入理解计算机原理第十一章】---网络编程

11.1 客户端-服务器编程模型客户端-服务器由4个事务组成,如下图 认识到客户端和服务器是进程,而不是常常提到的机器或者主机,这很重要。.11.2 网络 对于一个主机而言,网络只是又一种I/O设备,作为数据源和数据接收方。就想键盘、鼠标等其他I/O一样,作为一个文件进行操作。图 一个网络主机的硬件组成LAN:局域网1、较小的局域网(例如一个楼层),如下图所示,是用连接主机的双绞线和集线

2017-09-05 19:23:46 1121

转载 静态缓存和动态缓存的比较

静态页面的缓存可能有2种形式:其实主要区别就是CMS是否自己负责关联内容的缓存更新管理。      静态缓存:是在新内容发布的同时就立刻生成相应内容的静态页面,比如:2003年3月22日,管理员通过后台内容管理界面录入一篇文章后,就立刻生成http://www.chedong.com/tech/2003/03/22/001.html这个静态页面,并同步更新相关索引页上的链接。      动态

2017-07-05 14:03:39 2716

原创 网络嗅探针 Sniffing-Dog

Sniffing-DogSniffing Dog is a free and open source packet analyzer. It is used for network troubleshooting, analysis, software and communications protocol development.Basic Information Projectname:Snif

2017-06-03 16:22:00 2744

原创 HDSF学习

一、HDFS简介HDFS是基于流数据模式访问和处理大文件的需求而开发的,它可以运行与廉价的商用服务器上。 特点: (1)处理超大文件 (2)流式地访问数据 (3)运行于廉价的商用机器集群上 缺点: (1)不适用低延迟数据访问 (2)无法高效存储大量小文件 (3)不支持多用户写入及任意修改文件二、HDFS相关概念(1)块 文件以块的形式存储在磁盘中,64MB/块 (2)NameNo

2017-04-06 14:55:30 1770

原创 MapReduce学习

一、MapReduce的两种角色· JobTracker · TaskTracker二、MapReduce的原理可以理解为 【 input->map->combine->reduce->output 】三、JobTracker和TaskTracker 与 Map和Reduce关系四、MapReduce程序示例输入:file0与file1 输出:统计结果五、MapReduce作业执行流程 *

2017-03-28 16:20:36 1760

原创 U盘安装Win Server 2008

一、制作u盘[ 制作u盘 ]注意:1、u盘4G以上; 2、启动u盘制作好后,插上u盘,重启电脑,直接进入bios进行设置从u盘启动;二、安装系统[ 安装系统 ]注意:1、在安装的时候,会有重启,在第一次重启时,一定要再次进入bios,恢复原来启动方式(取消u盘启动),不然又再来一遍; 2、关于原操作系统,可在安装的时候进行格式化所有磁盘进行删除(提前备份数据); 3、装完winserver后,

2017-03-23 14:48:43 4849

原创 Nginx配置与解析

一、安装 sudo apt-get install nginx二、文件结构/etc/nginx 所有的配置文件都在此目录 /etc/nginx/sites-enabled 配置虚拟主机 /usr/share/nginx/html 根目录,里面有两个默认网页 index.html和50x.html/usr/sbin/ngin

2017-02-20 16:03:18 1991

原创 Nginx实现负载均衡的反向代理

正文:一、环境需求:Linux Nginx二、反向代理【基本概念】 一个server是一个虚拟主机 每个server代表一个网站server{ listen 80; server_name localhost; location / { proxy_pass http://119.75.217.109;#百度的ip }}我们访问http://

2017-02-20 15:02:06 1837

原创 QT调用Linux文件系统

前言:  QT提供了调用文件系统的方法,非必要情况下不要自己去写,直接用就好。   QFileSystemModel 调用方法:QFileSystemModel *model = new QFileSystemModel;model->setReadOnly(false); //设置可以修改model->setRootPath("/");QTreeView *treeVi

2017-02-08 10:45:23 2751

原创 深度优先——遍历Linux文件系统

前言:  最近用qt做usb驱动相关任务,需要一个能访问文件系统的程序,它要遍历给定目录下的所有内容,并按结构安排显示出目录与文件。QFileInfoList getDir(QString path){ QDir dir(path); QFileInfoList file_list = dir.entryInfoList(QDir::Files | QDir::Hidden | Q

2017-02-08 10:39:30 2521

原创 【爬虫二】爬取豆瓣音乐榜单

前言  借助有效率的工具,可以让我们更加方便的写出爬虫程序。本篇使用request和bs4库爬取豆瓣音乐榜单。介绍豆瓣音乐榜单:https://music.douban.com/top250 bs4:Beautiful Soup 4 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。Beautiful Soup会帮你节

2017-02-04 15:22:53 4133

原创 【爬虫一】urllib库使用

本篇为基础爬虫的模板,使用urllib库。 代码功能:爬取百度贴吧的图片。 代码如下:import reimport urllibdef getHtml(url): page=urllib.urlopen(url) html=page.read() return htmldef getImg(html): reg=r'src="(.+?\.jpg)" size

2017-02-04 12:03:40 1894

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除