自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 github使用方法

github需要做的事情1、注册https://github.com/2、新建Repositories下载git本地仓库git init 初始化git config http.sslVerify "false"如果提示:fatal: not in a git directory那就先执行git init再输入:git config http.sslVerify "false"二、两个仓库的合并1.首先建立ssh加密。目的:本地就和远程建立了加密协议,如果不使用加密协议,

2021-05-21 14:03:07 309

原创 深度学习基础(1)--激活函数

前言这篇文章首先回答了一个人们都忽略的问题:在神经网络中,一个小小的激活函数为何如此重要?它的作用到底是什么?然后我就目前主流的激活函数做了一个对比讨论,并提出一些建议。激活函数的本质这里首先引出结论:激活函数是来向神经网络中引入非线性因素的,通过激活函数,神经网络就可以拟合各种曲线。具体解释可以看这篇文章:所以说,如果不使用激活函数,这种情况下每一层输出都是上一层输入的线性函数。无论神经网络有多少层,输出都是输入的线性函数,这样就和只有一个隐藏层的效果是一样的。这种情况相当于多层感知机(MLP)。

2020-06-06 15:29:27 700

原创 spark中的遍历dataframe

def main(args: Array[String]) = { val spark = SparkSession.builder().appName("p2") //.master("local") .enableHiveSupport().getOrCreate() import spark.implicits._ val nowdate = Loca...

2020-05-07 20:14:00 2807

原创 浅谈广告系统预算控制(SMART PACING)与核心代码实现

背景在实际广告投放过程中,我们常常会碰到一个问题:媒体流量比较大,广告主预算消耗过快,有些中小广告主甚至在开始投放的几分钟内就把预算消耗完。这会导致广告主早早退出后续流量的竞争,不仅会影响广告主体验(无法触达到更多的优质用户),也导致整个广告不平稳(竞争都集中在早期,而后期又竞争不足)。预算控制(Budget Pacing)的作用就是平稳花掉广告主的预算,并帮助广告主优化转化效果。所以我们...

2020-04-27 00:11:01 2753

原创 SPARK基础4(DataFrame操作)

在上文《SPARK基础2(读入文件、转临时表、RDD与DataFrame)》中,我们简单介绍了spark中的DataFrame,我们知道了spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。在本文中我们主要介绍,DataFrame基本API常用操作。查看数据// 默认只显示20条commodityDF.show()// 是否最多只显示20个字符,默认为true...

2020-04-11 11:24:57 443

原创 利用TFRcord文件完成建立AlexNex

数据来源于猫狗大战,我在这里用分好了,如下图所示首先是建立TFRcord文件,如下所示:import os import tensorflow as tf from PIL import Image #注意Image,后面会用到import matplotlib.pyplot as plt import numpy as np cwd='D:\比赛\猫狗大战\cat_vs_d...

2020-03-22 00:30:50 234

转载 tensorflow中四种不同交叉熵函数

Tensorflow中的交叉熵函数tensorflow中自带四种交叉熵函数,可以轻松的实现交叉熵的计算。tf.nn.softmax_cross_entropy_with_logits() ...

2020-03-21 09:53:56 352

原创 Windows下安装spark-hadoop步骤

前言本章将介绍如何在Windows下实现spark环境搭建。本章概要1、版本说明2、环境准备:jdk配置; spark安装与配置; hadoop安装与配置; IDEA的安装与配置版本说明jdk:1.8 spark:2.4.5 hadoop:2.7.1我把的安装软件的放到云盘了,链接:https://pan.baidu.com/s/1A7CJSYHmuin...

2020-02-15 00:54:32 1667

原创 广告算法常用指标

1、广告点击率=广告点击数/广告真实曝光数 CTR=adclk/real_adimp2、广告单价=点击费用/广告点击数(按照点击收费) ECPC=click_cost/adclk3、前次请求成本=点击费用/曝光请求数 cpkr=click_cost/pvreq*10004、广告填充率=广告填充数/曝光请求数 pvr=pvfill/pvreq5、展示次数/广告填充数 pvIR=pv...

2020-02-09 13:59:57 4392

原创 SCALA下的GBDT与LR融合实现

我们直接使用的ML的包对GBDT/LR进行融合首先我们需要导入的包如下所示:import org.apache.spark.sql. Rowimport scala.collection.mutableimport org.apache.spark.mllib.classification.LogisticRegressionWithLBFGSimport org.apache.spar...

2019-12-26 11:39:34 649

原创 spark基础3(RDD的特性与算子)

上文介绍了SPARK读入文件,RDD与DATAFRAME,本文主要介绍RDD的一些相关知识。1、RDD1.1 宽依赖与窄依赖窄依赖:父RDD中,每个分区内的数据,都只会被子RDD中特定的分区所消费,为窄依赖:宽依赖:父RDD中,分区内的数据,会被子RDD内多个分区消费,则为宽依赖:Spark的这种依赖关系设计,使其具有了天生的容错性,大大加快了Spark的执行速度。因为,RDD数据集通...

2019-11-20 20:16:07 463

原创 SPARK基础2(读入文件、转临时表、RDD与DataFrame)

上文介绍了spark的各种组件和入门,本文主要介绍spark读入文件以及数据格式(RDD/DataFrame)1、读入文件与转临时表1、json文件读取val df = spark.read.json("E:/people.json")df.show()//将DataFrame的内容显示到页面2、CSV文件读取(注意编码要UTF-8)df=spark.read.csv("E:/emp...

2019-11-19 16:14:50 2943

原创 SPARK基础1(spark基础介绍和入门)

什么是spark?网上有关spark的介绍一搜一大堆,这里就简单的说下它的优点:Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代MapReduce引擎...

2019-11-19 15:49:40 285

原创 svm简介

支持向量机(Support Vector Machine)是于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最...

2019-08-22 23:57:28 338

原创 python绘制ROC曲线

ROC曲线ROC曲线是一种模型评价指标,其横轴是假阳性率,纵轴是真阳性率,import matplotlib.pyplot as pltfrom keras.utils import to_categoricalfrom sklearn import metricsfrom sklearn.metrics import roc_curve, auc ###计算roc和aucdef a...

2019-06-03 19:35:10 9397

原创 teradata SQL学习(3)数据库过滤

1、连接符where语句可以包含多个条件,每个条件通过and或者OR分割,其中如果where包含很多条件,可以用圆括号表示意图,例如:where score <60and(sex='F' or name='lili')not连接符如下使用:where not (sex ='F')意思是选择性别不是'F'的学生2、条件类型2.1相等条件例如sex='F'...

2019-06-01 00:02:21 417

原创 teradata SQL学习(2)数据库查询入门

一、查询语句子句 使用 select 确定结果应该包括哪些列 from 指明所需要的列,以及这些表是如何连接的 where 过滤不需要的数据 group by 分组 having 过滤掉不需要的组 order by 按照某列排列 1.1select子句select 是第一个组成部分,但实际上他是最后被评估的,...

2019-05-31 23:20:05 1128 1

原创 teradata SQL学习(1)数据库的创建与使用

1、数据类型表中的每个列都与数据类型相关联。数据类型指定将在列中存储什么类型的值。Teradata支持多种数据类型。以下是一些常用的数据类型。数据类型 字节 值的范围 BYTEINT 1 -1288到+127 SMALLINT 2 -32768到+32767 INTEGER 4 -2,147,483,648到+2147,48...

2019-05-30 23:06:02 1384

原创 决策树与其可视化(python)

决策树的理论我就不说了,主要介绍怎么实(调)现(包),如下所示:from sklearn.tree import DecisionTreeClassifierdtc = DecisionTreeClassifier(criterion='gini',)dtc.fit(x_new,y_train)y_predict = dtc.predict(x_new2)skle...

2019-05-17 20:15:08 2107

原创 关于报错cannot import *** from pyecharts的问题解决

pyecharts是一个很强大的插件,安装也很简单,直接通过pip安装pyecharts 就可以了,但在使用过程的时候一直会报错,我的是cannot import name 'bar' from 'pyecharts' (D:\Program Files\Anaconda3\lib\site-packages\pyecharts\__init__.py)后来从pypi官网上下载了pyecha...

2019-05-16 02:07:56 10458

转载 python 3.6 透视表pivot_table和交叉表

1. 透视表pivot_table根据一个键或多个键做数据聚合,默认类型是:根据键值/键值对,计算分组平均数常规引入相关库import pandas as pdimport numpy as npfrom pandas import DataFrame,Series注意pivot_table 可以在DadaFrame或pandas中调用,以下是在DadaFrame中调用。...

2019-05-08 00:28:38 643

原创 模拟退火筛选变量

本文主要是采用模拟退火的方法选择变量,采取的评价方法是基于五折CV的auc值均值# -*- coding: utf-8 -*-&quot;&quot;&quot;Created on Sun Jan 27 23:15:34 2019模拟退火调筛选变量@author: 许竞&quot;&quot;&quot;from sklearn.cross_validation import cross_val_scoreimport ran

2019-01-28 14:30:49 765

原创 乱七八糟的

one-hot矩阵testdata = pd.DataFrame({'pet': ['chinese', 'english', 'english', 'math'], 'age': [6 , 5, 2, 2], 'salary':[7, 5, 2, 5]})nn=pd.get_dummies(t...

2019-01-10 00:22:42 148

原创 梯度下降

在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度定义 导数与梯度 梯度的定义如下:    梯度的提出只为回答一个问题:  函数在变量空间的某一点处,沿着哪一个方向有最大的变化率?  梯度定义如下:  函数在某一点的梯度是这样一个向...

2019-01-07 22:10:30 232

原创 dataframe的横向合并

我们在用python处理数据的时候,很多时候会遇到数据合并的问题,我们在这里介绍DataFrame的合并问题,横向合并我们介绍三种方法:1.1 merge类似于关系型数据库的连接方式,可以根据一个或多个键将不同的DatFrame连接起来。该函数的典型应用场景是,针对同一个主键存在两张不同字段的表,根据主键整合到一张表里面。merge(left, right, how='inner', on=...

2019-01-06 23:22:14 16630

原创 pandas 读入文本

我们使用python做数据分析的时候,很多情况需要我们从本地读入,在这里我们主要总结如何使用pandas读入文本import pandas as pd#读入csv,设置header参数,读取文件的时候没有标题data=pd.read_csv(x,header=None)#names设置列名data2 = pd.read_csv(&quot;data.txt&quot;,names=[&quot;a&quot;,&quot;b&quot;

2019-01-04 21:39:23 799

原创 SAS连接数据库

SAS连接数据库(我们这里以TD为案例)主要有两种方法,第一种是LIBNAME,第二种PROC SQL的方法:第一种方法在访问数据库时候较为简单,只需要执行一次LIBNAME链接,后续数据都可以访问数据库源表。但该方法基于SAS内部计算,对SAS计算资源占用较高,不建议数据量较大的情况。LIBNAME AA TERADATA SERVER='EDW' SCHEMA='DW_MTAVIEW'...

2018-12-09 18:17:01 4525

原创 数据可视化

#画饼图def print_pie(input_data): res = {} for each in input_data: res[each] = res.get(each, 0) + 1 label=[] X=[] for j in res: label.append(j) X.append(res[...

2018-11-13 20:33:23 174

原创 Kmeans的Python实现

K-MEANS的python实现K均值是一种很常见的无监督机器学习方法了,在PYTHON中也有很多包可以调用,我们主要是用他来锻炼一下PYTHON的语法,在这里我们的默认输入是多维数组ndarray代码如下所示#KNN#一行是一个样本import pandas as pdimport numpy as npimport random# 构建聚簇中心def randCe...

2018-11-01 00:57:37 353

原创 SQL的时间处理

先整理一波吧,这里主要介绍SQL中时间处理 1、字段是字符串则直接字段 大于 或小于该时间段 即可select * from t_person where born &gt;= '20000101' and  born &lt;= '20170101' 或者用 BETWEEN  AND (前开[后闭))2、字段不是字符串我们可以用CAST函数 (转换函数),可以将字符型...

2018-10-30 00:52:19 668

转载 OpenCV Python教程之图像元素的访问、通道分离与合并

OpenCV Python教程之图像元素的访问、通道分离与合并转载请详细注明原作者及出处,谢谢!访问像素像素的访问和访问numpy中ndarray的方法完全一样,灰度图为:[python] view plain copyimg[j,i] = 255  其中j,i分别表示图像的行和列。对于BGR图像,为:[p

2017-08-14 14:49:27 317

原创 基于Python中theano库的线性回归(随机梯度下降)

基于Python中theano库的线性回归theano库是做deep learning重要的一部分,其最吸引人的地方之一是你给出符号化的公式之后,能自动生成导数。代码块import numpy as np import theano.tensor as T import theano import time class Linear_Reg(object): def __i

2017-07-18 15:04:56 702

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除