自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 收藏
  • 关注

原创 JavaWeb实验项目——购物车

IDE:IDEA环境:mysql+tomcat实现一个小的购物车项目,这里需要自己创建创建一个数据库,并且建表,结构如下:这里给出代码地址:购物车项目

2019-12-12 09:50:26 2769

原创 Hbase Javaapi Filter和scan相关问题

摸索了几天Hbase关于利用Filter去做scan,也是很有体会。先简单介绍一下我的表结构,然后描述我的需求,最后给出利用Filter去查询的方案。rowkey:Filename+index1+index2 例子:xxx_4_9 (其中xxx为filename,4为index1,9为index2),列簇设计为:Info和Data两组,其中Info就包含一些常规信息,Data中的列是按照...

2019-12-05 10:36:18 519

原创 Hbase相关问题

1、Hbase启动需要先启动zookeeper,进入bin路径,./zkServer.sh start然后启动hdfs和yarn,用start-all.sh最后启动hbase,start-hbase.sh,在哪台服务器上启动,哪台就是HMaster,可登陆该台主机的16010端口查看Hbase服务2、Hbase启动好之后,用jps查看,如果只有HMaster启动起来了,slave节...

2019-12-04 19:03:33 357

原创 MXNet实现Alexnet深度学习框架

Alexnet特点总结:Alexnet会将输入的图像缩放到256*256,再从中随机截取出224*224的区域作为输入。输入图像3*224*224 经过5次卷积和2次最大池化变为256*12*12。Alexnet中的非线性激活都采用relu Alexnet中的最大池化均为大小3,步长2 Alexnet卷积中使用了外衬再经过1次最大池化,变成256*5*5,摊平后变成6400,经过...

2019-04-15 18:21:10 655

原创 numpy的广播规则

首先说一下numpy的广播规则:1、如果两个数的维度数不同,那么小维度数组的形状将会在最左边补1。2、如果两个数组的形状在任何一个维度都不匹配,那么数组的形状会沿着维度为1的维度扩展以匹配另外一个数组的形状。3、如果两个数组的形状在任何一个维度上都不匹配并且没有任何一个维度等于1,那么会引发异常。import numpy as npa = np.ones((2,3))b = ...

2019-04-12 21:41:16 1040 1

原创 Keras中fit()和fit_generator()区别以及其参数的坑

fit和fit_generator的区别首先Keras中的fit()函数传入的x_train和y_train是被完整的加载进内存的,当然用起来很方便,但是如果我们数据量很大,那么是不可能将所有数据载入内存的,必将导致内存泄漏,这时候我们可以用fit_generator函数来进行训练。下面是fit传参的例子:history = model.fit(x_train, y_train, ep...

2019-04-11 13:06:01 26407 11

原创 求解惩戒线性回归-LARS算法源码

import urllibimport numpy as npfrom sklearn import datasets, linear_modelfrom math import sqrtimport matplotlib.pyplot as plot#read data into iterabletarget_url = "http://archive.ics.uci.edu/ml...

2018-03-09 22:28:33 648

原创 支持向量机区分僵尸网络DGA

僵尸网络一般为了躲避域名黑名单,会使用DGA动态生成域名,通过DGA不同的特征,可以识别不同的特征。DGA文件格式如下:首先从DGA文件中提取域名数据def load_alexa(filename): domain_list = [] csv_reader = csv.reader(open(filename)) for row in csv_reader: ...

2018-02-10 21:45:49 1510

原创 anaconda 安装第三方包

这里以安装hmmlearn库为例首先,在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载你需要安装的库,比如python多少位要与anaconda一致然后,在菜单栏里打开Anaconda Prompt输入 pip install whl文件的完整路径\whl文件名可以用pip list检查是否安装成功。对于绝大多少的...

2018-02-10 19:10:59 44625 5

原创 使用支持向量机识别XSS

基于web日志特征,这里选取了四个特征,分别是:url长度、url中包含的第三方域名的个数、敏感字符的个数、敏感关键字的个数def get_len(url): return len(url)def get_url_count(url): if re.search('(https://)|(https://)',url,re.IGNORECASE): return ...

2018-02-10 17:08:06 840 1

原创 使用K近邻算法检测Rootkit、WebShell

使用K近邻算法检测Rootkit基于telnet连接的rootkit检测流程:KDD 99 数据(41维特征)->筛选与rootkit相关特征->基于tcp内容的特征->向量化->与rootkit相关的特征向量->KNN算法+10折交叉验证->评估效果1、数据搜集和清洗这里用的是KDD 99数据集,筛选标记为rootkit和normal且是telnet协议的数据...

2018-02-08 19:53:17 1128 2

原创 机器学习web安全-K近邻算法

使用K近邻算法检测异常操作1、数据清洗依次读取文件中每行操作命令,每100个命令组成一个操作序列,并且做了标记,统计最频繁使用的前50个命令和最不频繁使用的前50个命令: with open(filename) as f: i=0 x=[] for line in f: line=line.strip('\n') ...

2018-02-08 12:03:35 553

原创 TypeError: 'dict_keys' object is not subscriptable

使用FreqDist时,出现了如下报错:TypeError: 'dict_keys' object is not subscriptable我一开始使用的方法是: fdist = FreqDist(dist).keys() dist_max=set(fdist[0:50])只需要在第一行加上list就解决了,代码如下: fdist = list(FreqDist(dist).k...

2018-02-08 10:52:46 34034 3

原创 机器学习python-Kmeans

K-均值聚类算法首先,随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,即为每个点找距其最近的质心,并将其分配给该质心对应的簇,然后每个簇的质心更新为该簇所有点的平均值。算法流程如下:创建K个点作为起始质心(一般随机选择)任意一个点所属簇的结果发生改变时 对数据集中每个点 对每个质心 计算数据与质心间的距离

2018-02-07 14:33:07 231

原创 机器学习特征问题笔记1

本篇笔记学习于“凡人机器学习”公众号,细致问题参见公众号。一、特征的重要性特征工程有多重要,“数据和特征决定了模型的上限,算法只是帮忙逼近这个上限”。特征是数据对于结果的一种描述,特征工程就是要找到对结果影响最大的特征。特征分为以下几种:1、线性特征:可以理解为用户直接可以拿到的数据字段;2、半隐性特征:用户数据在通过GBDT等算法的计算过程中产出的一些特征;3、隐性特征:深度

2018-02-06 10:19:10 412

原创 机器学习python缩减系数

如果特征比样本点多,那么对于用矩阵求解的方式就不可行,因为矩阵不可逆,这时候可以通过岭回归的方法,在矩阵XTX上加一个λr,使得矩阵可逆,那么回归系数w= (xTx+λI)-1xTy,I是单位矩阵,lam是自己定义的一个系数,同时岭回归还可以用在估计中加入偏差,从而限制w的和,通过加入这个参数,可以减少不重要的参数。这是不同的几个回归系数,横坐标是ln(lam)的值,纵坐标是回归系

2018-02-05 15:34:13 573

原创 机器学习python局部加权线性回归

局部加权线性回归可以解决欠拟合问题,给待测点附近的每个点赋予一定的权重通过矩阵运算的方法解出回归系数w = (XTWX)-1xTWy,通过使用“核”来对附近的点赋予权重,最常用的高斯核权重如下:w(i,i)= exp(|x(i) - x| / -2k2),对K值取不同的结果,得到的模型也不用,K越小,可能会出现过拟合,K越大,可能会出现欠拟合,这里将给出不同的K值的函数图像,这种方法加重了

2018-02-05 11:20:55 2048 2

原创 机器学习python线性回归(矩阵法求参)

from numpy import *def loadDataSet(filename): numFeat = len(open(filename).readline().split('\t')) - 1 dataMat = [] labelMat = [] fr = open(filename) for line in fr.readlines():

2018-02-04 22:12:00 1269

原创 机器学习python-Adaboost

from numpy import *def loadSimpData(): datMat = matrix([[ 1. , 2.1], [ 2. , 1.1], [ 1.3, 1. ], [ 1. , 1. ], [ 2. , 1. ]]) classLabels = [1.0, 1.0, -1.0,

2018-02-04 11:42:09 230

原创 机器学习python-Logistic回归

from numpy import *import matplotlib.pyplot as pltdef loadDataSet(): dataMat = [] labelMat = [] fr = open('testSet.txt') for lines in fr.readlines(): lineArr = lines.strip()

2018-02-02 21:55:58 279

原创 python文本分类(朴素贝叶斯)

from numpy import *import mathdef loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 's

2018-02-02 14:26:48 1006

原创 matplotlib绘制树形图

import matplotlib.pyplot as pltdecisionNode = dict(boxstyle="sawtooth", fc="0.8")leafNode = dict(boxstyle="round4", fc="0.8")arrow_args = dict(arrowstyle="<-")def retrieveTree(i): listOfTrees

2018-01-31 22:23:47 3789

原创 机器学习python决策树源码

from math import logimport operatordef createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'n

2018-01-31 20:11:47 396

原创 机器学习python kNN算法

from numpy import *import operatordef createDataset(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group,labelsdef classify0(inX,dataSet,labels

2018-01-31 15:07:33 193

原创 Tensorflow自定义损失函数

import tensorflow as tffrom numpy.random import RandomStatebatch_size = 8#两个输入结点x = tf.placeholder(tf.float32,shape=(None,2),name='x-input')y_ = tf.placeholder(tf.float32,shape=(None,1),name='y-i

2018-01-30 19:42:54 1192

原创 Tensorflow简单神经网络实现

import tensorflow as tffrom numpy.random import RandomState#定义测试集大小batch_size = 8w1 = tf.Variable(tf.random_normal([2,3],stddev=1,seed=1))w2 = tf.Variable(tf.random_normal([3,1],stddev=1,seed=1))

2018-01-30 15:02:36 407

原创 Tensorflow线性回归模型搭建

# import tensorflow as tf# import numpy as np# greeting = tf.constant('Hello Google Tensorflow!')# #启动一个会话# sess = tf.Session()# #使用会话执行greeting计算模块# result = sess.run(greeting)# print(result)

2018-01-27 13:57:52 275

原创 机器学习python模型正则化

这里主要是用多项式线性拟合,然后通过两种方法来优化过拟合和欠拟合from sklearn.linear_model import LinearRegressionfrom sklearn.preprocessing import PolynomialFeaturesimport numpy as npimport matplotlib.pyplot as pltX_train = [[

2018-01-26 18:35:07 1554 1

原创 机器学习python特征筛选

import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_select

2018-01-26 16:07:15 1731

原创 机器学习python Kmeans聚类

import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.cluster import KMeansfrom sklearn import metricsfrom sklearn.metrics import silhouette_scoreimport matplotlib.pyp

2018-01-25 22:29:33 486

原创 机器学习——监督学习几种经典模型特点

监督学习分为分类学习和回归学习,分类即从分类别中选择一个作为结果,其结果是离散的,回归待预测的结果是连续的,回归于分类的模型大同小异,这里只介绍分类学习分类学习:1、线性分类器受限于数据特征与分类目标之间的线性假设。LogisticRegression采用精确解析的方法,计算时间长、模型性能高,SGDClassifier采用随机梯度上升的方法,时间短、模型性能略低。如果数据规模在10W

2018-01-25 19:10:17 6905

原创 机器学习——文本分类(TF-IDF)

首先,文本数据属于非结构化数据,一般要转换成结构化的数据,一般是将文本转换成“文档-词频矩阵”,矩阵中的元素使用词频或者TF-IDF。TF-IDF的主要思想是:如果某一个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或短语具有很好的类别区分能力,适合用于分类。TF-IDF=TF*IDFIDF主要思想:如果包含词条t的文档越少,也就是n越小,IDF越到,则说明词条t具

2018-01-25 13:07:15 20181 4

原创 机器学习python回归项目实例

import numpy as npfrom numpy import arangefrom matplotlib import pyplotfrom pandas import read_csvfrom pandas import set_optionfrom pandas.plotting import scatter_matrixfrom sklearn.preprocessin

2018-01-23 12:05:23 1859

原创 机器学习python持久化加载模型

from pandas import read_csvfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom pickle import dumpfrom pickle import load#通过pickle序列化和反序列机器

2018-01-22 22:37:45 2183

原创 机器学习python算法调参

from pandas import read_csvfrom sklearn.linear_model import Ridgefrom sklearn.model_selection import GridSearchCVfrom scipy.stats import uniformfrom sklearn.model_selection import RandomizedSearc

2018-01-22 22:17:25 2714

原创 机器学习python集成算法

from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.ensemble import BaggingClassifierfrom sklearn.tree import Decisi

2018-01-22 21:47:08 917

原创 机器学习python自动流程

from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.pipeline import FeatureUnionfrom sklearn.pipeline import Pipelin

2018-01-22 20:58:33 273

原创 机器学习python分类算法

from pandas import read_csvfrom sklearn.linear_model import LinearRegressionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import KFoldfrom sklearn.model_selection

2018-01-21 20:04:30 1882

原创 机器学习python评估矩阵2

#用于回归算法from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LinearRegressionfilename = 'housing.

2018-01-21 19:18:03 406

原创 机器学习python算法评估矩阵

#分类算法矩阵!!from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LogisticRegressionimport pandas as

2018-01-21 17:25:11 464

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除