自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 资源 (6)
  • 收藏
  • 关注

原创 第11章 WebShell检测

WebShell就是以ASP、PHP、JSP或者CGI等网页文件形式存在的一种命令执行环境,也可以将其成为一种网页后门。黑客在入侵了一个网站后,通常会将ASP或者PHP后门文件与网站服务器Web目录下正常的网页文件混在一起,然后就可以使用浏览器来访问ASP或者PHP后门,得到一个命令执行环境,以达到控制网站服务器的目的。顾名思义,“Web”的含义是需要服务器提供Web服务,“Shell”的含义是取得对服务器某种程度的操作权限。

2022-10-08 16:35:02 1609 1

原创 第10章 用户行为分析与恶意行为检测

我们将恶意内部人员和内部员工的异常操作统称为恶意操作。检测这种恶意操作需要使用高级技术,比如用户行为分析(User Behavior Analysis, UBA),这种新兴技术可提供以往被遗漏的数据保护和欺诈检测功能。结合用户日常操作的系统,UBA利用一种专门的安全分析算法,不仅可以关注初识登录操作,还能跟踪用户的一举一动。尽管包括数据防泄漏(Data Leakage Prevertion, DLP)在内的众多安全产品已被添加到企业网络安全战略中,但是确保机密数据和资产的安全仍是企业和组织面临的一大挑战。

2022-10-08 15:36:34 808

原创 第9章 Linux后门检测

该数据集包括ADFA-LD和ADFA-WD,分别代表Linux系统的数据集和Windows系统的数据集。用户空间发生请求,内核空间负责执行,这些接口便是用户空间和内核空间共同识别的 桥梁,这里提到两个字“受限”,是由于为了保证内核稳定性,而不让用户空间程序随意更改系统,必须是内核对外开放的且满足权限的程序才能调用相应接口。本章主要以ADFA-LD数据集为例介绍Linux系统的后门检测,使用特征提取方法为2-Gram和TF-IDF,介绍的分类算法包括朴素贝叶斯、XGBoost和深度学习之多层感知机。

2022-10-08 11:43:01 274 1

原创 第8章 骚扰短信识别

介绍识别骚扰短信使用的特征提取方法,包括扩词袋和TF-IDF模型、词汇表模型以及Word2Vec和Doc2Vec模型,介绍使用的模型以及对应的验证结果,包括朴素贝叶斯、支持向量机、XGBoost和MLP算法。测试数据来自SMS Spam Collection数据集,SMS Spam Collection是用于骚扰短信识别的经典数据集,完全来自真实短信内容,包括4831条正常短信和747条骚扰短信。8.2.3 Word2Vec模型和Doc2Vec模型。8.2.1 词袋和TF-IDF模型。

2022-10-08 11:32:54 324

原创 第7章 负面评论识别

测试数据来自互联网电影资料库(Internet Movie Database, IMDB),IMDB是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。介绍识别负面评论使用的数据集以及使用的特征提取方法,包括词袋和TF-IDF模型、词汇表模型、Word2Vec和Doc2Vec模型。介绍使用的模型以及对应的验证结果,,包括朴素贝叶斯、支持向量机和深度学习。水军的大行其道,严重影响了社会舆论,尤其是有组织地针对公众任务、企业的诽谤和攻击行为,造成严重的社会影响。7.3.2 支持向量机算法。

2022-10-08 11:17:37 562

原创 第6章 垃圾邮件识别

由于企业邮箱平台往往通信质量更好,更容易为国际反垃圾邮件平台白名单所接纳,因此成为垃圾邮件投送者甚至网络黑客的重点攻击目标。对于那些大量垃圾邮件的投放地址,国际反垃圾邮件组织和接收方服务商将会将其加入到国际垃圾邮件数据库中,从而导致该主机不能与其他国家正常通信,严重影响企业海外业务的扩展。对于企业邮件服务商而言,垃圾邮件的恶意投送,还会大量占用网络资源,使得邮件服务器85%的系统资源用于处理垃圾邮件的识别,不仅资源浪费极其严重,甚至可能导致网络阻塞瘫痪,影响企业正常业务邮件的沟通。

2022-10-07 21:18:35 1275

原创 第5章 验证码识别

验证码CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)是全自动区分计算机和人类的图灵测试的缩写。

2022-09-30 23:00:28 398

原创 第4章 基于OpenSOC的机器学习框架

OpenSOC是思科公司2014年在BroCon大会上公布的开源项目,存储使用的是Hadoop,实时索引采用Elasticsearch,在线实时分析使用的是Storm。它主要由数据源系统、数据收集层、消息系统层、实时处理层、存储层、分析处理层组成。(1)可扩展的接收器和分析其,能够监视常见数据源。4.1 OpenSOC框架。

2022-09-25 23:48:52 927

原创 第3章 循环神经网络

RNN之所以成为循环神经网络,是因为一个序列当前的输出与前面的输出也有关。具体的表现形式为,网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。但是在实践中,为了降低复杂性往往假设当前的状态只与前面的几个状态相关。处理序列化的数据,比如视频或者Linux下一段命令行操作记录等,准确的识别与判断需要依赖上下文,或者说需要能够保存一段时间的记忆来辅助判断,这就引入了循环神经网络。

2022-09-25 16:34:04 1063

原创 第2章 卷积神经网络

图像分类在很多领域有广泛应用,包括安防领域的人脸识别和智能视频分析,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册子宫归类,医学领域的图像识别等。类比猫的视觉神经细胞,将隐藏层的一个节点只处理10*10大小的数据,也就是说每个隐藏层的节点只与输入层的100个节点连接,这样在隐藏层节点数量和输入层节点数量不变的情况下,输入层与隐藏层的连接可以大幅减少,但是依然十分巨大。常见的深度学习算法都是全连接形式,所谓全连接,就是第n-1层的任意一个节点,都和第n层所有节点有连接。

2022-09-23 15:33:05 1006

原创 第1章 打造深度学习工具箱

一马平川安装好后,激活tensorflow环境,输入命令activate tensorflow(退出当前环境为命令deactivate tensorflow)(1)使用命令pip install tensorflow,不停尝试,直到成功。书上只提了Linux和Mac上的安装,百度补上Windows上的安装。(3)装好后用命令conda --version查看下版本。(4)如果需要安装特定版本的tensorflow。(5)输入python可查看python版本。(2)检查tensorflow的版本等。

2022-09-17 18:16:09 479

原创 ChatterBot——Quick Star Guide

Creat a new chat botfrom chatterbot import ChatBotchatbot = ChatBot("Ron Obvious")Training your ChatBotfrom chatterbot.trainers import ListTrainerconversation = [ "Hello", "Hi there!", "How are you doing?", "I'm doing great.", .

2021-10-15 20:06:51 107

原创 ChatterBot1——Installation

**ChatterBot制作(https://chatterbot.readthedocs.io/en/stable/)**Before start:About ChatbotLanguage IndependenceHow ChatterBot WorksProcess flow diagramInstallation

2021-10-14 10:54:42 151

原创 windows上安装kali linux

1.首先开放三个权限,wsl、虚拟机、开发者2.然后wsl升级到2版本3.windows store下载kali linux4.kex启动

2021-09-16 17:41:20 344

原创 9-6,9-7 构建模型

def build_model(self): """ 1.初始化训练、预测所需要的变量 2.构建编码器(encoder) 3.构建解码器(decoder) 4.构建优化器(optimizer) 5.保存 """ def init_placeholders(self):...

2020-02-28 21:39:32 265

原创 2-1,2.2 环境搭建上

1.安装node.js2.安装nodemon

2020-02-28 16:35:05 125

原创 聊天机器人:入门与进阶

第1章 概率统计与应用数学的基础知识第2章 语言模型与多元文法第3章 序列标注模型第4章 文本分析第5章 深度学习模型第6章 对话机器人的发展综述第7章 自然语言理解与知识图谱第8章 答案生成与多轮对话第9章 对话系统的工程架构第10章 实战场景之一——客服机器人第11章 实战场景之二——开放领域的QA问答第12章 实战场景之三——聊天机器人...

2020-02-23 23:53:48 368

原创 9.2,9.3,9.4,9.5 基本参数保存,参数验证

class SequenceToSequence(object): """ 基本流程 __init__基本参数的保存,参数验证(验证参数的合法性) build_model 构建模型 init_placeholders初始化一些TensorFlow的变量的占位符 build_encoder初始化编码器 build_single_cel...

2020-02-22 14:31:31 305

原创 9.1基本流程介绍

1.基本流程介绍mport numpy as npimport tensorflow as tffrom tensorflow import layersfrom tensorflow.python.ops import array_opsfrom tensorflow.contrib import seq2seqfrom tensorflow.contrib.seq2seq i...

2020-02-21 23:10:05 239

原创 8.9,8.10,8.11,8.12,8.13 batch_flow_bucket,生产虚假数据

def batch_flow_bucket(data,ws,batch_size,raw=False,add_end=True, n_bucket=5,bucket_ind=1,debug=False): all_data=list(zip(*data)) lengths=sorted(list(set([len(bucket_ind)...

2020-02-21 13:57:38 194

原创 8.6,8.7,8.8 batch_flow

'''从数据中随机去生成batch_size的数据,然后给转换后输出出去'''def batch_flow(data, ws, batch_size, raw=False, add_end=True): all_data=list(zip(*data)) if isinstance(ws,(list,tuple)): assert len(ws)==len(da...

2020-02-19 23:30:07 199

原创 8.5 数据操作 转换长度

def _get_embed_device(vocab_size): gpus=_get_available_gpus() if not gpus or vocab_size > VOCAB_SIZE_THRESHOLD_CPU: return "/cpu:0" return "/gpu:0"def transform_sentence(sent...

2020-02-18 23:49:13 133

原创 8.4 Tensorflow相关信息操作

本本的显卡不行,只能安装tensorflow普通版,没有GPU(泪崩)

2020-02-18 23:39:19 102

原创 第8章聊天机器人训练(TensorFlow的模型前期处理)—8.3TensorFlow环境搭建

占位

2020-02-18 00:08:43 161

原创 第8章聊天机器人训练(TensorFlow的模型前期处理)—8.1,8.2线程处理

1.新建threadedgenerator.py文件from threading import Threadfrom queue import Queueclass ThreadedGenerator(object): def __init__(self,iterator, sentinel=object(), ...

2020-02-16 16:51:23 186

原创 第7章聊天机器人原理—7.3,7.4聊天机器人模型

一、聊天机器人根据对话的产生方式1.基于检索的模型a.有明确的问答对数据库b.使用语句匹配的形式查找答案C.答案相对固定,且很少出现语法错误d.不会出现新的语句2.生成式模型a.不依赖预先设定的问答库;b.通常基于机器翻译技术c.需要大量的语料进行训练Encoder-Decoder模式;机器翻译;输入的是问题,翻译的是回答;3.混...

2020-02-16 16:38:35 713

原创 第7章 聊天机器人原理—7.1,7.2 Seq2Seq模型

1.seq2seq模型(1)seq2seq是一个Encoder-Decoder结构的网络,它的输入是一个序列,输出也是一个序列。(2)Encoder中将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列。(3)这个结构最重要的地方在于输入序列和输出序列的长度是可变的。(4)可以用于翻译,聊天机器人、句法分析、文本摘要等。...

2020-02-15 23:36:56 275

原创 第6章实战之聊天语料处理—6.11数据模型打包处理

占位

2020-02-15 23:16:27 141

原创 第6章实战之聊天语料处理—6.9,6.10训练语料问答对的处理

占位

2020-02-15 23:15:28 350

原创 第6章 实战之聊天语料处理—6.8 训练语料库的解压处理

def main(limit=20, x_limit=3, y_limit=6): from word_sequence import WordSequence print('extract lines') fp=open("dgk_shooter_min.conv","r",errors='ignore',encoding='utf-8') groups=[]...

2020-02-15 23:07:04 191

原创 第6章实战之聊天语料处理—6.7句子和向量之间的转换

1. 添加代码至word_sequence.py def transform(self,sentence,max_len=None): assert self.fitted, "WordSequence尚未进行fit操作" if max_len is not None: r=[self.PAD]*max_len ...

2020-02-14 15:30:33 194

原创 第6章 实战之聊天语料处理——6.5,6.6数据处理-句子编码化处理

1.字典定义及转换2.训练字典import numpy as npclass WordSequence(object): PAD_TAG='<pad>' UNK_TAG='<unk>' START_TAG='<s>' END_TAG='</s>' PAD=0 UNK=1 STAR...

2020-02-09 00:02:23 266

原创 第6章 实战之聊天语料处理——6.3句子的构造和判断,6.4正则表达式

1.语料2.新建项目chatbot使用nlp虚拟环境中的python.exe3.复制语料到项目4.新建extractconv.py

2020-02-07 00:00:45 134

原创 软件安全测试技术

第1章 软件测试简介,(更新于20200204)第2章 软件测试分类,(更新于20180306)第3章 软件测试流程,(更新于20200205)

2020-02-06 23:23:05 459

原创 第6章 实战之聊天语料处理——6.2 聊天机器人语料处理流程

1.语料收集(1)聊天记录(2)电影对话(3)台词片段2.语料清洗要清洗的内容(1)多余的空格(2)不正规的符号(3)多余的字符、英文清洗的方法(1)正则化(2)切分(3)好坏语句判断3.句子向量的编码化(1)原始文本不能直接训练(2)将句子转换成向量(3)将向量转换成句子4.语料问答对的构建(1)问答对的处理和拆分(...

2020-02-05 22:44:19 657

原创 第6章 实战之聊天语料处理——6.1数据处理-环境搭建

1.环境介绍(1)sys,系统自带(2)pickle,特有类型和python数据类型转换,系统自带(3)re,正则表达式库,处理中英文符号转换、书名号去掉等,系统自带(4)tqdm,进度条,系统自带...

2020-02-05 17:06:06 92

原创 第5章文本处理方法——5.6 文本处理方法

1.数据清洗(去掉无意义的标签、url、符号等)2.分词、大小写转换、添加句首句尾、词性标注 一般把大写转换成小写,除了特殊词。3.统计词频、抽取文本特征、特征选择、计算特征权重,归一化4.划分训练集、测试集,7:3...

2020-02-04 15:05:38 439

原创 第5章文本处理方法——5.5 词向量与word2vec

1.词向量,word embedding 又叫词嵌入,是自然语言处理中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。2.Word2vec 是为一群用来产生词向量的相关模型,这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。(1)CBOW模型由输入层、映射层、输出层共同构成(2)CBOW所构建的模型结构实...

2020-02-04 14:51:00 248

原创 第5章文本处理方法——5.2,5.3,5.4 NLP中的语言模型

1.语言模型 是自然语言处理的一大利器,是NLP领域一个基本却又重要的任务。它的主要功能就是计算一个词语序列构成一个句子的概率,或者说计算一个词语序列的联合概率,这可以用来判断一句话出现的概率高不高,符不符合我们的表达习惯,它是否通顺,这句话是不是正确的。 我是NLP开发工程师 开发工程师我是NLP2.NLP中的语言模型,概率语言模型...

2020-02-04 11:59:39 145

原创 第5章文本处理方法——5.1语料的获取与处理

1.什么是语料库 语料,即语言材料,是语言学研究的内容,是构成语料库的基本单元。 语料库,存放的是在语言实际使用中真实出现过的语言材料。 语料库是以电子计算机为载体承载语言知识的基础资源。 真实语料需要经过加工(分析和处理),才能成为有用的资源。2.语料库的种类(1)异质的(2)同质的(3)系统的(4)专用的3.语料的...

2020-02-04 10:58:34 1246

thucydides.pdf

bdd, thucydides, 从需求到验证测试、单元测试,构建软件

2015-04-06

ATDD by Example

ATDD by Example, BDD, Cucumber

2014-07-28

Pro Agile .NET Development with SCRUM

scrum, agile, bdd, specflow, watin

2014-07-28

Cucumber行为驱动开发指南(英文版本)

Cucumber创始人与最有经验的用户和贡献者之一的权威力作。 流行的自动化功能测试工具Cucumber的权威指南。 国内敏捷及测试群体极好口碑和期望。 很少有工具能像Cucumber那样把开发者和客户之间的鸿沟成功地桥接起来。Cucumber不是测试应用的工具,而是沟通需求的哲学。本书使这套哲学获得了生命。 ——Robert C.Martin(Bob大叔)

2014-03-10

Asp.net MVC 4 in action

ASP.NET MVC4 in action是几本mvc4里面,比较基础简单的一本。

2013-03-04

Professional ASP.NET MVC4

wrox公司出版的Professional ASP.NEt MC4.

2013-03-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除