自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

VM_Alike的博客

华哥不吃海鲜

  • 博客(36)
  • 资源 (3)
  • 收藏
  • 关注

原创 阿里暑期实习面经——算法工程师(安全)

最近真是忙到吐,以至于现在才能抽出时间记录一下阿里实习过程。以下就是录用通知和意向书。先说一下笔者的大概情况吧,985硕,专业网络空间安全,本科软件工程,安全小白,研究生过一个风控项目,研究方向是恶意JS代码检测,SCI一篇、发明专利两项、实用新型一项、软著5项。一、一面(电话面)一面的面试官是个师姐,声音特别温柔。大概聊了四五十分钟。面试过程基本都是按照我简历上写的项目问的,我记得当时聊到我总风控项目的时候用了哈希函数,然后师姐就问我知不知道什么是simhash, 我说不知道(hhh,

2021-04-23 10:54:57 1502 7

原创 Computers & Security投稿教程

前段时间在Computers & Security上投了一篇论文,还是有踩了很多坑。现在出个简单教程,希望对读者有帮助。1.读者首先注册一个账号,注意角色是Author。2.点击“Submit New Manuscript”3.

2020-12-30 10:17:14 8376 31

原创 Python画ROC+AUC

最近在写论文,最后的实验部分是需要用ROC和AUC比较不同模型的分类效果。代码如下:# -*- coding: utf-8 -*-import matplotlib.pyplot as pltfrom sklearn import svmfrom sklearn.metrics import roc_curve, auc ###计算roc和aucimport numpy as npimport random#模型一res_1 = np.load('./hyh_auc_roc_res.n

2020-09-04 17:28:37 2202

原创 恶意JavaScript代码检测文献阅读(二)

《JSAC: A Novel Framework to Detect MaliciousJavaScript via CNNs over AST and CFG》《JSAC:一种基于AST和CFG的CNNs恶意JavaScript检测框架》作者:Hongliang Liang, Yuxing Yang, Lu Sun, Lin Jiang简介:作者的创新点在于用AST(抽象语法树)和CFG(控制流图)作为语法和语音特征提取,再用树卷积和图卷积进行处理,最后得到的两个特征合并后分类。一、加入.

2020-06-09 17:00:46 612

原创 恶意JavaScript代码检测文献阅读(一)

《A machine learning approach to detection of JavaScript-based attacks using AST features and paragraph vectors》《一种基于javascript的攻击,使用AST特征和段落向量的机器学习检测方法》作者:Samuel Ndichu ,Sangwook Kim ,Seiichi Ozaw...

2020-04-09 23:38:16 1271

原创 百度内容审查做敏感词库筛选

最近在做项目的敏感词库筛选更新。笔者最终的目标是通过百度API将现有的敏感词库筛选更新成。一、准备工作读者需在百度智能云登陆账号,然后开通百度内容审核功能,然后根据API Key和Secret Key可以获得调用接口所需的access_token。二、代码调用API进行筛选获得API后就是写代码进行筛选了,笔者Python代码如下:import requestsimpo...

2020-03-27 11:15:04 7085 11

原创 PaddlePaddle离线安装教程(不使用docker),Linux和Windows

笔者这周在部署项目的时候面临PaddlePaddle批量部署的问题,这就不仅要求是离线安装,还要求安装包不能过大。当时在网上没有找到想要的教程,就去GitHub上提问PaddlePaddle的工程师了。GitHub问题链接,但是使用docker的话镜像文件解压后有12个G(pip在线安装安装包大小是200+M),这对于项目的批量部署来说是不能接受的。而且docker安装的镜像环境中集成了太多的工具...

2019-12-20 19:12:27 6262 7

原创 NLP:用Senta做文本情感分析

笔者在做Web敏感信息检测功能时,需要用到NLP领域的文本情感分析,这里用的是百度的预训练模型Senta。一、下载预训练模型百度提供的预训练模型在GitHub上Senta,该模型所需环境是PaddlePaddle,这里就不得不吐槽一下在线安装的速度简直不要太慢。二、修改代码笔者的需求是我将一个网页中含有敏感信息的语句存入一个文件中,然后利用Senta对文件中的所有数据进行预测,...

2019-12-16 15:16:22 3532

原创 机器学习:监督学习各方法特点及适用情况

今天是属于程序员的节日,所以笔者便写篇博客记录最近所学。笔者最近在学习传统的机器学习方法,目前在看的主要是监督学习,总结如下:一、感知机感知机是二类分类的线性分类模型(即适用于二类分类),其输入为实例的特征向量,输出为实例的类别,取值为+1和-1二值。感知机的模型特点是分离超平面,属于判别模型。学习策略是极小化误分点到超平面的距离,利用梯度下降法对损失函数进行极小化。该算法具有简单而易于实...

2019-10-24 10:24:14 5314

原创 Python爬虫实例:爬取某个网页的子网页

笔者的目的是对已有的白名单进行细化处理。比如现在有常见域名名单(百度、腾讯、搜狐等等),笔者要做的是对每一个域名爬取其所有的子网站,比如腾讯对应的还有腾讯视频、微信、QQ、腾讯新闻等等。笔者的输入是一个包含常见域名白名单的xls文件,输出是一个包含白名单细花后的所有网站的xls文件。代码如下:import tldextract, requests, xlwt, time, random,...

2019-10-12 17:35:15 8888 1

原创 Python网段转IP,批量处理

笔者要做的是利用Angry IP Scanner对IP进行扫描。可是得到的不是IP,而是网段。笔者说的网段还不是*.*.*.*/X这种格式的,而是1.0.1.0,1.0.3.255这样的。所以就不能用Python自带的IIPY模块。以下是得到的数据和笔者最终的转化成果(部分):1.0.1.0,1.0.3.2551.0.8.0,1.0.15.2551.0.32.0,1.0.63.2551....

2019-09-19 16:44:46 1365

原创 为什么说马云退休是急流勇退?

昨晚笔者被朋友问到马云为什么选择退休的问题,理清了自己的见解后在此记录下来(以下全是个人见解,具有主观性)。在分析马云退休前我们首先看先看阿里巴巴的发展,支付宝带来的移动支付在全国乃至整个世界都是领先的地位。可以这样说,阿里在中国的发展已经封神了,很难再有更显著的提高。所以这个时候阿里的眼光自然就会投向世界,我们也看到了马云为了阿里在美国上市所做出的努力。但是我们再看阿里巴巴这个公司的性质...

2019-09-12 11:04:04 1270 3

原创 八爪鱼,那些我踩过的坑

笔者应实验室的要求购买了八爪鱼的“旗舰+”套餐,499元一月。 看到网上关于这款软件的问答还是比较少的,这里想就这款软件说说自己的看法。首先是这款软件的定位。我觉得这款软件虽然定位是爬虫,但是不适合真正做爬虫的程序员。因为它属于可视化的爬虫操作,这也是这款软件最大的卖点。爬虫的人不需要任何的代码基础也可以进行爬虫。所以如果你本身就会自己敲代码进行爬虫,再用这个软件就不值得了。当时笔者买这款...

2019-08-26 15:37:19 4140 1

原创 Python爬虫,动态加载,JSON数据

该博客仅用于技术讨论,若有侵权,联系笔者删除。之前笔者做的爬虫基本都是获取网页代码后就可直接获取数据,或者用selenium进行模拟用户。但是用selenium的速度是真心慢。这次笔者在爬取VenusEye威胁情报中心的时候,获取代码后发现所需数据都是JS动态加载的数据。结果如下:<dl @click="search('domain')" v-show="headerEmail"&...

2019-08-26 11:23:23 3507

原创 Python+Selenium爬虫:定位元素无ID和class等属性解决办法

今天笔者进行数据爬虫的时候遇到一个问题,所需要定位的input输入框元素和button按钮元素都没有ID和此class等属性。代码如下:<div id="headerScaher" class="scaher hover"> <input type="text" placeholder="IP、域名、文件HASH(MD5/SHA1/SHA256)、邮箱"> ...

2019-08-21 10:24:23 12848 4

原创 Python爬虫:查国家安全信息库

本博客仅用于技术讨论,若有侵权,联系作者删除。这次笔者想对国家信息安全漏洞库进行爬虫,获取漏洞信息。并将每一个漏洞信息存为一个json文件。一、获取当前总页数先获取总页数,以便进行for循环爬所有的漏洞数据:#获取当前总页数def get_all_page(): global all_page req = requests.get('http://www.cnn...

2019-08-14 11:05:52 2942

原创 考研经历,川大(网络空间安全)

自从六月份决定考研到考研结束,半年多没碰过博客了。昨天考研结束,所以想趁热把经历和感想都记录下来,希望可以对读者有所帮助,也是对自己一段宝贵经历的封存。先唠叨唠叨为什么选择读研吧。就个人原因的话:我想读研,在本科接触的这么多项目中拓展了我的知识面,但是不部分都是仅限于了解和基本使用的,我想确定一个方向更深层次的去学习,而且我觉得,学士学位不能满足我,在学术上我还没有理想的建树,我觉得我能做的还...

2019-08-06 14:40:25 5331 2

原创 Python+IP代理爬虫实例:爬取常见知名网站信息

本博客仅用于技术讨论,若有侵权,联系笔者删除。此次的目的是爬取国内常见网站的基本信息。爬取的黄页是网站列表,爬取了三万多条数据。以下是结果图:一、代理IP由于一个IP重复请求多次后服务器会不响应,所以此处笔者采用代理IP的方式。代码如下:#获取代理IP列表def get_ip_list(url_now, headers): web_data = requests.g...

2019-08-06 14:26:22 3299 1

原创 Python爬虫实例:爬取国内所有医院信息

本博客仅用于技术讨论,若有侵权,联系笔者删除。此次的目的是爬取国内医院的基本信息,并按省份存储。爬取的黄页是医院列表。以下是结果图:一、初始化数据初始化基本的数据,包括global变量,省份名称等等。import requests,re,xlwt,datetimefrom bs4 import BeautifulSoup#初始化def init(): gl...

2019-08-05 15:22:15 12537 19

原创 Python爬虫:爬取国内所有高校名称、类型、官网

本博客仅用于技术讨论,若有侵权,联系笔者删除。此次的目的是爬取国内高校的基本信息,并按省份存储。爬取的黄页是http://www.gx211.com/gxmd/gx-bj.html。以下是结果图:一、初始化数据初始化基本的数据,包括global变量,省份名称等等。from bs4 import BeautifulSoupfrom selenium import webd...

2019-08-02 17:27:05 11013 5

原创 Python爬虫实例:爬取“查IPIP”查询结果,查询IP地址归属地

该文章仅用于技术讨论,若有侵权,联系作者删除。目标是输入一个IP地址后,获取查IP网(http://chaipip.com/ip.php)的查询结果。正常使用我们发现——流程是输入IP地址——进行滑动验证码验证后查询——跳转一个新的窗口——获取新窗口的查询结果。我们先来看一下最后的流程和结果。selenium模拟流程查询结果接下来,我们就一步一步讨论如何解决。一、输入I...

2019-07-31 15:23:37 5586

原创 Python爬虫:验证码认证(输入式验证码、滑动式验证码、点击式验证码、宫格验证码)

笔者在本科阶段想学却一致没有学的Python爬虫,没有想到研究僧阶段刚进实验室的第一周就被安排学习了。这周笔者主要学习的有:UA黑名单饶过、JS混淆和验证码认证。其中,验证码认证是花费时间最长的,问题及代码如下:一、输入式验证码用户根据图片输入相应的数字和字母,这种验证码出现相对较早,也较为普遍,对于Python爬虫来说,也较为简单。解决办法式用Python的第三方库Tessero...

2019-07-26 16:14:00 6136

原创 Bootstrap,左侧二级菜单,div高度随内容变化,设置border宽度无效

笔者用Bootstrap写网站自适应已经接近尾声了,这是第二篇也是最后一篇博客记录我写自适应遇到的坑。这次笔者主要讨论三个问题:如何用Bootstrap写侧边栏二级目录、div高度随内容变化、设置border宽度无效的问题。一、Bootstrap写侧边栏二级菜单笔者实现二级菜单其实是用标签页做的。先看最终结果,再讨论代码:自适应移动端后的效果如下:笔者的实现思想是把标签页目...

2019-05-01 11:09:16 4095

原创 Bootstrap、CSS写自适应,如何解决高度、字体自适应问题

笔者这段时间在做一个企业官网的自适应,没有用Bootstrap模板,而是引入Bootstrap自己写自适应。开发过程中高度自适应、字体自适应问题对于笔者这种入门级的新手来说是个难点。比如有个div盒子在电脑端我希望他的margin-top是100px,在手机端我希望是20px。以下就是笔者关于两者的解决办法。一、选择性隐藏(Bootstrap)这是笔者自创的一种办法,写一个height为8...

2019-04-27 11:19:29 18487

原创 Unity 3D,小地图,制作教程

    笔者的Unity 3D课程已经结束,这里记录下几个比较常用的功能教程并分享给大家。    接下来我们说一说小地图的制作,具体思路为:在角色头顶创建一个摄像机,并选择二维显示跟踪角色运动。然后将场景中的元素分为多个layer并根据需要去渲染,最后通过更改摄像机的size放大或缩小小地图。    1.创建一个Camera,通过宣传其视角,将它垂直于地面,Projection选择Orthegra...

2018-06-27 22:04:47 11414 1

原创 分治法,动态规划法,贪心法,回溯法,分支限界法的区别和联系以及适用情况

    笔者这学期的《算法设计与分析》课程已经进入尾声,在这里对学过的算法进行总结归纳。笔者先对各个算法的思想进行简单的陈述,然后再进行对比。一、算法思想    (一)分治法(divide and conquer method)    是将待求解的原问题划分成k个较小规模的子问题,对这k个子问题分别求解。如果子问题的规模仍然不够小,则再将每个子问题划分为k个规模更小的子问题,如此分解下去,直到问题...

2018-06-26 20:53:55 21511 6

原创 Linux编程,进程间通信,共享内存

    此次给大家分享的是Linux下通过共享内存,实现进程间的通信,流程如下:    创建写进程,其功能为创建共享内存并映射到私有地址空间,然后向内存写入数据,直至遇到’#’为止,读进程使用和写进程相同的KEY创建共享内存并映射到私有地址空间,然后从内存读数据并打印在终端上。    write.c    #include&lt;unistd.h&gt;#include&lt;stdlib.h&...

2018-05-31 19:22:20 2746

原创 Linux编程,进程间通信,屏蔽信号,sigaction(),sigprocmask()

    通过编程实现信号的捕获和屏蔽,例如:捕获“Ctrl-C”信号时,打印I have get SIGINT,捕获“Ctrl-\”信号时,打印I have get SIGQUIT;设置进程屏蔽字,.取消对SIGINT的屏蔽,再次按下“Ctrl-C”,查看结果。    设置信号屏蔽用的是sigprocmask(SIG_SETMASK,&amp;sigset,NULL),但是这种状态下当输入已经屏蔽...

2018-05-31 17:05:57 3180 2

原创 Linux编程,一个服务器对应多个客户端,客户端之前实现群聊,私聊

    笔者这学期在进行Linux系统的学习,做了一些有意思的程序分享给大家,并通过这种方式把它记录下来。    实现的思路是服务器端每当接受一个socket连接请求后,就将该连接的套接字描述符存入一个数组中,以此识别每个socket连接。并根据客户端发送信息判断后执行相应的命令,比如:展示当前在线客户端信息、群聊、私聊等。    Client.c#include&lt;stdio.h&gt; ...

2018-05-31 15:17:47 6612 6

原创 TSP问题,贪心法,最近邻点,最短链接

    笔者接着上一次的博客继续讨论TSP问题(TSP问题,动态规划法),这次采用贪心法,至少有两种贪心策略是合理的:最近邻点策略和最短链接策略。    (一)最近邻点策略    从任意城市出发,每次在没有到过的城市中选择最近的一个,直到经过了所有的城市,最后回到出发城市。        设图G有n个顶点,边上的代价存储在二维数组w[n][n]中,集合V存储图的顶点,集合P存储经过的边,最近邻点策...

2018-05-29 22:00:16 16563 4

原创 TSP问题,动态规划法

    TSP问题是指旅行家要旅行n个城市,要求各个城市经历且仅经历一次然后回到出发城市,并要求所走的路程最短。各个城市间的距离可以用代价矩阵来表示。(一)动态规划法    假设从顶点i出发,令d(i, V')表示从顶点i出发经过V'中各个顶点一次且仅一次,最后回到出发点i的最短路径长度,开始时,V'=V-{i},于是,TSP问题的动态规划函数为:d(i,V')=min{cik+d(k,V-{k}...

2018-05-15 20:19:10 37786 1

原创 人生中的算法抉择

     贪心法在决策问题上目光短浅,只根据当前已有的信息就做出选择,而且一旦做出了选择,不管将来有什么结果,这个选择都不会改变。换言之,其并不考虑整体最优,它所做的抉择只是在某种意义上的局部最优解……第一次看到贪心算法的设计思想的时候我很惊讶,感觉它就是大部分生活的写照。笔者摸着良心说:不喜欢这个算法,不想让其成为人生的缩写。      (一)求职       求职跟贪心算法很相似,容易实现,但...

2018-05-07 19:56:00 3107 1

原创 平面最近点对问题,分治法,排序优化,归并排序,插入排序

    最近点对问题中涉及到对点按x或y进行升序排序,笔者尝试对排序方式进行优化。首先想到的自然是归并排序,毕竟归并排序的核心思想也是分治法,但是归并排序比较适合基数较多的情况。最后笔者更改思路如下:当点集合总数n的值小于50时,采用插入排序,当n的值大于50时采用归并排序,代码如下:void MergeSort(point *a, int p, int r,bool sort_x_y){ i...

2018-05-06 11:29:35 3431

原创 最优二叉查找树,动态规划法,二维表,填表优化,代码

    笔者先介绍一下动态规划法最优二叉查找树以及填表公式(本质是想吐槽其繁琐)。    设T(i, j)是由记录{ri, …, rj}(1≤i≤j≤n)构成的二叉查找树,C(i, j)是这棵二叉查找树的平均比较次数。虽然最后的结果是C(1, n),但遵循动态规划法的求解方法,需要求出所有较小子问题C(i, j)的值,考虑从{ri, …, rj}中选择一个记录rk作为二叉查找树的根结点,可以得到如...

2018-05-05 11:31:38 5458 3

原创 循环赛日程表,分治法(n为任意数,n=2^k),多边形轮转法(n为任意数),递归和指针,共五种解决方案。

    笔者对循坏赛日程表的问题进行了一定深究,以下是该问题的五种解决方案(讨论原理时,笔者默认读者对分治法解决循坏赛日程表问题有理论基础)。    一、分治法,n=2^k,初始化为2*2的矩阵。    该方法的思想是利用递归对数组进行拆分,待数据左上角可用时:左下角=左上角+(此时数组长度)/2,右上角=左下角,右下角=左上角。代码如下(由于代码较多,笔者只贴核心代码,需要全部代码的读者可在笔者...

2018-04-27 09:43:17 7053 4

原创 分治法求最值问题,典型的错误示范及正确的代码

    笔者在进行分治法学习和跟同学讨论时发现一个比较有意思的错误,在此分享给大家。    我们知道,分治法的核心思想时将待处理对象先分后治,而且当待处理对象基本有序时分治法将退化为冒泡算法。    下面我们看一个有意思的错误示范(伪代码):    void MaxMin(A[l..r],Max,Min){ if(r==l) { if(A[1]&gt;Max) Max=A[l]; e...

2018-04-22 09:36:51 2881 1

cover letter模板.doc

cover letter模板,笔者自己写的。

2021-01-27

嵌入式操作系统实验报告

河北工业大学《嵌入式操作系统》实验报告 实验一 Linux下C编程 实验二 搭建NFS服务器 实验三 守护进程 实验四 进程间通信——有名管道 实验五 进程间通信——信号机制 实验六 进程间通信——共享内存 综合实验——课程考核

2018-06-21

循环赛日程表,分治法(n=2K,n为任意数),多边形旋转法,C++

笔者用5中方法解决循环赛日程表问题。 一、n=2^k,采用递归,指针数组解决,左上角和左下角填充,剩下的copy。 二、n=2^k,采用递归,指针数组解决,左上角填充,剩下的copy。 三、n为任意数,采用递归,指针数组解决。 四,n为任意数,采用多边形轮转法。 五、n为任意数,是笔者对多边形轮转法的优化。

2018-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除