自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (4)
  • 收藏
  • 关注

原创 【自然语言处理NLP】中文语料整理【情感分析、文本分类、摘要、实体分析】

个人开发在做很多NLP相关任务的时候,语料的寻找十分头疼。有很多公开的语料,被他人收费,或要积分下载等等。对平时开发造成诸多不便。这边整理了一些自己收集到的语料方便大家使用新闻文本分类语料THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。非常感激前辈及学习过程中的伙伴。github...

2019-06-05 23:01:27 8313 4

原创 python 闭包函数

闭包函数概念在一些语言中,在函数中可以(嵌套)定义另一个函数时,如果内部的函数引用了外部的函数的变量,则可能产生闭包。闭包可以用来在一个函数与一组“私有”变量之间创建关联关系。在给定函数被多次调用的过程中,这些私有变量能够保持其持久性。——维基百科非闭包def read_a(): a = '变量' print(a)read_a()正常函数调用过程a变量随着函数结束,就被内存回收了。闭包实例def read_b(): b = '变量' print('外

2020-09-03 18:46:02 251

原创 超级反爬学习系列2篇-壳1代码分析,控制流讲解

瑞数全流程分析二 壳一代码分析初步分析控制流讲解二 壳一代码分析初步分析首先一般分析一个js,先将所有代码都压缩,看看总体的架构可以看到壳1的代码并不多,大概1000行。主要代码集中在最后一个函数大概700行。其中几个重点一开始有一个变量,一个数组看到一个while (1) 循环不出意外就是某数的控制流平坦化了。仔细看一下这个控制流,对后续做动态转静态有重要的作用控制流讲解控制流平坦化主要思想就是不影响代码执行顺序的前提,将代码可读性降低实际上通过_$Ps 拿到[10, 5, 8

2020-09-01 00:34:46 627

原创 超级反爬学习系列1篇-某数调试思路

某数全流程分析一、 调试思路某数代码主要部分分为**3**部分fiddler中间人重点一、 调试思路某数代码主要部分分为3部分壳1代码ts 通过壳1解析出来的 我称为evaljs还有content字符串这三部分真正动态的,只有content。其他只是变化了参数和函数名,具体逻辑不改变,但会通过content实现动态化。但是每次返回都不一样,所以需要通过中间人去固定一套壳1 content 和evaljs。fiddler中间人我这边通过fiddler去固定壳1和content代码。ts 一般

2020-08-31 23:37:35 634 1

原创 js逆向 多js合并成的webpack

文章目录扣代码练习找加密的位置扣代码开始调用例子扣代码练习网站地址 https://web.ewt360.com/register/#/login?_k=4xcfi6找加密的位置y.Encrypy已经找到关键了就是把y对象提取出来即可扣代码开始这里其实看到是AES加密1、可以去找一个原生的AES加密,一般的网页都不会改写加密的2、将加密部分的代码扣出来今天是来解webp...

2020-04-14 23:33:40 3671 6

原创 js 利用逗号运算符偷梁

文章目录利用逗号运算符偷懒换柱什么是逗号运算符这个this是哪个this利用逗号运算符偷懒换柱什么是逗号运算符let x = 1;x = (x++, x);x=2;简单来说就是从左到右运算,并且返回最后一个这个this是哪个this(function () { console.log(this) console.log('fc2 running')})()首...

2020-04-14 15:44:41 203

原创 js参数加密---webpack打包 rsa加密参数练习

文章目录rsa加密参数练习练习简介找加密位置把整个js拉出来分析总体分析看看call方法的定义 apply、call 区别仔细看加密的代码内容加密代码中的细节调用测试代码rsa加密参数练习练习简介练习网站 https://www.gm99.com/password参数找加密位置ajax提交,直接进入方法栈找到加密位置这个还挺好找的第二步:重新登录进入断点位置进入encode方...

2020-04-14 01:32:55 1277

原创 探究JS反调试,无限debugger

探究无限debugger爬虫应该经常遇到这个反调试一个匿名的debugger 一直生成。我们找到生成的函数不好看不懂这段代码怎么做到的匿名函数无限debugger简化一下代码true ? function () { return !0} ["constructor"]("debugger")["call"]("action") : null;还看不懂再来...

2020-04-09 00:34:46 2260

原创 京东口罩爬虫、使用教程、第三篇

京东口罩爬虫、使用教程、第三篇功能效果展示V2版本(正常模式),下单速度1.7秒(网速影响)V2版本(极速模式),下单速度1.3秒(网速影响)V3版本,下单速度1秒(网速影响)windows启动安装python3.6以上(已经安装了python跳过这一步)下载代码、安装依赖修改配置cookie_String 账号信息area 地区idskuid 商品id运行预祝大家都能抢到口罩,请大家适量购买...

2020-02-09 19:46:04 76037 140

原创 从下载到识别(Keras深度学习),一步步完成支付宝验证码的自动识别(带练习的训练集)

从下载到识别,一步步完成支付宝验证码的自动识别开始训练修改配置运行代码使用模型示例修改配置使用程序运行本教程仅供学习,不会提供任何可直接使用的模型和程序使用深度学习框架Keraspython版本3.6验证码主要是用于智能区分人机。而爬虫一部分得工作就是模拟人得行为去浏览。自然就站在了对立面今天带大家练习得是还在广泛使用的,定长型字符验证码这个是支付宝得官网的登录验证码而我们需要做...

2020-02-03 18:44:53 2075 1

原创 买不到口罩,京东到货通知不靠谱,python爬虫帮你时刻盯着

买不到口罩,京东到货通知不靠谱,python小爬虫帮你盯着代码修改的地方买不到口罩,京东到货通知不靠谱。(还没 等到通知就被抢购完了)这就轮到我python小爬虫出马了时刻帮我盯着京东是否到货代码''' jd旗舰店检查到货'''import requestsimport time#有货通知 收件邮箱mail = '[email protected]'#商品的urlurl...

2020-01-30 13:28:22 20506 11

原创 nvidia账号、cuDNN的下载账号分享

https://developer.nvidia.com/rdp/cudnn-download最近在新电脑装tf环境cuDNN的下载账号弄着怪难受分享一个账号[email protected]

2020-01-21 18:52:17 11098 5

原创 破解极验验证码奇妙思路(不适用所有情况)登录授信类爬虫效果很好

该文章仅用于学习,侵权联系删除主要是分享一些思路,和爬虫的方法。大家探讨学习有段时间没更新爬虫的东西了今天更新一个另类过极验所有验证码的方式(而且不惧更新)但该方式使用场景有限,用在授信登录类场景还比较合适道理相同,主要是给大家分析思路这次练习的网址是平安的一个登录网页http://www.4008000000.com/fuwuzhongxin/haochezhu/ip.shtml...

2020-01-16 00:25:52 2043 2

原创 CDH Service和Host监视器区别,主机监控各指标解释

CDH Service和Host监视器区别,主机监控各指标解释Service 和Host监视器的作用Service Monitor (SMON)Host Monitor (HMON)Cdh主机监控(各指标含义)一、CPU监控二、聚合磁盘 IOPS三、系统文件容量四、磁盘延迟五、平均负载六、聚合磁盘吞吐量Service 和Host监视器的作用Service Monitor (SMON)它的主要...

2020-01-16 00:09:40 1568

原创 SparkContext和SparkSession不能序列化分析,解决方法

Task not serializable,Caused by: java.io.NotSerializableException: org.apache.spark.SparkContext 错误原因分析,@transient注解解决报错信息错误原因解决方法解决方法1:解决方法2:需要注意报错信息Caused by: java.io.NotSerializableException: org...

2020-01-08 23:36:50 1482

转载 linux面试题 linux可以直接删除正在运行的文件吗

Linux中多进程环境下,打开同一个文件,当一个进程进行读写操作,如果另外一个进程删除了这个文件,那么读写该文件的进程会发生什么呢?因为文件被删除了,读写进程发生异常?正在读写的进程仍然正常读写,好像没有发生什么?linux是通过link的数量来控制文件删除,只有当一个文件不存在任何link的时候,这个文件才会被删除。每个文件都会有2个link计数器-- i_count 和 i_nlin...

2020-01-01 14:01:51 4324

原创 linux awk、sed、cut等等常用操作demo

table.txt文本t1 d2t11 d3t2t3t4awk擅长列输出假设对table表文本 输出每个表删表语句cat table.txt | awk '{print "drop table " $1 " ;"}'当然还可以使用正则匹配其中的列cat table.txt | awk '/t1/{print "drop table " $1 " ;"}'awk操...

2019-12-27 00:15:03 226

原创 验证码-收集奇怪的验证码

最新的欢迎去 https://github.com/cycz/StrangeCaptcha奇怪的验证码验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序如今验证码发展越发奇怪本...

2019-12-27 00:04:51 1161 1

原创 爬虫必经之路--帮助你十分钟完成验证码破解训练

git地址:https://github.com/cycz/EasyCaptcha如有帮助,Star走起使用深度学习来破解 captcha 验证码本项目会通过 Keras 搭建一个深度卷积神经网络来识别 captcha 验证码,建议使用显卡来运行该项目。本项目完全依赖配置即可训练出可用,高精确率模型,无需关心代码详细配置信息,十分钟即可完成验证码训练环境python版本 3.6...

2019-12-26 01:04:27 823

原创 spark 任务提交 conf不生效

提交任务的时候 --conf 等配置需要放在jar包前面,否则不会生效具体环境信息可以在点击任务点击Environment 可以看到当前任务的详细信息

2019-12-15 21:34:05 912

原创 cdh 添加新主机

1.1说明CDH机器添加分三种方式页面向导添加(最好离线)软件包手动安装原始码手动安装第一种方式最简单,添加的节点会去主机下载安装包,但是在公网上ip反向解析域名,经常出错,离线会好点第三种方式原始码安装需要自己指定管理目录推荐第三种方式,会自动添加对应的服务,目录自动建立这里分享第二种方式,软件包安装方法1.2安装部署主机名、ip等修改好,关闭防火墙,ssh免密码登录...

2019-12-15 21:30:03 1395

原创 大数据环境搭建--zookeeper

Zookeeper的环境配置HBase做集群,所以就需要zookeeper了将下载下来的Zookeeper 的配置文件进行解压tar -xvf zookeeper-3.4.6.tar.gz然后移动到/app/hadoop/目录下(根据自身情况选择)mv zookeeper-3.4.10 /app/hadoop创建目录mkdir /app/hadoop/zookeep...

2019-12-15 21:24:44 245

原创 大数据环境搭建--mysql

官网下载安装包https://www.jianshu.com/p/276d59cbc529修改默认安装路径执行解压命令tar xzvf mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz移动该文件到home目录下(注默认安装路径是/usr/local/mysql可将~/mysql改为)执行移动命令:mv mysql-5.7.24-linux-glibc...

2019-12-15 21:22:50 287

原创 某东jd滑块系列第三-变态的注册页面滑块

某东jd滑块系列第三-变态的注册页面滑块什么,还有浏览器指纹?声明:本文章纯属技术探讨学习防止不法用途轨迹代码为旧版本需要自行优化欢迎大家看登录页面滑块验证码github地址欢迎start本篇文章暂时不分析验证码,埋个坑只讲思路之前以为jd的滑块这么简单,随意一个轨迹就是90成功率以上。简直Too Young Too Simple。有兴趣的童鞋们可以去研究研究https:...

2019-11-24 23:59:43 1933 1

原创 Jsoup Unhandled content type异常

记录一下jsoup Unhandled content type异常异常表现完整的异常信息org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml. Mimetype=image/png, URL应该是请...

2019-10-13 22:19:55 846

原创 【验证码识别】(二)京东滑块验证码爆破---纯js非selenium方式 java版本

接下来一步步分析jd的滑块验证码滑块分析的思路(纯js调用,非selenium)

2019-10-05 21:30:32 6705 5

原创 java-插入排序

java-插入排序方便自己回忆的记录总结~代码方便自己回忆的记录总结~时间复杂度:O(n2)不断和前面位置对比交换,选择合适插入的位置,进行排序。代码 /** * 插入排序 */public class InsertionSort { //1 2 3 4 5 public static void insertionSort(int[] arr) { ...

2019-09-22 22:48:21 130

原创 java-选择排序

java-选择排序记录总结代码记录总结时间复杂度:O(n2)循环一遍选择一个最大的数字与当前位置交换代码/** * 选择排序 */public class SelectionSort { public static void selectionSort(int[] arr) { for (int i = 0; i < arr.length; i++)...

2019-09-22 22:09:28 119

原创 阿里云,腾讯云安装python依赖内网映射网址

阿里云,腾讯云安装python依赖内网映射网址阿里云地址腾讯云地址生产的服务器可能没办法访问公网地址,记录一下内网安装python依赖的流程阿里云地址 pip install requests -i http://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com将requ...

2019-09-21 21:33:21 650

原创 keras错误记录:tensorflow.python.framework.errors_impl.UnknownError: Failed to get convolution algorithm

tensorflow.python.framework.errors_impl.UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a warning log message was print...

2019-08-15 19:40:24 1967 1

原创 leetcode-103 二叉树的锯齿形层次遍历 JAVA代码

给定一个二叉树,返回其节点值的锯齿形层次遍历。(即先从左往右,再从右往左进行下一层遍历,以此类推,层与层之间交替进行)。例如:给定二叉树 [3,9,20,null,null,15,7], 3 / \ 9 20 / \ 15 7返回锯齿形层次遍历如下:[ [3], [20,9], [15,7]]java代码public List&...

2019-07-27 21:44:49 372

原创 leetcode-107 二叉树的层次遍历 II JAVA代码

给定一个二叉树,返回其节点值自底向上的层次遍历。 (即按从叶子节点所在层到根节点所在的层,逐层从左向右遍历)例如:给定二叉树 [3,9,20,null,null,15,7], 3 / \ 9 20 / \ 15 7返回其自底向上的层次遍历为:[ [15,7], [9,20], [3]]解法一class Solution { ...

2019-07-27 21:32:51 329

原创 leetcode-102 二叉树的层次遍历 JAVA代码

给定一个二叉树,返回其按层次遍历的节点值。 (即逐层地,从左到右访问所有节点)。例如:给定二叉树: [3,9,20,null,null,15,7], 3 / \ 9 20 / \ 15 7返回其层次遍历结果:[ [3], [9,20], [15,7]]JAVA代码 public List<List<Intege...

2019-07-27 21:18:12 255

原创 自然语言处理-如何使用百度的中文开源词法分析工具(LAC) 进行命名实体语料标注 python

githubhttps://github.com/baidu/lac这是百度开源的一个词法分析工具首先要安装paddlepaddlepip install paddlepaddlepip install paddlehub PaddleHub 是基于 PaddlePaddle 开发的预训练模型管理工具,可以借助预训练模型更便捷地开展迁移学习工作,旨在让 PaddlePad...

2019-07-14 15:55:12 4532

原创 自然语言处理-命名实体识别的预料优化

本文主要是针对https://github.com/Determined22/zh-NER-TF 这个开源工程中的一个ner语料进行优化非常标准的命名实体识别语料,语料的质量也是非常的高。但是有个小问题语料对于人物的标注,有非常多带称谓的人物只标注的姓导致识别到非常多单字的姓效果非常差。例如张女士、和张师傅识别结果都是张、张。但我认为称谓也应该附带上这边我花了两天时间,对语料中大约...

2019-07-13 16:50:33 751

原创 【验证码识别】(一)京东滑块验证码爆破---获取滑块坐标 java版本

首先打开某东的网页。点击登录挡住我们登录的第一道防线就是这个滑块验证码了。首先我们分析一下呗换一张看看多换几张第一张的图片怎么又出现了看来图库是非常有限的那么这样的滑块图片缺口位置确定就非常的简单了首先看下图片的请求非常明显就是这个请求https://iv.jd.com/slide/g.html下载了图片的滑块的base64编码和滑块所在纵坐标的位置y首先我们写一个...

2019-07-10 00:46:34 3790

转载 Keras如何在学习过程中降低学习率

随着学习的进行,深度学习的学习速率逐步下降 为什么比 固定的学习速率 得到的结果更加准确?如上图所示,曲线代表损失值,小球一开始位于(1)处,假设学习速率设置为 △ v,那么根据梯度下降,损失值将在(1) (2)之间来回移动,无法到达最小值(3)处。要想到达(3),只能降低学习速率。keras中实现方法:learning_rate_reduction = ReduceLROnPlat...

2019-06-05 23:06:26 3697

原创 【自然语言处理】文本情感分析-不分词实验LSTM ONEHOT

常常做中文自然语言处理的第一步就是将句子级文章级文本进行分词。但中文分词常常让我们哭笑不得乒乓球/拍/卖了乒乓/球拍/卖了这样的分词常常让我损失句子的一些特征还有刘群老师的自然语言理解太难了系列话题给大家展示一下有意思的地方难度:※※ 两颗星来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”来到儿子等校车的地方,邓超对孙俪说:“我也想等等等等等过的那辆车。”...

2019-06-02 14:01:06 867

原创 [python]tqdm进度条其他用法 pandas、enumerate

安装tqdmpip install tqdm普通用法在迭代器中使用import timefrom tqdm import tqdmpbar = tqdm(["a", "b", "c", "d"]) for char in pbar: time.sleep(1)当遇到 enumerate 一起使用for x, i in enumerate(tqdm(index)):...

2019-05-23 23:33:02 9666

原创 Gensim错误'Word2Vec' object has no attribute 'vocab'

Gensim错误'Word2Vec' object has no attribute 'vocab'错误错误’Word2Vec’ object has no attribute 'vocab’原因是Gensim在1.0.0版本之后移动了vocab属性的位置因此在1.0.0之前版本的gensimmodel.vocabgensim 1.0.0+ 中你应该使用model.wv.vocab...

2019-05-22 23:08:44 9930

jdOrderMask.zip

口罩爬虫,jd自动下单爬虫代码。

2020-02-05

alipay.rar

验证码训练集5000张,已经标记好

2020-02-03

train_data.txt

命名实体人物优化后语料,对大量单字人物进行了重新标注

2019-07-13

MNIST_data.zip

MNIST手写字符数据集,字符和标签文件分离,存储格式为Matlab格式。

2019-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除