自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 资源 (31)
  • 收藏
  • 关注

原创 面试官:比如有10万个网站,有什么方法能够快速的采集到数据吗?

相关阅读:字节跳动面试锦集(一):Android Framework高频面试题总结字节跳动面试锦集(二):项目HR高频面试总结数据采集采集架构中各模块详细分析爬虫工程师,如何高效的支持数据分析人员的工作?基于大数据平台的互联网数据采集平台基本架构数据采集中,如何建立一套行之有效的监控体系?面试准备、HR、Android技术等面试问题汇总昨天有一个网友说,他最近面试了几家公司,有一个问题被问到了好几次,每次都回答的不是太好。面试官:比如有10万个网站需要采集,你有什么方法.

2020-07-16 17:04:40 956 3

原创 爬虫系列之数据质量监控(三):数据推送统一接口逻辑处理

(一)KAFKA统一数据推送接口1)非空校验处理逻辑:除标题为空数据直接存入异常MySQL库中外,其他类型的数据直接流到数据质量校验步骤进行分析;2)数据质量校验主要是根据每个字段设...

2020-05-26 11:03:00 727

原创 爬虫系列之数据质量监控(二):监控系统设计

扫码二维码关注我们更多干货,实时掌握十点数据完整文档请关注公众号,回复“文档”获取。二、数据监控流程图三、流程详解(一)信源系统信源系统主要是用来管理各种规则,同时接收异常信息、并分析异...

2020-05-23 09:30:00 881

原创 爬虫系列之数据质量监控(一)

概述现状最近SaaS平台、APP等产品,总是采集的数据中存在各种各样的问题,如标题解析成JavaScript代码,或者包含一段无用的字符、或者出现一个乱码字符串等等。先前的那套监控机制的弊病似乎越来越大,已无法满足数据监控的需求。随着现在的数据类型、定制的采集脚本、涉及到的人员等不断增多,采集难度的不断加大,各种各样的问题频繁出现。为了制定一套真正能够实时监控数据质量,并能够快速定位问题,同时能够及时反馈,快速迭代采集器或脚本的体系,在原有分散监控的基础上,在数据推送接口处再次添加一层集中监

2020-05-13 08:44:33 693 1

原创 不用CSDN和知乎,我照样写博客!为何要搭建自己的博客系统?

以前经常会在豆瓣、简书等自媒体上写一些文章,来记录一些工作中遇到的问题,或者某些问题/事件的解决方法。有时总是被告知因为 XXX 原因未能发布,转有私有!反复校验,也找不到什么敏感词,申诉多次也都不成功!有时,发表的内容,会无意间就被删帖或者账号禁言等掌控度高由于博客是你自己搭建的额,你可以写你想写的任何内容,简单一点,就是你可以畅所欲言(当然是在法律和道德范围内了),不受束缚。...

2020-05-04 10:57:52 1420 4

原创 基于大数据平台的互联网数据采集平台架构介绍

互联网的飞速发展将社会带入数据高度发达且公开的信息时代,数据对于企业经营、政府决策及社会动态分析等具有极其重要的作用,而如何大规模、快速采集数据成为技术焦点。网络爬虫是按照一定规则自动游走爬取互联网文本网页的程序或者脚本。文本数据大多嵌套于网页程序代码中。数据采集的效率直接决定数据的有效及时性,数据的快速采集成为重中之重。基于大数据平台的的互联网数据采集,可以有效适用于海量数据采集场景,为...

2020-04-06 18:53:16 1270 1

原创 3人团队,如何管理10万采集网站?(最全、最细解读)

人类的发展,经过了猿到人的发展。工业发展经历了石器时代、工业时代、智能工业的发展。转存失败重新上传取消采集也经历了从单点到多点,再到分布式的发展。采集源也从10个、100、1000个,再到1W、5万、10万的发展。那么这么多网站,我们怎么能保证它们一直有效(网站能够正常打开)呢?时代在进步,公司在不断发展壮大,网站的内容也在不断的丰富,每年、每月都会有新的栏目上架,有旧栏目下架。我们又...

2020-03-22 23:43:12 488 1

原创 一种基于PC端微信公众号的高效采集监测方法

相关阅读:一套价值十万的微信公众号采集解决方案史上最快、最笨的公众号文章阅读数、在看数采集,哈哈Python爬虫实践:如何快速、高效的爬取微信公众号阅读在看数微信采集之公众号账号信息最近公司微信采集有了新的突破,可以基于微信PC端进行公众号的监测,实时监测公众号发文。其重要原来就是监测操作系统内存,进行底层破解。目前实现的功能主要有: 1:公众号监测; 2:历史发文采集; 3:当前微信与关注公众号列表获取; 4:评论采集; 5:阅读数、在看数

2020-09-26 22:46:37 734 3

原创 面试官:比如有10万个网站,有什么快速采集数据的方法吗?

昨天有一个网友说,他最近面试了几家公司,有一个问题被问到了好几次,每次都回答的不是太好。面试官:比如有10万个网站需要采集,你有什么方法快速的获取到数据?想回答好这个问题,其实需要你有足...

2020-07-16 18:40:00 71

原创 爬虫系列之数据质量监控实践篇:规则库梳理与设计

先前在《爬虫系列之数据质量监控(二):监控系统设计 》一文中,对采集中数据解析部分可能出现的各种异常,进行了大概的总结。比如:标题或内容中包含乱码、css样式、JavaScript代码等。由于出现的异常可能千奇百怪,我们不可能提前想到所有现象。此时,就需要根据目前已经发现的问题,总结出一套能够灵活应对不同情况的规则库。其目的就是在数据持久化接口处,对接收的所有数据,依据信源系统中配置的规则进行校验,以判断采集到的数据的准确性,便与改进采集器或脚本,优化数据质量,提高产品的用户体验。一. 规则库必

2020-07-01 00:08:28 973 1

转载 社群运营:让群不死,付费粉丝多次转化的模式探讨

相关阅读:自媒体之百家号发文前100名_博客_十点数据自媒体之百家号账号信息_数据_十点数据自媒体运营、写作、社群运营等技巧_资源_十点数据[如何写作,才不会平庸?](如何写作,才不会平庸?_新媒体_十点数据学会这 4 招,人人都可以打造爆款标题100万+阅读量,是如何炼成的?_新媒体_十点数据文案大神不会告诉你的 5 种思维武器爆款是怎样炼成的( 9 字箴言 )分享人:胡浩天大家好,我是千帆电商学院讲师,胡浩天,很荣幸能和各位大咖总裁分享探讨社群营销。因为我

2020-06-09 14:22:58 2410 1

原创 LayUi的动态表格table中设置下拉框Select编辑器

相关阅读:X-admin2.2打开页面(添加弹窗),执行成功后如何关闭弹出窗口和刷新table表格内容?基于X-admin2.2的后台管理系统登录实现Spring Boot+JPA微服务中数据更新问题(update)Spring Boot集成X-admin2.2时,Layui字体图标无法正常显示或乱码问题解决方法LayUi搜索时,如何只刷新表格内容,其他内容不变?ZTree工具类汇总,包括:新增、编辑和删除节点,并提交后台LayUi的动态表格Table中每个td的内容可以设置为可

2020-06-07 18:07:53 9303 7

原创 Spring Boot+JPA微服务中数据更新问题(update)

相关阅读:基于X-admin2.2的后台管理系统登录实现Spring Boot整合Java web项目Spring Boot 踩坑系列之Error resolving templateSpring Boot集成X-admin2.2时,Layui字体图标无法正常显示或乱码问题解决方法LayUi搜索时,如何只刷新表格内容,其他内容不变?ZTree工具类汇总,包括:新增、编辑和删除节点,并提交后台最近在写基于Spring Boot+JPA的微服务进行数据更新时,发现始终无法通过**sa

2020-06-06 23:14:39 835

原创 ZTree工具类汇总,包括:新增、编辑和删除节点,并提交后台

相关阅读:X-admin2.2中switch开关的监听,以及属性值获取和更改状态等操作Spring Boot集成X-admin2.2时,Layui字体图标无法正常显示或乱码问题解决方法X-admin2.2表单提交方式及注意事项Spring Boot 踩坑系列之Error resolving templateMaven项目中引入net.sf.json.JSONObject依赖jar包最近在基于Spring Boot+X-admin2.2(LayUi)+framemark开源一个后台管理

2020-06-02 02:36:22 316

原创 头条等互联网公司面试准备、HR、Android技术等面试问题汇总

第一章程序员简历程序员简历就该这样写本篇文章除了教大家用Markdown如何写一份程序员专属的简历,后面还会给大家推荐一些不错的用来写Markdown简历的软件或者网站,以及如何优雅的将Markdown格式转变为PDF格式或者其他格式。推荐大家使用Markdown语法写简历,然后再将Markdown格式转换为PDF格式后进行简历投递。如果你对Markdown语法不太了解的话,可以花半个小时简单看一下Markdown语法说明:http://www.markdown.cn。为什么说简历很..

2020-05-24 18:07:53 3779

原创 ECharts中From Left to Right Tree树形图后台数据构造与节点点击事件

最近在做一个项目中涉及到了百度ECharts中From Left to RightTree树形图的使用,。虽然ECharts使用有些年头了,但是在后台数据构造时还是浪费了一点时间。现在记录一下,算是留做备份吧。同时也给需要的童鞋做个参考。后端代码如下:一:树节点对象:class Node { public String id; public String name; public String value; public String parentId;...

2020-05-20 01:39:38 1168

原创 Maven项目中引入net.sf.json.JSONObject依赖jar包

博主微信 讨论群 博主公号 回到顶部 Maven项目中引入net.sf.json.JSONObject依赖jar包十点数据昨天⋅ 17 阅读⋅ 0 积分最近在做基于SpringBoot+Frammark+X-admin2.2的开发时,涉及到json的处理,涉及到了net.sf.json.JSONObject相关的依赖包。Maven中的引用如下所示: <!-- JSONObject对象依赖的jar包 开始 --> <dependency&g...

2020-05-20 01:39:00 15213

原创 X-admin2.2表单提交方式及注意事项

在做基于SpringBoot+Frammark+X-admin2.2的开发时,涉及到的表单提交处理逻辑,记录一下以备不时之需。前端代码如下所示:// 表单提交form.on('submit(first1)', function (data) { var articleFrom = data.field;//获取数据集合; $.ajax({ type:"POST", url:"/layui/user/addEdit",//提交数据接口

2020-05-20 01:37:49 1148

原创 Spring Boot集成X-admin2.2时,使用layui的字体图标时无法正常显示或乱码的解决办法

最近在Spring Boot集成X-admin2.2时,好多按钮的图标都不显示了,只是显示个小方块乱码。其他的一些checkbox之类的也是不能正常显示。如下所示:解决方法主要有以下几步:第一步:确定已经引入fonts或lib/layui/font下的文件到项目中,如下如:第二步:确定引入的文件没有问题。具体路径如下图所示:需要注意的是:引入的字体图标文件所在的目录,必须和css文件所在的目录平级,否则就会出现乱码的现象。我先前是把所有的字体图标文件的要用都该到了fonts.

2020-05-20 01:37:16 865

原创 字节跳动面试锦集(一):Android Framework高频面试题总结

相关阅读:字节跳动面试锦集(二):项目HR高频面试总结1.AMS 、PMS1.AMS概述AMS是系统的引导服务,应用进程的启动、切换和调度、四大组件的启动和管理都需要AMS的支持。从这里可以看出AMS的功能会十分的繁多,当然它并不是一个类承担这个重责,它有一些关联类,这在文章后面会讲到。AMS的涉及的知识点非常多,这篇文章主要会讲解AMS的以下几个知识点:AMS的启动流程。AMS与进程启动。AMS家族。2.AMS的启动流程AMS的启动是在SyetemServer进程

2020-05-20 01:36:11 2675

原创 字节跳动面试锦集(二):项目HR高频面试总结

1.项目开发中遇到的最大的一个难题和挑战,你是如何解决的。(95% 会问到) 说说你开发最大的优势点(95% 会问到) 你为什么会离开上家公司 你的缺点是什么? 你能给公司带来什么效益? 你对未来的职业规划? 1、自我介绍:性格、表达能力、逻辑能力自我介绍说起来好像很简单,名字、年龄、性别、身高、体重...打住,没那么简单的,外在形象别人一看便知,其他的内容简历上都有,HR不是想让你复述这些内容。你不妨坦诚自信地展现自我,重点突出与应聘职位相吻合的优势。

2020-05-20 01:35:18 3382

原创 Python爬虫中,requests插件常用方法(免费工具类源码)

最近在对先前写的爬虫框架进行升级,今天把下载部分使用的插件更新了一下,把原来的urllib.request换成了requests插件。花了几个小时仔细的研究了一下requests的参数,...

2020-05-07 10:28:20 8

原创 Python爬虫中requests下载插件常用方法汇总(一)

最近在对先前写的爬虫框架进行升级,今天把下载部分使用的插件更新了一下,把原来的urllib.request换成了requests插件。 花了几个小时仔细的研究了一下requests的参数,目前初步整理一个工具类,代码如下:import requestsfrom PIL import Imagefrom io import BytesIOfrom com.fy.utils.http.Us...

2020-05-07 10:06:39 1162

原创 不用CSDN和知乎,我照样写博客

构建自己的博客系统以前经常会在豆瓣、简书等自媒体上写一些文章,来记录一些工作中遇到的问题,或者某些问题/事件的解决方法。有时总是被告知因为 XXX 原因未能发布,转有私有!反复校验,也...

2020-05-04 09:30:00 44

原创 一文带你了解Elasticsearch与Solr优缺点

Elasticsearch简介Elasticsearch是一个建立在 Apache Lucene™ 基础上的实时的分布式搜索和分析引擎,是基于Lucene实现的、当今最先进,最高效的全功能开源搜索引擎框架。Elasticsearch使用Lucene作为内部索引引擎,而实际使用中,我们只需要使用统一开发好的API即可,而不需要理解其背后复杂的Lucene工作原理。Elasticsear...

2020-04-28 00:29:26 733 1

原创 一文带你了解solr部署全过程(word免费送)

一、环境准备软件版本:Tomcat 版本:7.0.56JDK 版本:1.7.0_71SOLR 版本:4.8.1软件包:apache-tomcat-7.0.56.tar.gz,jdk1.7.0_71.tar.gzsolr-4.8.1.tgz机器资源:192.168.102.51(master)192.168.102.52(slave)192.168....

2020-04-26 11:52:38 256 1

原创 JavaFx系列之WebView插件中JavaScript和Java相互调用,并传递值

在编写JavaFx工作流的过程中,由于工作流用的是jquery实现,其中有一些数据,需要通过JavaScript传递到后台Java对象,并保存。 大概原则是:首先在Java中创建一个对象,把该对象设置到网页去。而对于另一个方向,JavaScript创建一个对象并从网页中提取出来。下面用代码演示。首先是Java的代码package sample;import javafx.applicat...

2020-04-22 18:14:56 2229 3

原创 JavaFx中WebView插件加载的HTML中JavaScript和Java通信

在编写JavaFx工作流的过程中,由于工作流用的是jquery实现,其中有一些数据,需要通过JavaScript传递到后台Java对象,并保存。 大概原则是:首先在Java中创建一个对象,把该对象设置到网页去。而对于另一个方向,JavaScript创建一个对象并从网页中提取出来。下面用代码演示。首先是Java的代码package sample;import javafx.applicat...

2020-04-22 18:11:53 1385

原创 一套价值十万的微信公众号采集解决方案

​1 整体概述1.1 编写目的本文主要用于描述微信采集过程中,各流程节点的解决方案。详细介绍了采集架构、手机号购买注意事项、微信注册注意事项、微信号养号注意事项、公众号采集方式,以及采集过程中遇到的问题等。1.2 整体架构微信数据采集主要分为四个阶段:一、采集准备阶段:手机、手机号、XPosed插件、手机支架、HUB集线器、智能插座等;二、公众号处理阶段:公众号收集、公众号...

2020-04-22 17:54:27 935 1

原创 JavaFX中给对象添加ContextMenu菜单的通用方法

在进行JavaFX进行桌面程序开发时,难免会遇到添加右键菜单的情况,今天就介绍一种通用的添加右键菜单的方式。JavaFX中右键菜单均是通过ContextMenu来实现,首先定义GlobalMenu,继承ContextMenu,显示这些功能选项。代码日下所示:package org.crawler.ui.layout.left;import javafx.scene.control.C...

2020-04-18 22:25:52 1321

原创 爬虫工程师,如何高效的支持数据分析人员的工作?

数据分析是以统计分析方法为基础,对采集来的大量数据进行分析,并将其加以汇总、理解和消化,以提取有用信息和形成结论,最大化地开发出数据的功能,发挥数据的作用。所以,数据采集,是科学地进行数据分析的基础。其采集数据的准确性,直接决定了数据分析输出内容的价值。那么,数据分析中的数据采集该如何做呢?它主要包括四部分:需求调研、明确采集范围确定、明确抽样方案、明确数据采集方法,数据清洗...

2020-04-17 12:22:56 220 1

原创 网站SEO优化系列之外链篇

外部链接概念比如,A网站给B网站做个链接,那么A网站就是B网站的外部链接,或者反向链接。外部链接越多越好,当然也得是优质的外部链接才好。否则网站也有可能会因而被降权,得不偿失。外部链接的作用外部链接质量高、数量多,就表示这个网站很受用户欢迎。那么,搜索引擎也就越喜欢这个网站,优先给予排名。比如,有十个人说你好,可能你真的好,那么如果有一万个人推荐你,说你好,...

2020-04-17 12:20:58 439

原创 网站SEO优化系列之基础篇

​ 去年基于MBlog进行二次开发,整了个自己的博客(二猫的博客)。虽然写了几十篇文章,可是百度搜索收录始终都是二十几篇。最近花了点时间,找了几个视频学习了一下。根据网站SEO的核心要素,对博客后台、前端显示等均进行了优化,收录的效果确实好了很多,现在收录量已经到。百度站在后台统计的每日索引量如下所示:在百度搜索中,通过site搜索可以看到有184条信息,但是百度站长后台统计是16...

2020-04-14 14:06:54 621 1

原创 一文带你了解,数据采集中各部分要点及注意事项

​先前简单的介绍了一下《基于大数据平台的互联网数据采集平台基本架构》,今天主要介绍一下采集的各个环节中,应该如何处理,应该注意哪些方面。废话不多说了,正文开始.......第一:信源系统其实就是采集任务管理系统,我们叫信源管理系统。主要包括:1.任务模块:网站、栏目、搜索引擎、关键词、模板、公众号、微博博主等。2.资源管理模块:服务器、项目、索引等;3.监控...

2020-04-11 10:50:25 3213 1

转载 基于java的鼠标键盘模拟操作常用方法汇总

最近在研究基于模拟器的,根据手机号微信自动添加好友的工具,其中涉及到了鼠标模拟点击、字符串输入等方法。同时,针对采集中可能需要截取验证码图片,整理了截图的功能。具体代码如下所示:package org.crawler;import java.awt.Toolkit;import java.awt.datatransfer.Clipboard;import java.awt.da...

2020-04-09 02:07:05 706 2

转载 Python,开发爬虫的不二选择

互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前。如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)。爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序。如今,人类社会已经进入了大数据时代...

2020-04-07 00:36:14 416

转载 教你一种1分钟,下载1万个网页的方法,你学吗?

一:模块介绍Pycurl是一个用C语言编写的libcurl Python实现,功能非常强大,支持操作协议有FTP,HTTP,HTTPS,TELNET等。与urllib相比,Pycurl的速度要快很多。二:安装大家可以去官网下载与本地Python一直的whl或exe包。也可以使用下面的命令行直接安装。pip install pycurl三:主要方法...

2020-04-03 01:36:02 250 1

原创 史上最快、最笨的公众号文章[阅读数、在看数]采集,哈哈

先前写过一篇《Python爬虫实践:如何快速、高效的爬取微信公众号阅读在看》的文章,里面介绍了四种公众号阅读数、在看数的采集方法,分别是:第一种:使用第三方的平台获取 ​第二种方法:使用PC端模拟点击; ​第三种:使用第三方工具; ​第四种:基于微信公众号平台的方式;今天抽空把第二种方式实现了,把代码贴出来供大家参考。其中分为两个类,一个是模拟点击等操作的公共类;一个是具体执行模拟...

2020-03-26 12:10:05 1585 1

微信自动添加好、修改备注等

通过Python的模拟点击,再结合模拟器操作,可以实现根据手机号自动搜索好友,自动添加好友,同时修改备注等

2020-04-05

jBPM开发入门指南

jBPM开发入门指南

2012-11-13

APO开发实践

APO开发实践

2012-11-13

ibatis 开发指南

ibatis 开发指南

2012-11-13

宁夏粮食局协同办公系统投标书

宁夏粮食局协同办公系统投标书

2012-11-13

J2EE完全参考手册-J2EE部署

J2EE完全参考手册-J2EE部署

2012-11-13

构建J2EE应用程序

构建J2EE应用程序

2012-11-13

Hibernate事务

Hibernate事务.doc

2012-11-13

GIS高级教程格式

GIS高级教程格式

2012-11-13

地理信息系统目录

地理信息系统高级教程目录

2012-11-13

组件GIS_All

组件GIS_All

2012-11-13

editplus 3.4 注册码

editplus 3.4 注册码

2012-11-12

MyEclipse 8.5注册码

MyEclipse 8.5注册码

2012-11-11

PHEI Broadview 2009-2010专业书目

PHEI Broadview 2009-2010专业书目.pdf

2012-11-01

精准检索文档

精准检索

2012-10-17

visio的注册码

visio的注册码.

2012-09-26

ICO图片集 图片

各种ico图片的集合,可以减少你实际运用中的很多需求,提高你的工作效率啊!

2012-09-26

rome.jar

rome.jar

2011-09-22

Lucene初级教程

Lucene初级教程 全文检索Lucene初级教程 全文检索Lucene初级教程 全文检索Lucene初级教程 全文检索

2011-05-20

lucene开发流程

搜索引擎 lucene开发流程介绍,开发全文检索系统,

2011-05-20

lucene 搜索引擎 compass

做自己的搜索引擎-搜索引擎精解案例教程lucenen compass 搜索引擎框架

2011-05-20

面试题集ssh struts hibern spring

面试 ssh struts hibern spring等方面整理的面试题;

2011-04-27

jsp mysql 开发的

用jsp自动从数据库中生成js的高级查询代码

2011-04-26

myecli 开机键

myecli 快捷键可以节省开发者的时间,提高开发效率等;

2011-04-26

RSS 在线阅读器开发

RSS 在线阅读器开发 用于方便浏览网页上的内容。可以节省读者的时间

2011-04-26

rss 时间图 统计报表等

rss 时间图 主状图统计报表,JFreeChart等内容 ;

2011-04-26

struts动态树结构

struts——dojo来开发连接数据库的 动态树结构

2011-04-26

RSS RSSFEED

RSS 或者RSS-FEED 教程全解,包括配置环境,开发流程,注意事项等有关的RSS开发技巧;

2011-04-22

rss,RSS开发过程

RSS开发过程,本章的实例就是实现简单的RSS在线网站阅读器。

2011-04-21

JFC/JFreechart

FreeChart折线图配置+乱码解决+图线XY轴的属性的详细设置等内容

2011-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除