自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不要说术语,请说俗语

记录学习工作中的心得体会

  • 博客(15)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 vituralbox+CentOS7配置静态IP

需要一个有静态IP的虚拟机作为测试环境,考虑后选择使用CentOS7,和平时工作使用的环境一致,也是比较流行的服务器版本下面是步骤,以及一些走过的歪路以下步骤建立在已经安装好CentOS7并配置好账号密码的情况下1.修改vituralbox网卡设置,选择桥接模式2.进入系统后修改/etc/sysconfig/netword-scripts,修改对应网卡的信息,配置IPADDR,NE

2017-07-17 22:18:16 328

原创 Mongo进程突然消失,日志中没有错误提示

系统上新版本,在测试环境测试时,mongo服务出现一个现象,进程会突然消失掉,然后在日志中并没有留下痕迹。mongo是系统的数据蓄水池,mongo停掉了系统自然也会崩溃,但是日志中又没有留下痕迹,而且一般来说这样的服务并不会因为量级只有几十万的数据插入删除查询而进程消失崩溃,所以排除掉代码问题。但暂时也无可奈何。在某一次启动系统时报错内存不够无法启动,测试环境的服务器的内存有64g,当

2017-04-10 14:31:37 2379 1

原创 多线程和机器性能有关

虽然问题并不深奥,不过还是记录一下多线程操作文件的过程中每条线程都回去读取一次文件,这是场景同样的程序在我的机器会出错在别人的机器正常,这是现象排查发现高并发情况下,如果机器性能不行,前面的线程没有读取完毕后面的线程就跟上会出现错误解决办法就是减小线程数或提高机器性能线程池采用的是固定线程池

2017-03-07 17:31:25 357

原创 文章观点提取的几种测试

有需求要从文章里面如果有观点就摘出来,没有观点就放过去,在一开始的demo中我尝试了2种办法。首先对文本进行一些必要的清洗处理,去掉无意义符号,去掉前后空格等等,然后将文章分割成N个句子,句子的分隔符以句号或感叹号等分句符进行判断。然后对分割好的句子进行以下操作1.使用依存句法分析采取HanLP对句子进行依存句法分析,得到句子的语法树。使用一些观点句子进行测试,比如

2016-08-25 09:30:20 3942 3

原创 朴素贝叶斯的实际应用

关于朴素贝叶斯的来龙去脉公式推导这里不多谈,分享一下在毕业设计中如何将这一算法实际应用到预处理的过程中。1.应用环境需求是将爬虫的数据的content部分在预处理的环节中进行分类打上标签,可以考虑的分类方法有很多种,svm,lda等等,这里使用朴素贝叶斯,因为相对简单容易上手。2.训练预料搜狗实验室提供的训练预料,链接如下搜狗实验室3.过程中遇到的困难一开始操作的时

2016-04-19 17:43:49 4389

原创 HDFS下载报错NullPointerException

问题在于调用API    fs.copyToLocalFile(path1, path2)改为如下 fs.copyToLocalFile(false, path1, path2, true)第一个参数是是否删除掉源目录最后一个参数是是否使用本地文件系统

2016-03-16 11:21:46 385

原创 代码到Redis之间的中间层操作|Redis的增删改查

代码到Reids的操作

2015-12-03 14:31:18 1035

原创 职责链模式在JAVA中的运用

实习期间需要维护预处理系统,读源代码的过程中学习了高手对设计模式的运用,记录以备后用。1.关于职责链属于设计模式的一种,具体不多科普,随手可查,我这里举个简单的例子。将程序的请求(输入)放到一条流水线上,让流水线的工人去一步步加工请求,这之中少了工人ABCD也可以完成处理,因为每个工人负责的部分是不同的,当然少了某个工人出来的产品(输出)就不同了,但一条流水线不会因为一个工

2015-12-01 17:34:54 526

转载 看到一篇文章刷CSDN博客访问量,目前没有环境实现,抽空可以去跑跑看或者改为其他方式实现

# coding: utf-8__author__ = 'zzg'import requestsfrom bs4 import BeautifulSoupimport multiprocessingimport timedef getProxyIp(): proxy = [] for i in range(1,12): print i

2015-11-06 15:30:14 489

原创 内存数据库Redis小Demo 包括持久性测试

预处理有部分数据处理效果不佳,便学习下内存数据库目前主流的内存数据库有很多,这次学习使用的是Redis 在Win7环境下部署测试这是Redis的目录结构appendonly.aof文件是redis持久化方式中AOF方式所产生的文件,每一次写入的时候都会将命令写入该文件dump.rdb文件是RDB方式产生的文件,每隔一段时间redis会产生数据快照redis.conf

2015-11-06 10:08:31 1018

原创 Lucene4.10.4实践 索引联合查询数据库实现查询更快

需求实习期间领导要我使用Lucene(不使用solr)将一个同事所要查询的数据索引起来,以达到更快的查询速度。同事索要查询的数据共存在于两张表中,一张是街道表,一张是区划表。映射关系是一个区划对应N个街道。搜索效率要达到1秒千次。数据库操作SELECT area_id, area_name, parent_id, parent_name, area_leve

2015-11-05 17:29:59 1512

原创 solr自定义分词报错:casused by NoMethodException <init>(map<string,string>)

部署上一篇的博客提到的自定义分词器有2种办法。 IK+二元合并自定义分词方法1 直接不修改代码编译,在schema.xml中添加如下部署如下声明<fieldType name="text_iknorms" class="包名.类名"> <analyzer class="包名.类名"/> </fieldType> 方法2 在schema.xml中部署1层tokenizer+2层fi

2015-09-25 23:13:03 510

原创 Lucene自定义分词:合并IK分词+二元分词

索引命中效果不佳,采用IK分词与二元分词的效果都不是特别好,于是设计了新的自定义分词器,先将句子用IK分词分开,再对长度超过3的词进行二元分词。以下是分词器的实现效果图。 实现思路先建立IK分词器,在通过第一层filter将IK分的词截留,长度大于等于3的词置入CJK分词器进行处理,然后得到的结果送入第二层filter中进行去重。因为在上一层中会出现大量重复词.下面贴代码。package c

2015-09-23 15:39:58 3401

原创 ECharts 初步入门

ECharts 初步入门暑假出来实习,在公司的索引组打打杂,被安排去完成一个用图表展示数据的功能,遂学习了echarts的使用方法,记录下来巩固记忆。 1.ECharts是什么 ECharts是一款开源、功能强大的数据可视化产品,使用起来很方便,通过简单的引入和布置就可以显示出很漂亮的图表,而且它提供了相当多的图表类型以及扩展,可以根据要展示的数据选择相应适合的图表类型。下面是这个月在学

2015-09-03 14:21:03 601

原创 单例模式

public class Emperor { private static Emperor emperor = null;// 声明一个Emperor类的引用 private Emperor() {// 将构造方法私有 } public static Emperor getInstance() {// 实例化引用 if (emperor == n

2014-05-25 20:42:48 449

Btrace非侵入式调试Java程序神奇linux版

Btrace非侵入式调试Java程序神奇linux版,可以在线调试java程序无需重新编译

2018-02-09

Btrace非侵入式调试Java程序神奇win版

Btrace非侵入式调试Java程序神奇win版本,可以在线调试java应用不需要重新编译

2018-02-09

朴素贝叶斯实际应用java实现

朴素贝叶斯的实现

2016-04-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除