自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (3)
  • 收藏
  • 关注

原创 solr 全文搜索引擎学习step_02 创建中文分词

首先solr默认的是英文分词:对中文的分词是非常不友好的:一个字一个字的分词观察你建的wenda项目的配置文件发现他分词的原理:type为text_general为英语通用文本,也就是按空格分词,创建一个自己的中文分词的索引字段:<field name="question_title" type="text_ik" indexed="true" stored="true" multiValu...

2018-05-10 09:49:12 163

原创 solr 全文搜索引擎学习step_01 基本了解

solr的原理图:本次采用solr-6.2.0版本下载地址:http://archive.apache.org/dist/lucene/solr/下载解压后如图:bin目录:各种启动类文件,contrib:相依赖的jar包dist:各种各样的solr发布的jar包docs:文档example:自带的几个例子启动建一个服务:默认开启两个分片:8983端口和7574端口默认对中文的分词是很不好的,把每...

2018-05-09 11:34:14 133

原创 爬虫学习 step_05 爬取的数据放入数据库

采用的是mysql-connector驱动:db = mysql.connector.connect(user='root', password='******', database='luntan', charset='utf8') #初始化一个数据库对象mysqldb驱动的话为:db = MySQLdb..connect(user='root', password='******', data...

2018-05-06 17:38:55 588

原创 爬虫学习 step_04 创建一个爬虫

在网页端create一个爬虫: 爬取v2ex网站分析v2ex网站:首先有不同的栏目,技术、创意等等,每个栏目下面还有子节点程序员、python等等,节点点开后就是一些分页的问题如图:所以首要任务是找到技术,创意,等这一类顶层节点,然后把程序员、python这样的小层节点找出来,然后相应的版块就出来了,然后爬相应板块的问题,然后翻页再找所有的问题创建一个爬虫:自动写好一个框架:分析后标签元素后,先去...

2018-05-06 16:45:20 183

原创 爬虫学习 step_03 爬虫相关文件配置

爬虫的启动可以带参数启动,带自己配置的参数文件,比如指定端口号,username,password,代理等注意:把配置文件conf.json放在项目文件所在环境的pyspider文件夹下,然后打开命令行cmd,输入命令:pyspider -c conf.json配置文件代码:{ "message_queue": "redis://127.0.0.1:6379/15", "webui": {...

2018-05-06 14:15:45 158

原创 爬虫学习 step_02 python连接MySQL

使用mysql-connectorpip install 来安装pip install mysql-connector说明:mysqldb与mysql-connector的区别 MySQLdb is a C module that links against the MySQL protocol implementation in the libmysqlclient libra...

2018-05-05 22:10:17 114

原创 爬虫学习 step_01 页面数据爬取

通过css选择器去解析下载的网页# -*- coding: utf-8 -*-from pyquery import PyQueryif __name__ == '__main__': q = PyQuery(open('resource/v2ex.html').read()) print q('title').text() # 找到代码里面是<t...

2018-05-05 21:48:51 101

solr-6.2.0

Solr是一个高性能,采用Java5开发, Solr Solr 基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

2018-05-10

lucene中文分词工具包

IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包,将一段文字进行IK分词处理一般经过:词典加载、预处理、分词器分词、歧义处理、善后结尾 五个部分

2018-05-10

SQLite可视化工具

SQLite 是一个软件库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是在世界上最广泛部署的 SQL 数据库引擎。SQLite 源代码不受版权限制。

2018-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除