你看我的牙白吗-CSDN博客

原创 solr 全文搜索引擎学习step_02 创建中文分词

首先solr默认的是英文分词：对中文的分词是非常不友好的：一个字一个字的分词观察你建的wenda项目的配置文件发现他分词的原理：type为text_general为英语通用文本，也就是按空格分词，创建一个自己的中文分词的索引字段：<field name="question_title" type="text_ik" indexed="true" stored="true" multiValu...

2018-05-10 09:49:12 163

原创 solr 全文搜索引擎学习step_01 基本了解

solr的原理图：本次采用solr-6.2.0版本下载地址：http://archive.apache.org/dist/lucene/solr/下载解压后如图：bin目录：各种启动类文件，contrib：相依赖的jar包dist:各种各样的solr发布的jar包docs:文档example：自带的几个例子启动建一个服务：默认开启两个分片：8983端口和7574端口默认对中文的分词是很不好的，把每...

2018-05-09 11:34:14 133

原创爬虫学习 step_05 爬取的数据放入数据库

采用的是mysql-connector驱动：db = mysql.connector.connect(user='root', password='******', database='luntan', charset='utf8') #初始化一个数据库对象mysqldb驱动的话为：db = MySQLdb..connect(user='root', password='******', data...

2018-05-06 17:38:55 588

原创爬虫学习 step_04 创建一个爬虫

在网页端create一个爬虫: 爬取v2ex网站分析v2ex网站：首先有不同的栏目，技术、创意等等，每个栏目下面还有子节点程序员、python等等，节点点开后就是一些分页的问题如图：所以首要任务是找到技术，创意，等这一类顶层节点，然后把程序员、python这样的小层节点找出来，然后相应的版块就出来了，然后爬相应板块的问题，然后翻页再找所有的问题创建一个爬虫：自动写好一个框架：分析后标签元素后，先去...

2018-05-06 16:45:20 183

原创爬虫学习 step_03 爬虫相关文件配置

爬虫的启动可以带参数启动，带自己配置的参数文件，比如指定端口号，username，password，代理等注意：把配置文件conf.json放在项目文件所在环境的pyspider文件夹下，然后打开命令行cmd，输入命令：pyspider -c conf.json配置文件代码：{ "message_queue": "redis://127.0.0.1:6379/15", "webui": {...

2018-05-06 14:15:45 158

原创爬虫学习 step_02 python连接MySQL

使用mysql-connectorpip install 来安装pip install mysql-connector说明：mysqldb与mysql-connector的区别 MySQLdb is a C module that links against the MySQL protocol implementation in the libmysqlclient libra...

2018-05-05 22:10:17 114

原创爬虫学习 step_01 页面数据爬取

通过css选择器去解析下载的网页# -*- coding: utf-8 -*-from pyquery import PyQueryif __name__ == '__main__': q = PyQuery(open('resource/v2ex.html').read()) print q('title').text() # 找到代码里面是<t...

2018-05-05 21:48:51 101

solr-6.2.0

Solr是一个高性能，采用Java5开发， Solr Solr 基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

2018-05-10

lucene中文分词工具包

IKAnalyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包,将一段文字进行IK分词处理一般经过：词典加载、预处理、分词器分词、歧义处理、善后结尾五个部分

2018-05-10

SQLite可视化工具

SQLite 是一个软件库，实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是在世界上最广泛部署的 SQL 数据库引擎。SQLite 源代码不受版权限制。

2018-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人