Johline-CSDN博客

原创 python 排序算法详解

冒泡排序比较相邻的元素。如果第一个比第二个大，就交换它们两个；对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对，这样在最后的元素应该会是最大的数；针对所有的元素重复以上的步骤，除了最后一个；重复步骤1~3，直到排序完成。def bubble_sort(list1): for i in range(len(list1)): for j in ...

2018-07-25 17:15:22 731

原创 Python3 使用Scrapy爬豆瓣影评和电影详情

最近一直在用scrapy来爬虫，通过scrapy来爬取豆瓣影评内容以及影评的详情首先建立scrapy项目：scrapy startproject douban就会出现如下内容：1. item.py 在里面声明要爬取信息import scrapyclass DoubanItem(scrapy.Item): # define the fields for your item here l...

2018-06-05 16:57:24 3246

原创用 python 进行文本预处理和提取特征

文本过滤result = re.sub(r'[^\u4e00-\u9fa5,。？！，、；：“ ”‘ ’（）《》〈〉]', "", content)#只保留中文和标点result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。？！，、；：“ ”‘ ’（）《》〈

2017-12-14 14:40:26 21058 1

原创 window下elasticsearch使用curl出现unmatched brace/bracket in column1

window下elasticsearch使用curl,来建立索引：curl -XPUT "http://localhost:9200/my_index" -d "{"settings":{"number_of_shards":3,"number_of_replicas": 1},"mappings": {"employee": {"properties": {"first_name": {

2017-12-13 17:32:37 4610

原创 python调用中科院分词器进行中文分词

python调用中科院分词器进行中文分词之前一直使用python自带的jieba分词来进行中文分词，但是慢慢感觉分词效果不是很好，所以想用中科院的分词器进行分词。先看一下jieba分词效果import jiebastr1='张三是我的老师'str2='我是张三的学生'seg_list1=jieba.cut(str1)seg_list2=jieba.cut(str2)print( ", "

2017-08-24 11:08:09 3582 1

原创 windows下用Anaconda3做基于维基百科中文word2vec训练

1.

2017-07-11 14:47:19 3383 3

原创用Python3.6来做维基百科中文语料

首先介绍一下word2vec参考http://www.cnblogs.com/iloveai/p/word2vec.html2013年，Google开源了一款用于词向量计算的工具——word2vec，引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量（word embedding），可以很好地度量词与

2017-07-11 11:16:31 4830 5

原创用python将多个文档合成一个

先说一下python的读写文件的相关知识可以参考下：廖雪峰python教程-读写文件Python：文件的读取、创建、追加、删除、清空一、用Python创建一个新文件，内容是从0到9的整数, 每个数字占一行：#python>>>f=open('f.txt','w') # r只读，w可写，a追加>>>for i in range(0,10):f.write(str(i

2017-06-09 16:40:17 2540

原创 python3调用Google翻译

首先我是在网上搜到了一篇博客，这个代码原本是python2的，我给改成了Python3，但是出现了错误import re import urllibimport urllib.requestimport urllib.parse #urllib: #urllib2: The urllib2 module defines functions and classes which

2017-05-19 15:12:08 3438 2

原创 django--创建网站小样

安装Django首先在cmd下输入pip install Django,然后开始安装，Django将要被安装到Python的Lib下site-packages。然后是配置环境变量，将这几个目录添加到系统环境变量中：C:\ProgramData\Anaconda3\Lib\site-packages\django. (前提已经安装了Anaconda3，且它自动会添加路径)，添加完成后

2017-05-12 17:03:56 658

原创 python3.6 与MYSQL的安装与连接

因为要做文本相似性对比，所以需要大量资料，也需要把这些资料进行存储，进行比对时可以直接提取文本的id首先对MYSQL进行安装，我是从百度软件库中下载的MYSQL，安装然后进行安装，之前我从官网下载的，使用不了，可能是之前已经安装了一遍MYSQL，百度软件这个是安装时自带32/64位，你可以自己选择，虽然名字是5.6.24，可是安装的MYSQL是5.7.17版的需要注意的是在安装

2017-04-07 15:38:49 26999 5

原创 java调用python总出现python第三方库没有定义

我用的是Anaconda3来编译python 代码# -*- coding: utf-8 -*-"""Created on Fri Mar 10 11:02:50 2017@author: Administrator"""#用余弦相似性进行比较import numpy as np#Numpy是Python的一个科学计算的库，提供了矩阵运算的功能import jieba#

2017-03-24 17:17:25 11924 14

转载文本特征提取方法研究

转载地址：http://blog.csdn.net/haidao2009/article/details/46330065文本特征提取方法研究一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数

2017-03-21 20:07:27 1593

转载评估指标：准确率(Precision)、召回率(Recall)以及F值(F-Measure)

评估指标：准确率(Precision)、召回率(Recall)以及F值(F-Measure)为了能够更好的评价IR系统的性能，IR有一套完整的评价体系，通过评价体系可以了解不同信息系统的优劣，不同检索模型的特点，不同因素对信息检索的影响，从而对信息检索进一步优化。由于IR的目标是在较短时间内返回较全面和准确的信息，所以信息检索的评价指标通常从三个方面考虑：效率、效果和其他如数据规模。下

2017-03-06 15:40:22 1548

转载文本指纹算法和系统简述

文本指纹算法和系统简述文章转载于： https://zhuanlan.zhihu.com/p/21733784 作者：陈运文【导读】互联网网页存在大量的重复内容网页，无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类，都需要对网页或者文本进行去重和过滤，因此需要一个好的文本指纹算法，本文将重点给大家分析文本指纹

2017-03-06 15:16:06 4651

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcd in position 0: invalid continuation byte

python3.x 在读取txt文件时出现错误：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcd in position 0: invalid continuation byte从网上找了一个代码编译时出现了错误，在网上找了好久终于看到了在一个论坛上找到了解决办法：出现这种问题绝大部分情况是因为文件不是 UTF

2017-03-05 16:17:10 23037

转载中文文本相似度---项目实践

中文文本相似度---项目实践由于下定决心开始攻克机器学习。辗转反侧，又是折腾线性代数，又是折腾概率论。然后又看了大学时候的高等数学。弄了大半天。不过今天还好有了收获，把思路进行罗列出来，与大家分享。数学知识：由于没法表示数学符号，我都现在这个进行罗列向量A①直线利用向量表示:{t*向量A | t 属性 R}在二维平面中当

2017-03-03 16:41:13 1308

转载 python中jieba分词快速入门

python中jieba分词快速入门转载▼全几天看到高手下了个jieba分词快速入门的东西，希望关注我博客的人也能看得到https://github.com/SalutLyndon/hello-world/blob/master/中文自然语言处理基本流jieba“结巴”中文分词：做最好的 Python 中文分词组件安装说明

2017-03-03 14:36:36 1113

转载 Python简单实现基于VSM的余弦相似度计算

Python简单实现基于VSM的余弦相似度计算转载原地址：http://blog.csdn.net/eastmount/article/details/49898133在知识图谱构建阶段的实体对齐和属性值决策、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等实例中，都涉及到了向量空间模型（Vector Space Model，简称VSM）和余弦相似度计

2017-03-03 14:15:55 1360

转载文本相似性工具安装 (python ,nltk , gensim)

文本相似性工具安装 (python ,nltk , gensim)我们需要安装三个主要的软件Python, NLTK和Gensim。后两个都是python的第三方插件。NLTK是一个基于Python的开源自然语言处理工具包，包含丰富的应用，可以用于自然语言处理的学习和算法的演示，比如去听用词，tokenize, stem，词性标注，句法分析，相似性计算等。Gensim是一个开放的工具包

2017-03-03 10:56:04 1450

转载 Python 文本挖掘：使用gensim进行文本相似度计算

Python使用gensim进行文本相似度计算转于：http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/ 在文本处理中，比如商品评论挖掘，有时需要了解每个评论分别和商品的描述之间的相似度，以此衡量评论的客观性。评论和商品描述的相似度越高，说明评论的用语比较官方，不带太多感情色彩，比

2017-03-02 16:58:12 3277

转载 python相似性检测的安装包

安装python-Levenshtein模块pip install python-Levenshtein使用python-Levenshtein模块import Levenshtein算法说明1). Levenshtein.hamming(str1, str2)计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。2). Levenshtein.dis

2017-03-02 16:47:03 6247

转载中文文本相似度算法分析与研究之改进算法----一种结合文本主题网络构建和语义分析的文本相似计算方法

提出一种新的的计算方法，该方法在计算量和内存消耗上会有所增大，但就其文本相似度计算精确度上来说，可以提高一个层次。传统的基于语义分析的文本相似度计算方法，一般首先是根据某一语义词典，基于词语间的相似度来计算句子间的相似度，然后把句子组合成文本，综合计算文本之间的相似度。这里面涉及到预处理操作非常庞大，对于大规模的长文本之间的相似性计算，运算量将非常之大，运算速度将受到很大的影响。基于以上原

2017-03-02 16:16:55 663

原创文本似性检测论文总结----面向科技项目申报文本相似性检测算法的研究与应用

本文将针对科技项目申报这一领域的文本相似性检测算法作为研究对象，分别对中文词语、句子和文本相似度计算方法进行了深入研究，进而将本文的研究成果应用于科技项目申报系统中。本文对传统的词语、句子和文本相似度计算方法进行了剖析，如基于向量空间模型、基于本体、汉明距离等方法，一方面需要构建一定规模的语料库和和训练集，且存在高维矩阵稀疏问题；另一方面，在抽取文本特征向量时，并没有将上下文语义结构和语义关系

2017-03-02 10:50:07 876

转载文本相似性检测---词语权重计算

本文讨论如何计算词（有时候称特征向量）权重和向量空间模型及其应用。本文的“文档”是指查询对象，它们可以使一条条单独的记录或者是一本书的各章，还可以是一个网页，或者xml文件等。1 归一化在讨论词权重和向量空间模型前需要先了解下归一化的概念。归一化（normailization）方法有两种形式。第一种形式是把数变为（0，1）之间的小数,方便计算。第二种是把有量纲（量纲是指单位）表

2017-03-01 17:59:03 7840

转载《跨语言文本相似性检测》第一周—前期调研

《跨语言文本相似性检测》第一周—前期调研文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。文本相似性流程分词——>权重——>选择相应算法文本相似性检测算法（1）、余弦相似性这个算法就是通过计算两个向量的夹角余弦值来评估他们的相似度。对于二维空间，根据向量点积公式，显然可以得知设向量 A = (A1,A2,...,An

2017-03-01 17:05:39 2890

转载文本相似性检测----中文分词技术

文本相似性检测----中文分词技术一、为什么要进行中文分词？中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符

2017-03-01 15:57:50 4423

转载文本相似性检测算法----simhash

hash函数 Hash，一般翻译做"散列"，也有直接音译为"哈希"的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要

2017-03-01 11:14:00 2405

转载文本相似性检测算法

文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。比如舆论控制，我们假设你开发了一个微博网站，并且已经把世界上骂人的句子都已经收录进了数据库，那么当一个用户发微博时会先跟骂人句子的数据库进行比较，如果符合里面的句子就不让用户发出。通常情况下，很多工程师就会想到用like或者where的sql语法去查找。可是当情况更为复杂呢？数据库存放了“你是个坏人”，用户

2017-03-01 11:09:02 5177

Johline的博客