hellowuxia-CSDN博客

原创 owl文件导入Neo4j

前提：1.下载扩展neosemantics jar包，将jar复制到neo4j/plugins目录下。注意：neosemantics jar包必须与Neo4J版本相匹配。例如：neo4j-community-3.3.1与neosemantics-3.3.0.2.jarhttps://github.com/jbarrasa/neosemantics/releases/download/3.3...

2019-09-27 17:59:05 8057 11

转载 NLP错字纠正---pycorrector

https://github.com/shibing624/pycorrector

2019-09-11 17:53:16 2073

原创简单QA：TF-IDF句子相似度计算

简单介绍一下基于TF-IDF计算句子相似度，并得到问题对应的答案过程：准备好问题文件，答案文件，问题与答案一一对应，例如：对问题文件进行分词、去停用词预处理操作建立TF-IDF模型，计算所提问题与模板问题中相似度，将满足相似度问题对应的答案返回。关键代码如下：from gensim import corpora, models, similaritiesfrom preproce...

2019-06-20 10:26:53 3650

原创 Cypher查找两个节点间的全路径

Cypher查找两个节点间的全路径MATCH p = (:person {name:‘曹操’})-[*]->(:person {name:‘夏侯淳’}) WITH p,REDUCE(x = 0, a IN relationships§ | x + a.time) AS cum_durationORDER BY cum_duration DESC LIMIT 1 RETURN p...

2019-05-28 09:09:05 4610 1

翻译 Python依赖包pyhanlp的安装说明

1.安装JPype1；2.安装pyhanlp包：python setup.py install注意：pyhanlp中requirements.txt中jpype1版本与安装的JPype1的版本相匹配3.有时候可能会报：ImportError: numpy.core.multiarray failed to import错误，安装numpy4.将data和hanlp.properties、h...

2019-05-14 18:25:19 3104

原创 owl文件转换为rdf

1.下载jar包：http://www.l3s.de/~minack/rdf2rdf/2.将jar包与owl文件放在同一目录下3.在cmd或linux下，进入owl文件所在目录，在终端执行：java -jar rdf2rdf-1.0.1-2.3.1.jar wine.owl wine.nt参考：https://blog.csdn.net/LucyGill/article/details/...

2019-03-28 08:59:55 4355 9

原创编辑距离-相似度计算

import Levenshtein as lvst编辑距离计算相似度Levenshtein Distancedef leven_distance(s1, s2):dis = lvst.distance(s1, s2)# 1-它们的距离/两个字符串长度的最大值sim = 1 - 1/max(len(s1), len(s2))return sim#Dice系数计算相似度def di...

2019-03-14 17:16:38 1110

原创 python调用cmd

import osprint(‘测试开始’)os.system(‘ipconfig’)print(os.popen(‘ipconfig’).read())print(‘测试结束’)

2019-02-19 10:09:19 1842

转载相似度距离

1.Levenshtein计算相似度距离https://www.cnblogs.com/zangrunqiang/p/6752430.html

2019-02-15 14:39:20 228

一、循环神经网络简介循环神经网络的来源是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上，循环神经网络会记忆之前的信息，并利用之前的信息影响后面结点的输出。即：循环神经网络的隐藏层之间的结点是有连接的，隐藏层的输入不仅包括输入层的输出，还包括上一时刻隐藏层的输出。循环神经网络对于每一个时刻的输入结合当前模型的状态给出一个输出。循环神经网络可以看做同一神经网络被无限复制的结果，出于优化考...

2019-01-18 11:00:14 39399 1

翻译卷积神经网络（一）

一、卷积神经网络简介一个卷积神经网络主要由以下5种结构组成：1.输入层：输入层是整个神经网络的输入，在处理图像的卷积神经网络中，它一般代表一张**图片的像素矩阵**（三维矩阵）。三维矩阵的长和宽代表图像的**大小**，深度代表图像的**色彩通道**，如：黑白图片的深度为1，RGB色彩模式下，图像的深度为3。从输入层开始，卷积神经网络通过不同的神经网络结构将上一层的三维矩阵转化为下一层的三...

2019-01-12 10:45:43 971

翻译深度学习-深层神经网络

一、损失函数定义1.经典损失函数1）分类问题交叉熵刻画两个概率分布之间的距离，是分类问题中使用比较广泛的一种损失函数。2）回归问题对于回归问题，最常用的损失函数时均方误差（MSE，mean squared error）2.自定义损失函数二、神经网络优化梯度下降与反向传播：梯度下降算法主要用于优化单个参数的取值；而反向传播算法给出了一个高效的方式在所有参数上使用梯度下降算法，从而使神...

2018-12-20 17:18:14 380

翻译 Tensorboard的启动方法

TensorBoard不需要额外的安装，在Tensorflow安装完成时，TensorBoard会自动被安装。运行下面的命令可以启动TensorBoard：#运行TensorBoard，并将日志的地址指向上面程序日志输出的地址tensorboard --logdir=path/to/log运行上面的命令会启动一个服务，默认端口为6006。通过浏览器打开localhost:6006，即可打...

2018-12-16 16:53:42 853

转载 PL/SQL注册码

第一组：Product Code：4t46t6vydkvsxekkvf3fjnpzy5wbuhphqzserial Number：601769password：xs374ca第二组：Password：xs374caProduct Code：ljkfuhjpccxt8xq2re37n97595ldmv9kchSerial Number：302967第三组：Product Code：...

2018-11-26 11:32:54 273

原创 Windows下安装Tensorflow

注意：1）tensorflow的1.0版本以后才支持Windows下的安装；之前的版本都是在Linux、Mac下进行安装；2）目前TensorFlow在Windows下只支持Python 3.5版本；3）tensorflow支持的系统是64位的，windows和linux，mac都需要64位在Windows下基于CPU安装Tensorflow：Step 1：安装Anaconda（我安装的...

2018-11-23 11:42:14 328

原创 R环境安装配置

1.安装R软件（R-3.5.1-win.exe）配置环境变量： Path中添加：D:\R-3.5.1-win\R-3.5.1\bin;2.安装Rtools（Rtools35.exe）配置环境变量：Path中添加：D:\RRools35\Rtools\bin;D:\RRools35\Rtools\mingw_64\bin;3.测试安装配置是否成功在R环境下输入：system(...

2018-11-20 16:04:59 3124

原创 Python中一些提高算法效率的技巧

1）向量化操作：例如：参考：《利用Python进行数据分析》、《Deeplearning深度学习笔记》2）广播机制例如：自定义广播函数frompyfunc(func, nin, nout)参考：《利用Python进行数据分析》、《Deeplearning深度学习笔记》3）利用Map并行操作参考：https://blog.csdn.net/caimouse/article/det...

2018-09-19 11:29:31 763

翻译数据结构中排序、查找、最小生成树算法总结

1.排序算法定义：把一个无序元素序列按照元素的关键字递增或递减排列为有序的序列一、插入排序1）直接插入排序：基本思想：假设前i-1个元素已经有序，将第i个元素的关键字与前i-1个元素的关键字进行比较，找到合适的位置，将第i个元素插入。按照类似的方法，将剩下的元素依次插入到已经有序的序列中，完成插入排序。例如：对序列(45,23,56,12,97,76,29,68)进行直接插入排序。...

2018-09-19 11:24:35 373

原创 Python多进程操作Coding

import time import multiprocessingls = [i for i in range(10000)]print(ls)ls1 = ls[0: 100]ls2 = ls[100:200] ls3 = ls[200: 300] l = []test2调用test1函数def test2(): test1() print(...

2018-07-20 16:21:47 135

翻译 Python入门（二）

**Python入门**一、控制流语句在Python中，有三种类型控制流类型：顺序结构分支结构循环结构复杂的语句都是由这三个基本控制流组成。1）顺序结构：普通至上而下的代码结构。2）分支结构：Python条件语句是通过一条或多条语句的执行结果（True或False）来决定执行的代码块。if语句可以独立使用，也可搭配else\elif使用。3）循环结构：用来控制一段语句重复执行。whil

2018-04-27 12:06:35 267

翻译 Python入门（一）

**Python入门** 一、Python简介1. Python的来源 2.Python是一种怎样的语言• 解释型语言，伪编译：优缺点 • 胶水语言 • 开源 • 跨平台 • 免费、自由软件 • 强类型、动态类型 • 自动内存管理 • 面向对象 • 有大量可用的库 • 增加其他语言编写并编译的模块即可扩展功能3.Python的特点1）简单、易学 Python是一种代表简单主

2018-04-24 18:32:23 1536

翻译 Python之Pandas

**Python之Pandas** 一、Pandas简介 Pandas这个名字本身源自panel data（面板数据，这是计量经济学中关于多维结构化数据集的一个术语）以及Python data analysis。Pandas是Python进行数据分析的基础包，基于Numpy构建的，让以Numpy为中心的应用变的简单。Pandas提供了我们能够快速便捷地处理结构化数据的大量数...

2018-04-19 15:55:42 723

翻译 Python之Numpy

**数据分析之Numpy** 一、Numpy简介 NumPy（Numerical Python）是高性能计算和数据分析的基础包。基本功能如下： 1）ndarray，快速和节省空间的多维数组，提供数组化的算术运算和高级的广播功能。 2）使用标准数学函数对整个数组的数据进行快速运算，而不需要编写循环。 3）用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 4）线性代数、随机数生成及傅里

2018-04-18 21:02:42 388

翻译数据分析-Excel简介

**数据分析-Excel简单操作**一、Excel商业智能概述1.商业智能概述2.商业智能报表必备功能条件： 1）能够批量处理有一定规模的数据 2）能够保证数据的时效性及准确性 3）能够将实际业务中所涉及的所有相关数据整合到一起搭建统一的多维数据分析环境 4）能够实现交互式操作（Power View界面或Excel表格界面）3.商业智能分析报表制作流程 1）与外部数据建立连接并导入外部数据

2018-04-16 22:31:19 1475

原创逻辑回归（ Logistic regression）

逻辑回归（ Logistic regression）http://www.mamicode.com/info-detail-501714.html https://baike.baidu.com/item/logistic%E5%9B%9E%E5%BD%92/2981575 http://blog.csdn.net/han_xiaoyang/article/details/49123419 h

2017-11-25 22:14:19 1227

原创线性回归

线性回归（Linear Regression）https://baike.baidu.com/item/%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/8190345?fr=aladdin https://www.cnblogs.com/GuoJiaSheng/p/3928160.html一、介绍线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关

2017-11-24 22:11:54 1027

转载 KNN

KNN算法（K-NearestNeighbor）https://wenku.baidu.com/view/94aea4e8d15abe23482f4d5b.html https://baike.baidu.com/item/%E9%82%BB%E8%BF%91%E7%AE%97%E6%B3%95/1151153?fr=aladdin&fromid=3479559&fromtitle=knn1.介绍

2017-11-20 21:31:49 1293

原创 CART（Classification And Regression Tree）

CART算法（Classification And Regression Tree）http://blog.csdn.net/u014568921/article/details/45082197 https://wenku.baidu.com/view/286c19dae009581b6bd9eb59.html http://www.dataguru.cn/article-4720-1.htm

2017-11-18 16:07:31 2906

原创序列模式PrefixSpan算法

序列模式PrefixSpan算法https://wenku.baidu.com/view/ee189b72f46527d3240ce0f9.html http://www.cnblogs.com/pinard/p/6323182.html一、介绍与GSP一样，PrefixSpan算法也是序列模式分析算法的一种，不过与GSP算法不同的是PrefixSpan算法不产生任何的侯选集，在这点上可以说已经比

2017-11-15 22:16:37 4914

原创 GSP算法

GSP算法（Generalized Sequential Pattern mining algorithm）https://wenku.baidu.com/view/19ee9abd960590c69ec376c6.html http://www.doc88.com/p-999957186220.html Mining Sequential Patterns: Generaliz

2017-11-15 21:35:58 5822

原创 K-Means

一、简介：K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。二、基本思想：对于给定的类别数目K，首先给出初始划分，通过迭代改变样本和簇的隶属关系，使得每一次改进之后的划分方案都较前一次好。三、前提假设每一个簇都服从高斯分布且方差相同，均值做低度下降方差相同的混合高斯分布四、算法描

2017-11-13 22:25:29 485

转载 scikit-learn sklearn 0.18 官方文档中文版

scikit-learn sklearn 0.18 官方文档中文版http://blog.csdn.net/chinachenyyx/article/details/75299043

2017-11-13 21:27:21 1231

原创最长的公共连续子串Python

#-*-coding:utf-8-*-import numpy as npfrom numpy import *# 牛牛有两个字符串（可能包含空格）,牛牛想找出其中最长的公共连续子串,希望你能帮助他,并输出其长度。# 动态规划问题，对于字符串a,b.# 1)先新建一个状态转移矩阵len(a)*len(b);2)初始化第一行、第一列；3）更新矩阵，matrix[i][j]=1+matrix...

2017-04-11 10:13:14 849

翻译贝叶斯分类器（中）

EM算法

2017-04-08 18:11:41 217

翻译贝叶斯分类器（下）

贝叶斯网：贝叶斯网亦称“信念网”（belief network），它借助有向无环图（Directed Acyclic Graph，DAG）来刻画属性之间的依赖关系，并使用条件概率表（Conditional Probablity Table，简称CPT）来描述属性的联合概率分布。

2017-04-08 17:50:52 290

原创贝叶斯分类器（上）

1.简介贝叶斯分类器的分类原理：通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。贝叶斯决策论（Bayesian decision theory）是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。也就是说，贝叶斯分类器是最小错误率意义上

2017-04-08 17:28:45 703

原创集成学习

1.个体与集成集成学习通过构建并结合多个学习器来完成学习任务，有时也称多分类器学习、基于委员会的学习等。集成中只包含同种类型的个体学习器，这样的集成是同质的。同质集成中的个体学习器亦称“基学习器”，相应的学习算法称为“基学习算法”。集成中包含不同类型的个体学习器，这样的集成是“异质”的。异质集成中的个体学习器由不同的学习算法生成，这时就不再有基学习算法，相应的个体学习器常称为“组件学习器”或直接称为

2017-04-07 17:01:23 1514

原创半监督学习

1.简介半监督学习(Semi-Supervised Learning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习：让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。主要分为半监督分类，半监督回归，半监督聚类和半监督降维算法。2.基本假设要利用未标记样本，必然要

2017-03-26 12:09:19 7127

原创聚类（下）

1.原型聚类原型聚类亦称“基于原型的聚类”（prototype-based clustering）,此类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中常用。通常，算法先对原型进行初始化，然后对原型进行迭代更新求解。1）K-Means算法（距离平方和最小聚类法）给定样本集D={x1,x2,…,xm},“k均值”算法针对聚类所得簇划分C={C1，C2，…，Ck}最小化均方误差：直观来看，上

2017-03-24 20:53:57 3348

原创聚类（上）

1.概述聚类分析(cluster analysis)是将样品个体或指标变量按其具有的特性进行分类的一种统计分析方法。对样品进行聚类，称为样品(Q型)聚类分析。其目的是将分类不明确的样品按性质相似程度分成若干组，从而发现同类样品的共性和不同类样品间的差异。对指标进行聚类，称为指标（R型）聚类分析。其目的是将分类不明确的指标按性质相似程度分成若干组，从而在尽量不损失信息的条件下，用一组少量的指标来代

2017-03-24 15:33:42 774