一个人的旅行qiu-CSDN博客

原创汽车行业知识图谱项目实战附git源码

1.基于知识图谱的问答系统:目前通过前端限定用户通过指定的格式来输入问题，然后通过查询知识图谱的形式来回答2.本次跟新介绍:1.考虑到后续数据量大，将数据库从Mysql替换为Neo4j2.新增5个http接口3.支持多层查询与存储，考虑到查询的时间消耗，建议不超过3层3.http接口说明:详细说明:data/http接口说明.txt1.查询单个实体,支持查询深度限制,深度为3时，查...

2018-10-12 16:29:59 6421 14

原创 LintCode:将二叉树拆成链表453

/** * Definition of TreeNode: * class TreeNode { * public: * int val; * TreeNode *left, *right; * TreeNode(int val) { * this->val = val; * this->left = this->right =

2017-08-31 11:37:08 393

原创 LintCode:字符串置换211

Hash表思路，时间复杂度为O(n),附加空间复杂度O(n)class Solution {public: /* * @param A: a string * @param B: a string * @return: a boolean */ //思路:将字符串中的每一个值映射到hash表中,统计出现次数，然后比较是否相等 boo

2017-08-30 13:49:14 635

原创 LintCode:二叉树的路径和276

/** * Definition of TreeNode: * class TreeNode { * public: * int val; * TreeNode *left, *right; * TreeNode(int val) { * this->val = val; * this->left = this->right =

2017-08-30 10:51:00 1534

原创 LintCode:单例204

//单例设计模式class Solution {public: /** * @return: The same instance of this class every time */ static Solution* getInstance() { // write your code here if(pInstance ==

2017-08-29 17:57:31 551

原创 LintCode:二叉树的最大节点632

原题地址:http://www.lintcode.com/zh-cn/problem/binary-tree-maximum-node/#class Solution {public: /** * @param root the root of binary tree * @return the max node */ Solution(){

2017-08-29 14:56:38 385

原创 LintCode:删除链表中的元素452

原地址:http://www.lintcode.com/zh-cn/problem/remove-linked-list-elements//** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode(int x) : val(

2017-08-29 14:53:08 360

原创七月机器学习之贝叶斯方法

先验概率与后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率. 一、先验概率是指根据以往经验和分析得到的概率，如全概率公式，它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率，如贝叶斯公式中的，是“执果寻因”问题中的“因”。先验概率与后验概率有不可分割的

2017-04-01 16:09:42 587

原创七月机器学习之决策树随机森林和adaboost11

信息是对不确定性的度量平均互信息是衡量两个概率分布之间的相似性，互信息高那么相似性就比较大他们之间的运算关系都在这个图里 I是互信息熵减去条件熵就是互信息条件熵是衡量差异性的也就是说，之前的不确定性减去之后的不确定性等于不确定性的减少，不确定性的减少意味着确定性的增加，实际上就是我们寻找的相关性主要理解ID3即可 A是特征，D是标签label 决策树的面试会问由以下

2017-03-31 23:12:28 779

原创七月机器学习项目实战之特征工程6城市自行车共享系统使用状况

特征工程小案例Kaggle上有这样一个比赛：城市自行车共享系统使用状况。提供的数据为2年内按小时做的自行车租赁数据，其中训练集由每个月的前19天组成，测试集由20号之后的时间组成。本项目功能:数据清理，特征提取，标准化连续值特征，离散性数据实现one-hot编码本项目数据及源码:https://github.com/qiu997018209/MachineLearning#先把数据读进来imp

2017-03-31 17:38:33 2857

原创七月机器学习之推荐系统9

一个叫准确度，一个叫召回长尾效应是说，热门的有很多人喜欢，但是个性化的，不同的人有不同的喜好，但是数量较少马太效应是说，只推荐热门的东西 I是商品集 H是信息熵，在所有的Pi都相等的时候，熵最大，它可以更精准的定义覆盖率 u为均值同一部电影，不同的用户，u是均值同一个用户，不同的电影 SVD矩阵的分解

2017-03-30 22:43:34 689

原创在eclipse+pydev环境下安装scipy的办法

1.卸载anaconda并重启2.安装pip包，用来装软件的 Python -m pip install -U pip setuptools3.将python的安装路径和Scripts路径添加到PATH路径去。添加Scripts是为了能着找到pip命令 C:\Users\qiujiahao\Downloads\python-2.7.13.amd64\Scripts\ C:\Users\qi

2017-03-28 19:27:36 929

原创七月机器学习之特征工程6

随机取样：可能无法表征所有的情况分层采样：对不同的年龄段（举例）进行采样大多数算法对正负样本都是很敏感的下采样:比如正样本很多，我们在正样本中抽取数据，使得正负样本一样多如果正样本比负样本大很多，建议你取采集更多的数据 selectKBest选择与y相关度最高的k个数据 l1正则化是截断，也就是说不相关的就截断，权重为0，selectfrommodel可以选出大于权重0的特征

2017-03-28 18:27:13 658

原创七月机器学习之工作流程与模型调优7

本图包含了实际工作中的所有情况，须仔细阅读 1.wrapper包裹型 1.当数据小于50的时候，需要去采集更多的数据 2.category分类:是连续值的预测还是离散值的预测 3.分类，回归，聚类（cluster）， 1.分为train，cv，test，train用来建模，cv是交叉验证集用来帮助我们做参数和模型的选择，test用来测试模型效果实际工作中很少自己实现一个模型，大多都是

2017-03-27 19:58:46 525

原创七月机器学习之回归分析与工程应用5

线性回归用于解决连续值预测的问题，逻辑回归用于解决分类的问题，但是实际上通常用来分类，因为它输出的是一个概率这三个概念面试一定会问！！！！拿到损失函数->对损失函数进行梯度下降->求出最优解，正则化是为了防止过拟合，降低波动线性回归是假定输入和输出间是有线性相关的不同的算法的损失函数的定义不同这种情况说的是入参只有一个的时候，当斜率为负数的时候，值会变大，就会继续往前，当为正数的时候就会

2017-03-26 22:12:58 492

原创七月机器学习之凸优化初步4

切记切记，数学基础决定了你机器学习能走多远！！！KKT用于有约束条件的求极值点

2017-03-26 13:28:04 543

原创七月机器学习之矩阵分析与应用3

线性代数的基本知识线性相关就是一个向量能被另一个向量表示出来基是子空间的最大线性无关组此处一个子空间是一个平面，再加一个不共面的向量就可以组成R3,它一定是R3的一部分 A到U实际上是化简，将第一行乘以-3加到第二行，ux=0可以找到两个线性无关的解列空间和左零空间在一起就构成了Rn的空间，它是与列空间垂直的那一个空间 PCA降维的本质就是舍弃小的特征值，保留大的特征值核

2017-03-25 21:52:51 543

原创七月机器学习之数理统计与参数估计2

概率是已经知道整体求某一个事件的概率，统计是已经知道某一个事件的概率求整体的分布情况非常重要: 方差用于衡量随机变量偏离期望的程度协方差非常重要:面试经常问可基于协方差矩阵来筛选特征二阶导数大于0，即斜率在增加就是凸函数

2017-03-25 15:44:09 481

原创七月在线之机器学习与相关数学初步1

它的意义在于将多项式与三角函数间建立了联系

2017-03-25 10:59:20 643

原创 sklearn中基础库函数笔记

sklearn中的cross validation模块，最主要的函数是如下函数： sklearn.cross_validation.cross_val_score。他的调用形式是scores = cross_validation.cross_val_score(clf, raw data, raw target, cv=5, score_func=None) 参数解释： clf是不同的分类器，

2017-03-24 19:52:52 1518

原创机器学习项目实战之用户流失预警

from __future__ import divisionimport pandas as pdimport numpy as npchurn_df = pd.read_csv("D:\\test\\machineLearning\\churn.csv")col_names = churn_df.columns.tolist()print "Column_names:"print col

2017-03-22 22:44:06 5652 7

原创使用Jhash替换传统hash有效降低hash冲突提供查找效率

“`includeincludeinclude”jhash.h”//常规算法的黄金分隔define VOICE_HASH_GOLDEN_INTERER 0x9e370001//hash桶的大小为2的11次方，即2047+1define HASH_SIZE 2048//常用的黄金分隔的hash算法define VOICE_HASH_INTERGER(uiKey,

2017-03-22 21:20:16 5691 1

原创机器学习之基于matlab的神经网络粒子群优化算法的实现

实现算法的论文，代码源码，测试函数，请见本人的git账户: https://github.com/qiu997018209/MachineLearning以下是mymain.m文件内容 clear % mex cec13_func.cpp -DWINDOWSfunc_num=1;D=10;VRmin=-100;VRmax=100;N=40;Max_Gen=5000;runs=1f

2017-03-21 22:40:59 9358 4

原创机器学习项目实战之贷款申请最大利润

import pandas as pdloans_2007 = pd.read_csv("LoanStats3a.csv",skiprows=1)#数据清理过滤无用特征 half_count = len(loans_2007)/2loans_2007 = loans_2007.dropna(thresh=half_count,axis=1)loans_2007 = loans_2007.d

2017-03-21 22:07:36 2846

原创机器学习项目实战:泰坦尼克号获救预测

import pandastitanic = pandas.read_csv("D:\\test\\titanic_train.csv")#进行简单的统计学分析print titanic.describe()#std代表方差，Age中存在缺失值 PassengerId Survived Pclass Age SibSp \count

2017-03-21 00:16:28 8829 8

原创机器学习之贝叶斯拼写检查器

#coding:utf-8import re, collectionsdef words(text): return re.findall('[a-z]+', text.lower()) def train(features): #使用defaultdict的好处在于当访问一个不存在的键值的时候会调用入参函数，并将结果作为这个key的value model = collection

2017-03-19 22:00:50 614

转载金玉良言，人生导师，切记切记！！！

8月12日，今日头条创始人张一鸣在“2016今日头条Bootcamp”上对研发&产品部门应届毕业生发表了寄语。　　以下是张一鸣演讲实录：　　大家好！　　各位都非常年轻，我今天来的时候挺有压力。因为我毕业快11年了，看到你们，真是觉得“长江后浪推前浪”。　　我去年参加了武汉的校招，感觉新一代年轻人的素质确实都非常好。我昨天就在想，今天应该跟大家分享什么。想了想，先把题目拟出来，把

2017-03-19 16:22:20 696

原创机器学习项目实战之贝叶斯垃圾邮件分类

#coding:utf-8'''Created on 2017年3月19日@author: qiujiahao'''import numpy as np#贝叶斯实质上也是一个二分类def loadDataSet():#数据格式 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

2017-03-19 14:21:25 2536 3

原创机器学习之支持向量机原理

找一条“胖”的决策边界的前提时点不能分错，这条胖的边界我们称为margin 此处distance是图中的h，即点到决策边界的计算公式优化后的最终公式是下图

2017-03-19 00:22:04 532

原创机器学习之递归神经网络RNN实现二进制加法

1.循环递归，并且当前的结果受前段时间的结果影响，不同样本间是有联系的以下是反向传播时对权重进行调整的推倒公式 #coding:utf-8'''Created on 2017年3月18日#本项利用RNN递归神经网络实现二进制加法@author: qiujiahao'''import numpy as npimport copy#激活函数def sigmoid(x):

2017-03-18 23:43:13 1012

原创机器学习之简单三层神经网络实现

import numpy as np#本项目实现简单神经网络模型#非线性函数#前向传播：直接返回sigmoid激活函数#反向传播：对sigmoid函数求倒数,即x*(1-x)def nonlin(x,deriv=False): if (deriv == True): return x*(1-x) return 1/(1+np.exp(-x))#输入样本x =

2017-03-18 19:24:23 2621

原创机器学习之神经网络基础概念

1.第一步:前向传播，X经过计算得到L值第二步:反向传播，根据得到的L值，分析各个W所起到的左右第三步:调整各个W，使得L值不断下降B和L后面存在一个激活函数，使得神经网络具备非线性功能正则化项用于解决棍和现象

2017-03-18 18:31:24 461

原创机器学习之SVD奇异值原理分析及举例

中间的矩阵S即是我们所关心，它的对角线上的每一个值，越大，说明这一类元素越重要，同时我们也可以取一个r乘以r的近似值，来得到我们所关心的，对最终结果有重要影响的类别。例如，我想直到最重要的2项指标，那么我可以使s成为2行2列的矩阵，u使m*2的矩阵，V是n行2列的矩阵举例如下: 通过S将U，V控制成2列，这样方便我们在二维的坐标系中展示

2017-03-18 14:19:15 886

原创机器学习之K-means聚类分析NBA球员案例

import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as pltnba = pd.read_csv("D:\\test\\machineLearning\\nba_2013.csv")print nba.head(3) player pos age bref_team_i

2017-03-18 11:43:37 7530 2

原创机器学习之无监督聚类问题

#无监督：数据没有明确说明属于哪一类，无需去训练模型import pandas as pdvotes = pd.read_csv("D:\\test\machineLearning\\114_congress.csv")print(votes["party"].value_counts())print votes.mean()R 54D 44I 2Name: par

2017-03-18 11:29:54 1009

原创机器学习之无监督聚类问题

通过判断彼此间的距离来实现聚类#无监督：数据没有明确说明属于哪一类，无需去训练模型import pandas as pdvotes = pd.read_csv("D:\\test\machineLearning\\114_congress.csv")print(votes["party"].value_counts())print votes.mean()R 54D 44I

2017-03-17 23:23:21 1152

原创机器学习之随机森林

#随机森林存在2重随机性：1样本的随机性 2特征的随机性import pandascolumns = ["age", "workclass", "fnlwgt", "education", "education_num", "marital_status", "occupation", "relationship", "race", "sex", "capital_gain

2017-03-17 22:02:22 573

原创机器学习之使用sklearn实现决策树及原理分析

import pandascolumns = ["age", "workclass", "fnlwgt", "education", "education_num", "marital_status", "occupation", "relationship", "race", "sex", "capital_gain", "capital_loss", "hours_per

2017-03-17 16:45:49 4934 2

原创机器学习之自己实现决策树

import pandasimport numpy as np# Set index_col to False to avoid pandas thinking that the first column is row indexes (it's age).columns = ["age", "workclass", "fnlwgt", "education", "education_num",

2017-03-17 15:38:09 693

原创机器学习之K-近邻算法代码实现

以下是代码实现#coding:utf-8'''Created on 2017-03-17@author: qiujiahao'''import numpy as npimport operatorfrom audioop import reversedef createDataSet(): #以矩阵的格式创造四个数据 group = np.array([[1.0,1.1

2017-03-17 10:48:26 373

基于Python的机器学习K-means聚类分析NBA球员案例

新浪微博客户端

项目实战之博客园客户端源码

空空如也