自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 资源 (3)
  • 收藏
  • 关注

原创 汽车行业知识图谱项目实战附git源码

1.基于知识图谱的问答系统:目前通过前端限定用户通过指定的格式来输入问题,然后通过查询知识图谱的形式来回答2.本次跟新介绍:1.考虑到后续数据量大,将数据库从Mysql替换为Neo4j2.新增5个http接口3.支持多层查询与存储,考虑到查询的时间消耗,建议不超过3层3.http接口说明:详细说明:data/http接口说明.txt1.查询单个实体,支持查询深度限制,深度为3时,查...

2018-10-12 16:29:59 6421 14

原创 LintCode:将二叉树拆成链表453

/** * Definition of TreeNode: * class TreeNode { * public: * int val; * TreeNode *left, *right; * TreeNode(int val) { * this->val = val; * this->left = this->right =

2017-08-31 11:37:08 393

原创 LintCode:字符串置换211

Hash表思路,时间复杂度为O(n),附加空间复杂度O(n)class Solution {public: /* * @param A: a string * @param B: a string * @return: a boolean */ //思路:将字符串中的每一个值映射到hash表中,统计出现次数,然后比较是否相等 boo

2017-08-30 13:49:14 635

原创 LintCode:二叉树的路径和276

/** * Definition of TreeNode: * class TreeNode { * public: * int val; * TreeNode *left, *right; * TreeNode(int val) { * this->val = val; * this->left = this->right =

2017-08-30 10:51:00 1534

原创 LintCode:单例204

//单例设计模式class Solution {public: /** * @return: The same instance of this class every time */ static Solution* getInstance() { // write your code here if(pInstance ==

2017-08-29 17:57:31 551

原创 LintCode:二叉树的最大节点632

原题地址:http://www.lintcode.com/zh-cn/problem/binary-tree-maximum-node/#class Solution {public: /** * @param root the root of binary tree * @return the max node */ Solution(){

2017-08-29 14:56:38 385

原创 LintCode:删除链表中的元素452

原地址:http://www.lintcode.com/zh-cn/problem/remove-linked-list-elements//** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode(int x) : val(

2017-08-29 14:53:08 360

原创 七月机器学习之贝叶斯方法

先验概率与后验概率 事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率. 一、先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的,是“执果寻因”问题中的“因”。先验概率与后验概率有不可分割的

2017-04-01 16:09:42 587

原创 七月机器学习之决策树随机森林和adaboost11

信息是对不确定性的度量 平均互信息是衡量两个概率分布之间的相似性,互信息高那么相似性就比较大 他们之间的运算关系都在这个图里 I是互信息 熵减去条件熵就是互信息 条件熵是衡量差异性的 也就是说,之前的不确定性减去之后的不确定性等于不确定性的减少,不确定性的减少意味着确定性的增加,实际上就是我们寻找的相关性 主要理解ID3即可 A是特征,D是标签label 决策树的面试会问 由以下

2017-03-31 23:12:28 779

原创 七月机器学习项目实战之特征工程6城市自行车共享系统使用状况

特征工程小案例Kaggle上有这样一个比赛:城市自行车共享系统使用状况。提供的数据为2年内按小时做的自行车租赁数据,其中训练集由每个月的前19天组成,测试集由20号之后的时间组成。本项目功能:数据清理,特征提取,标准化连续值特征,离散性数据实现one-hot编码 本项目数据及源码:https://github.com/qiu997018209/MachineLearning#先把数据读进来imp

2017-03-31 17:38:33 2857

原创 七月机器学习之推荐系统9

一个叫准确度,一个叫召回 长尾效应是说,热门的有很多人喜欢,但是个性化的,不同的人有不同的喜好,但是数量较少 马太效应是说,只推荐热门的东西 I是商品集 H是信息熵,在所有的Pi都相等的时候,熵最大,它可以更精准的定义覆盖率 u为均值 同一部电影,不同的用户,u是均值 同一个用户,不同的电影 SVD矩阵的分解

2017-03-30 22:43:34 689

原创 在eclipse+pydev环境下安装scipy的办法

1.卸载anaconda并重启2.安装pip包,用来装软件的 Python -m pip install -U pip setuptools3.将python的安装路径和Scripts路径添加到PATH路径去。 添加Scripts是为了能着找到pip命令 C:\Users\qiujiahao\Downloads\python-2.7.13.amd64\Scripts\ C:\Users\qi

2017-03-28 19:27:36 929

原创 七月机器学习之特征工程6

随机取样:可能无法表征所有的情况 分层采样:对不同的年龄段(举例)进行采样大多数算法对正负样本都是很敏感的 下采样:比如正样本很多,我们在正样本中抽取数据,使得正负样本一样多 如果正样本比负样本大很多,建议你取采集更多的数据 selectKBest选择与y相关度最高的k个数据 l1正则化是截断,也就是说不相关的就截断,权重为0,selectfrommodel可以选出大于权重0的特征

2017-03-28 18:27:13 658

原创 七月机器学习之工作流程与模型调优7

本图包含了实际工作中的所有情况,须仔细阅读 1.wrapper包裹型 1.当数据小于50的时候,需要去采集更多的数据 2.category分类:是连续值的预测还是离散值的预测 3.分类,回归,聚类(cluster), 1.分为train,cv,test,train用来建模,cv是交叉验证集用来帮助我们做参数和模型的选择,test用来测试模型效果 实际工作中很少自己实现一个模型,大多都是

2017-03-27 19:58:46 525

原创 七月机器学习之回归分析与工程应用5

线性回归用于解决连续值预测的问题,逻辑回归用于解决分类的问题,但是实际上通常用来分类,因为它输出的是一个概率这三个概念面试一定会问!!!! 拿到损失函数->对损失函数进行梯度下降->求出最优解,正则化是为了防止过拟合,降低波动线性回归是假定输入和输出间是有线性相关的 不同的算法的损失函数的定义不同 这种情况说的是入参只有一个的时候,当斜率为负数的时候,值会变大,就会继续往前,当为正数的时候就会

2017-03-26 22:12:58 492

原创 七月机器学习之凸优化初步4

切记切记,数学基础决定了你机器学习能走多远!!!KKT用于有约束条件的求极值点

2017-03-26 13:28:04 543

原创 七月机器学习之矩阵分析与应用3

线性代数的基本知识 线性相关就是一个向量能被另一个向量表示出来 基是子空间的最大线性无关组 此处一个子空间是一个平面,再加一个不共面的向量就可以组成R3,它一定是R3的一部分 A到U实际上是化简,将第一行乘以-3加到第二行,ux=0可以找到两个线性无关的解 列空间和左零空间在一起就构成了Rn的空间,它是与列空间垂直的那一个空间 PCA降维的本质就是舍弃小的特征值,保留大的特征值 核

2017-03-25 21:52:51 543

原创 七月机器学习之数理统计与参数估计2

概率是已经知道整体求某一个事件的概率,统计是已经知道某一个事件的概率求整体的分布情况非常重要: 方差用于衡量随机变量偏离期望的程度 协方差非常重要:面试经常问 可基于协方差矩阵来筛选特征 二阶导数大于0,即斜率在增加就是凸函数

2017-03-25 15:44:09 481

原创 七月在线之机器学习与相关数学初步1

它的意义在于将多项式与三角函数间建立了联系

2017-03-25 10:59:20 643

原创 sklearn中基础库函数笔记

sklearn中的cross validation模块,最主要的函数是如下函数: sklearn.cross_validation.cross_val_score。他的调用形式是scores = cross_validation.cross_val_score(clf, raw data, raw target, cv=5, score_func=None) 参数解释: clf是不同的分类器,

2017-03-24 19:52:52 1518

原创 机器学习项目实战之用户流失预警

from __future__ import divisionimport pandas as pdimport numpy as npchurn_df = pd.read_csv("D:\\test\\machineLearning\\churn.csv")col_names = churn_df.columns.tolist()print "Column_names:"print col

2017-03-22 22:44:06 5652 7

原创 使用Jhash替换传统hash有效降低hash冲突提供查找效率

“`includeincludeinclude”jhash.h”//常规算法的黄金分隔define VOICE_HASH_GOLDEN_INTERER 0x9e370001//hash桶的大小为2的11次方,即2047+1define HASH_SIZE 2048//常用的黄金分隔的hash算法define VOICE_HASH_INTERGER(uiKey,

2017-03-22 21:20:16 5691 1

原创 机器学习之基于matlab的神经网络粒子群优化算法的实现

实现算法的论文,代码源码,测试函数,请见本人的git账户: https://github.com/qiu997018209/MachineLearning以下是mymain.m文件内容 clear % mex cec13_func.cpp -DWINDOWSfunc_num=1;D=10;VRmin=-100;VRmax=100;N=40;Max_Gen=5000;runs=1f

2017-03-21 22:40:59 9358 4

原创 机器学习项目实战之贷款申请最大利润

import pandas as pdloans_2007 = pd.read_csv("LoanStats3a.csv",skiprows=1)#数据清理过滤无用特征 half_count = len(loans_2007)/2loans_2007 = loans_2007.dropna(thresh=half_count,axis=1)loans_2007 = loans_2007.d

2017-03-21 22:07:36 2846

原创 机器学习项目实战:泰坦尼克号获救预测

import pandastitanic = pandas.read_csv("D:\\test\\titanic_train.csv")#进行简单的统计学分析print titanic.describe()#std代表方差,Age中存在缺失值 PassengerId Survived Pclass Age SibSp \count

2017-03-21 00:16:28 8829 8

原创 机器学习之贝叶斯拼写检查器

#coding:utf-8import re, collectionsdef words(text): return re.findall('[a-z]+', text.lower()) def train(features): #使用defaultdict的好处在于当访问一个不存在的键值的时候会调用入参函数,并将结果作为这个key的value model = collection

2017-03-19 22:00:50 614

转载 金玉良言,人生导师,切记切记!!!

8月12日,今日头条创始人张一鸣在“2016今日头条Bootcamp”上对研发&产品部门应届毕业生发表了寄语。   以下是张一鸣演讲实录:   大家好!   各位都非常年轻,我今天来的时候挺有压力。因为我毕业快11年了,看到你们,真是觉得“长江后浪推前浪”。   我去年参加了武汉的校招,感觉新一代年轻人的素质确实都非常好。我昨天就在想,今天应该跟大家分享什么。想了想,先把题目拟出来,把

2017-03-19 16:22:20 696

原创 机器学习项目实战之贝叶斯垃圾邮件分类

#coding:utf-8'''Created on 2017年3月19日@author: qiujiahao'''import numpy as np#贝叶斯实质上也是一个二分类def loadDataSet():#数据格式 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

2017-03-19 14:21:25 2536 3

原创 机器学习之支持向量机原理

找一条“胖”的决策边界的前提时点不能分错,这条胖的边界我们称为margin 此处distance是图中的h,即点到决策边界的计算公式 优化后的最终公式是下图

2017-03-19 00:22:04 532

原创 机器学习之递归神经网络RNN实现二进制加法

1.循环递归,并且当前的结果受前段时间的结果影响,不同样本间是有联系的 以下是反向传播时对权重进行调整的推倒公式 #coding:utf-8'''Created on 2017年3月18日#本项利用RNN递归神经网络实现二进制加法@author: qiujiahao'''import numpy as npimport copy#激活函数def sigmoid(x):

2017-03-18 23:43:13 1012

原创 机器学习之简单三层神经网络实现

import numpy as np#本项目实现简单神经网络模型#非线性函数#前向传播:直接返回sigmoid激活函数#反向传播:对sigmoid函数求倒数,即x*(1-x)def nonlin(x,deriv=False): if (deriv == True): return x*(1-x) return 1/(1+np.exp(-x))#输入样本x =

2017-03-18 19:24:23 2621

原创 机器学习之神经网络基础概念

1.第一步:前向传播,X经过计算得到L值 第二步:反向传播,根据得到的L值,分析各个W所起到的左右 第三步:调整各个W,使得L值不断下降B和L后面存在一个激活函数,使得神经网络具备非线性功能 正则化项用于解决棍和现象

2017-03-18 18:31:24 461

原创 机器学习之SVD奇异值原理分析及举例

中间的矩阵S即是我们所关心,它的对角线上的每一个值,越大,说明这一类元素越重要,同时我们也可以取一个r乘以r的近似值,来得到我们所关心的,对最终结果有重要影响的类别。例如,我想直到最重要的2项指标,那么我可以使s成为2行2列的矩阵,u使m*2的矩阵,V是n行2列的矩阵 举例如下: 通过S将U,V控制成2列,这样方便我们在二维的坐标系中展示

2017-03-18 14:19:15 886

原创 机器学习之K-means聚类分析NBA球员案例

import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as pltnba = pd.read_csv("D:\\test\\machineLearning\\nba_2013.csv")print nba.head(3) player pos age bref_team_i

2017-03-18 11:43:37 7530 2

原创 机器学习之无监督聚类问题

#无监督:数据没有明确说明属于哪一类,无需去训练模型import pandas as pdvotes = pd.read_csv("D:\\test\machineLearning\\114_congress.csv")print(votes["party"].value_counts())print votes.mean()R 54D 44I 2Name: par

2017-03-18 11:29:54 1009

原创 机器学习之无监督聚类问题

通过判断彼此间的距离来实现聚类#无监督:数据没有明确说明属于哪一类,无需去训练模型import pandas as pdvotes = pd.read_csv("D:\\test\machineLearning\\114_congress.csv")print(votes["party"].value_counts())print votes.mean()R 54D 44I

2017-03-17 23:23:21 1152

原创 机器学习之随机森林

#随机森林存在2重随机性:1样本的随机性 2特征的随机性import pandascolumns = ["age", "workclass", "fnlwgt", "education", "education_num", "marital_status", "occupation", "relationship", "race", "sex", "capital_gain

2017-03-17 22:02:22 573

原创 机器学习之使用sklearn实现决策树及原理分析

import pandascolumns = ["age", "workclass", "fnlwgt", "education", "education_num", "marital_status", "occupation", "relationship", "race", "sex", "capital_gain", "capital_loss", "hours_per

2017-03-17 16:45:49 4934 2

原创 机器学习之自己实现决策树

import pandasimport numpy as np# Set index_col to False to avoid pandas thinking that the first column is row indexes (it's age).columns = ["age", "workclass", "fnlwgt", "education", "education_num",

2017-03-17 15:38:09 693

原创 机器学习之K-近邻算法代码实现

以下是代码实现#coding:utf-8'''Created on 2017-03-17@author: qiujiahao'''import numpy as npimport operatorfrom audioop import reversedef createDataSet(): #以矩阵的格式创造四个数据 group = np.array([[1.0,1.1

2017-03-17 10:48:26 373

基于Python的机器学习K-means聚类分析NBA球员案例

代码,介绍,数据源,效果展示

2017-03-18

新浪微博客户端

项目实战之新浪客户端端源码。开源项目.带有详细备注

2015-05-21

项目实战之博客园客户端源码

项目实战之博客园客户端源码.开源项目介绍

2015-05-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除