自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(338)
  • 资源 (2)
  • 收藏
  • 关注

原创 LightGBM官方中文文档上线啦!

有幸可以参与这次文档的翻译工作,下一次参与翻译的应该就是N久没有更新的Pytorch中文文档啦!走过路过的大佬请点个star让我以后好装逼,谢谢各位了,Orz主页地址:http://lightgbm.apachecn.org/cn/latest/index.htmlGithub:https://github.com/apachecn/lightgbm-doc-zh请点进Github帮忙点个star,

2018-01-04 16:49:23 53657 6

原创 常用目标检测算法loss总结(持续更新)

R-cnn,Fast Rcnn输入层设置特征输入分别输出到两个并行的全连接层,即传统意义上的,分类+回归cls_score层:分类层,输出K+1维的数组,pipip_{i} 表示是分类还是背景的概率bbox_predict层: 候选框需要调整层,输出4*K维数组,表示属于第K类时应该缩放平移的参数Loss fuctionloss_cls : 对分类进行评估,采用真实...

2018-04-16 10:16:21 11564 2

原创 Tiny-SSD : 使用Squeeze-Net 替换 VGG-16

前言:这个作者的思路没什么,改了个网络而已,但是没想到他里面的参数只是随便写的,并不是完全成立,而如果将这些参数设计成SSD 中VGG16的,则可以正确的编译(内心可以说各种草泥马了),把网络留在这里,可以直接替换VGG16部分。最近准备使用kitti数据集进行测试和yolo V3比较# coding=utf-8"""Keras implementation of SSD."""impo..

2018-04-08 21:34:01 3147 2

原创 4.2号 阿里实习图像算法岗面经(一面,已挂,HC满了)

由于简历里写了自己相对于目标检测,计算机视觉方向了解的多一些,所以基本上没有问传统的ML算法,一共面了23分钟,基本上就凉了。 DL方面(15分钟) 1.介绍一下faster rcnn 这里我是顺着从rcnn开始一把梭说到fatser rcnn的 2.fatser rcnn是怎么进行feature map选取的 3.fatser rcnn 里的 anchor 有什么用,怎么进行不同的bo...

2018-04-03 14:30:44 6474 2

原创 61. Rotate List (旋转链表)

题目链接:https://leetcode.com/problems/rotate-list/description/题目大意:给一个链表,将其旋转K次得到最终链表题解:显然是个要求循环节的问题,求好后先将需要翻转的那部分加入新的链表中,再将剩余(即头结点)后的加入,需要注意最终的终止条件是NULL= =、最近要准备面试的东西,还是得多写点题/** * Definition fo

2017-12-19 19:31:37 463

翻译 Incorporating organelle correlations intosemi-supervised learning论文分析

Incorporating organelle correlations intosemi-supervised learning for protein subcellular localization prediction动机:曾经的系统性能问题导致图像处理质量不高现有的生物信息图像内标注稀疏,样本少多标记类蛋白质用传统生物实验和自动化难以检测概述:贝叶斯网络是一种描述事物错综复杂关系

2017-11-13 14:12:55 624

原创 精读深度学习算法源码系列(一):keras实现SSD源码:ssd_box_encode_decode_utils

算法原文:SSD: Single Shot MultiBox Detector github链接:https://github.com/pierluigiferrari/ssd_keras#overview以ssd7作为主程序一共如下几类:train_ssd7keras_ssd7keras_ssd_lossssd_box_encode_decode_utilsssd_batch_gene

2017-11-06 18:36:07 5644 5

原创 概率统计与机器学习:机器学习的各类型最优化方法

机器学习的最优化方法

2017-09-14 17:16:42 847

原创 概率统计与机器学习:机器学习常见名词解释(过拟合,偏差方差)

过拟合,欠拟合过拟合和欠拟合 仍旧以线性回归举例,f(x,w)=w1x1+w2x2...wnxnf(x,w) = w_{1}x_{1} + w_{2}x_{2}...w_{n}x_{n} 我们要在损失函数最小的情况下得到权值wE=∑Ni=1(yi−f(x,w))2E = \sum_{i=1}^{N} (y_{i} - f(x,w))^{2} 但是阶数N也是需要考虑的,比如一阶就是一条线,特

2017-07-31 17:34:04 1008

原创 概率统计与机器学习:极大后验概率以及正则化项

先验概率概念:本质上就是古典概型,是利用当前状态对求解状态的一种概率估计,可以理解为“由 因求果”中“因”出现的概率。条件: (1)实验所有的可能结果是有限的; (2) 每一种出现的结果的概率是等可能的举例:假设有一个根据身高H和衣服颜色饱和度S两个参数的模型来估计一个人是男的还是女的性别识别系统 模型:y=w1∗H+w2∗S+by = w_{1}*H + w_{2}*S+b,

2017-07-24 23:53:06 3040 2

原创 概率统计与机器学习:独立同分布,极大似然估计,线性最小二乘回归

独立同分布独立性概念:事件A,B发生互不影响公式:P(XY)=P(X)P(Y)P(XY)=P(X)P(Y) , 即事件的概率等于各自事件概率的乘积举例: 正例:两个人同时向上抛硬币,两个硬币均为正面的概率反例:狮子在某地区出现的概率为X,老虎出现概率为Y,同时出现的概率并不满足P(XY)=P(X)P(Y)P(XY)=P(X)P(Y) ,因为老虎在的地方一般不会有狮子。同分布概念:随机变

2017-07-15 10:01:49 5001

原创 概率统计与机器学习:常见分布性质总结

常见分布正态分布来源:中心极限定理 定义:大量独立的随机变量之和趋向于正态分布(高斯分布)前提:样本之间相互独立公式:p(x)=12π√σexp(−(x−μ)22σ2) p(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp (- \frac{(x-\mu )^{2}}{2\sigma ^{2}}) 图示: 可以看出期望 μ\mu 代表了正态分布的偏移量(位置);

2017-07-10 16:05:39 7189

原创 概率统计与机器学习:期望,方差,数学期望,样本均值,样本方差之间的区别

1.样本均值:我们有n个样本,每个样本的观测值为Xi,那么样本均值指的是 1/n * ∑x(i),求n个观测值的平均值2.数学期望:就是样本均值,是随机变量,即样本数其实并不是确定的 PS:从概率论的角度而言:样本指的是我们现在有多少东西需要去观测,它是一种随机变量,即样本的多少是不确定                                                的,...

2017-07-09 14:21:27 58874 9

原创 Python2.7 grouby实战操作

goupby的本质是对数据集进行更为自然的切分,聚合和重组,利用该操作可以很轻易的得到很多操作(像我这么弱的都是跑循环,append的发现怎么搞都会几十个小时以上,于是乎知道有这个操作后,打算学习一下)凑巧正在打腾讯的广告算法大赛,当然我是很弱的那种,所以只拿来练习一下处理特征也不错的想从数据集中得到某一些特征组合的数据集的话train = pd.read_csv(TRAIN)d

2017-06-01 21:01:26 806

原创 Python3实现BP神经网络

主要是实现了这位大佬的代码,顺便加了一些自己的理解http://www.cnblogs.com/Finley/p/5946000.htmlimport mathimport randomrandom.seed(0)def rand(a,b): #随机函数 return (b-a)*random.random()+adef make_matrix(m,n,fill=0.0):#

2017-05-04 14:47:19 8983 4

原创 py2.7 《集体智慧编程》chapter3:发现群组

数据聚类:目的并不是通过输入和期望输出来调整算法,而是采集数据。且常用方法是定义一组公共的数值型属性,利用这些属性进行比较。一、对博客用户进行分类:数据集地址:

2017-04-25 10:51:09 395

原创 py2.7 《集体智慧编程》chapter2:提供推荐

一、搜集偏好(构造数据集):#使用字典嵌套构造数据集:一个涉及影评者及其对几部影片评分情况的字典critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5,

2017-04-06 10:40:10 451

原创 关乎《机器学习实战》这本书基本刷完后的一些看法以及合集

从头到尾都是撸板子,或多或少的增加了一些理解花了四个月的时间,一点点的补完了这本书,才发现就算是实战书,也不是一本就可以加深印象的机器学习这个方向,也不单单的是一遍就能搞定的东西,理论在过了CS229发现果然还是应该重复重复重复的看下去这本书涉及API的之后的就没实战了,因为开了ss发现也爬不到东西下一本书准备刷《集体智慧编程》,顺便可以补一下《MLAPP》,周老师是《机器学习》讲

2017-04-05 19:30:21 6431 3

原创 py2.7《机器学习实战》使用FP-growth算法高效发现频繁项集

1、前言:在我们使用搜索引擎时,每当打出一些关键字,搜索引擎就会给我们自动补全推荐一些有关搜索,使用的就是FP-growth2、FP-growth 与 Apriori 的对比 :只需要对数据库扫描两次,而Apriori会对每个潜在的频繁项集都会扫描数据集判断给定模式是否频繁,所以前者的速度更快,但是前者并不能发现关联规则

2017-04-03 00:08:11 1065

原创 (PAT 04-树4)二叉搜索树(BST)的建立以及判断是否为同一颗BST

题目地址:https://pta.patest.cn/pta/test/3512/exam/4/question/7345304-树4 是否同一棵二叉搜索树   (25分)给定一个插入序列就可以唯一确定一棵二叉搜索树。然而,一棵给定的二叉搜索树却可以由多种不同的插入序列得到。例如分别按照序列{2, 1, 3}和{2, 3, 1}插入初始为空的二叉搜索树,都得到一样的结果。于是对

2017-03-29 15:13:35 418

原创 py2.7《机器学习实战》使用Apriori算法进行关联分析

一、关联分析关联分析的主要样例就是:啤酒->尿布。一、(1)频繁项集:经常出现在一起的物品的集合(2)关联规则:两种物品之间有很强的联系二、(1)支持度:数据集中包含该项集的记录的所占比例,书中给出了:{豆奶}=4/5 ,所以豆奶的支持度为4/5; {豆奶,尿布} = 3/5 , 所以后者为3/5;(2)可信度/置信度 : 是针对关联规则的一种操作,书中: {尿布}->

2017-03-27 23:45:10 629

原创 py2.7《机器学习实战》利用SVD简化数据

一、SVD的应用1.LSI,LSA2.推荐系统SVD的本质就是分解矩阵,将分解后的矩阵有效部分提取再结合为新矩阵二、Python实现SVD#-*- coding:utf-8 -*-def loadData(): return [[1,1,1,0,0], [2,2,2,0,0], [1,1,1,0,0],

2017-03-25 20:49:42 863

原创 py2.7《机器学习实战》利用PCA来简化数据

最近看了PCA降维,很多地方还是不理解,还是线代学的太差了,但是书上总结的还是挺精简的一、在Numpy中实现PCA1、伪代码:(1)去除平均值(2)计算协方差矩阵(3)计算协方差矩阵的特征值和特征向量(利用Numpy中的linalg方法)(4)将特征值从大到小排序(5)保留最上面的N个特征向量(6)将数据转换到上述N个特征构建的新空间中

2017-03-24 17:57:00 700

原创 py2.7《机器学习实战》利用k-means聚类算法对未标数据分组

一、支持函数from numpy import *def loadDataSet(fileName): dataMat = [] fr = open(fileName) for line in fr.readlines(): curLine = line.strip().split('\t') fltLine = map(float,c

2017-03-16 18:48:38 746

原创 Python NetworkX库实现复杂网络

1.具有社团结构的网络(Networks with Community Structure)定义: 对于一个图G而言,如果其中有一个完全子图(任意两个节点之间均存在边),节点数是k,那么这个完全子图就可称为一个k-clique。进而,如果两个k-clique之间存在k-1个共同的节点,那么就称这两个clique是“相邻”的。彼此相邻的这样一串clique构成最大集合,就可以称为一个社区,且社区

2017-03-13 18:33:00 8823

原创 py2.7 : 《机器学习实战》树回归 3.8号 CART算法用于回归

9.3将CART算法用于回归在python中可以直接以字典这个数据结构来实现树的生成而且CART是给定切分特征值,用来划分特征集是归于左边还是右边def binSplitDataSet(dataSet, feature, value):#数据集合,待切分特征和特征的值 mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:

2017-03-08 14:28:14 452

原创 [剑指offer]从尾到头打印链表

题目描述输入一个链表,从尾到头打印链表每个节点的值。算法分析很简单的数据结构题,考虑到从头遍历,而且又从尾打印,如此和栈相似。直接模拟栈就好,这里使用的是递归模拟;唯一坑的地方就是牛客网是拿类写的,不是很适应,CE了一万次。最终多加了一个vector用push_back把节点信息压进去return后过了Code/*** str

2017-03-06 17:13:59 350

原创 [剑指Offer]二维数组查找

题目描述在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。题解:思路相当清晰的一道水题,唯一坑的地方就是忘了vector怎么用了。已知了矩阵的构造是从小到大的,所以最右边一列都是对于当前列最大的数,从最右上角搜索,如果遇到和查找数一样的,返回T

2017-03-05 15:44:14 450

原创 最小二乘法的证明以及最优化系数的求解 Least squares

定理:最小二乘法就是通过最小化误差的平方和寻找数据的最佳函数匹配,使得最后预测和真实值之差的平方的最小值最小一、矩阵求导∇Af(A) 代表的意思是:对于一个A矩阵(M x N), ij系数满足 ∂f/∂Aij ,即对矩阵里的元素求导For example : A为一个2 x 2矩阵即有函数f(X)则根据上面对矩阵求导法则二、矩

2017-03-02 14:15:54 11070 2

原创 py2.7 : 《机器学习实战》3.1号:预测数值型数据:回归

一、线性回归# -*- coding: utf-8 -*-from numpy import *def loadData(fileName): numFeat = len(open(fileName).readline().split('\t')) - 1 #通过这样的划分得到特征数 #print "numFeat = " , numFeat dataMat = [

2017-03-01 16:41:07 516

原创 梯度下降法证明以及最优化系数的求解 gradient descent

文中所示公式以Andrew Ng CS229课程的讲义为主定义:求解无约束最优化问题的一种常用方法,用负梯度方向为搜索方向的,梯度下降法越接近目标值,步长越小,前进越慢算法实现:属于迭代算法,每一步都需要求解目标函数的梯度向量1.参数方程假设特征有X1,X2, , 则方程有:

2017-02-26 13:21:38 6635

原创 py2.7 : 《机器学习实战》 Adaboost 2.24号:ROC曲线的绘制和AUC计算函数

前言:可以将不同的分类器组合,这种组合结果被称为集成方法  、 元算法使用:1.不同算法的集成 2.同一算法下的不同设置集成 3.不同部分分配给不同分类器的集成算法介绍:AdaBoost优点:泛华错误率低,易编码,可以应用在大部分的分类器上,无参数调整缺点:对离群点敏感(离群点是指一个时间序列中,远离序列的一般水平的极端大值和极端小值)运用数据类型:数值型或者标称型数据

2017-02-21 17:17:13 3076 1

原创 使用scikit-learn实现逻辑回归对牵牛花类别的预测

# -*- coding: utf-8 -*-from sklearn.datasets import load_iris #载入自带牵牛花数据from sklearn.cross_validation import train_test_split #使用交叉验证划分数据集from sklearn import preprocessing #数据预处理#读取数据iris = load

2017-02-09 00:13:43 467

原创 scikit-learn文档学习笔记

(一)、获取数据,处理数据# -*- coding: utf-8 -*-#(一)加载数据import numpy as npimport urlliburl = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"raw_dat

2017-02-06 23:12:11 513

原创 mysql学习笔记(五)索引、视图,导入和导出,备份和恢复

一、索引索引是一种与表有关的结构,它的作用相当于书的目录,可以根据目录中的页码快速找到所需的内容。当表中有大量记录时,若要对表进行查询,没有索引的情况是全表搜索:将所有记录一一取出,和查询条件进行一一对比,然后返回满足条件的记录。这样做会消耗大量数据库系统时间,并造成大量磁盘 I/O 操作。而如果在表中已建立索引,在索引中找到符合查询条件的索引值,通过索引值就可以快速找

2017-02-04 00:42:43 3026

原创 mysql学习笔记(四)数据库及表的修改和删除

额外补充:1.查询文件中所有数据库 :  show databeses ;2.进入sql文件 : source 正文:1.删除数据库 drop  database 数据库名字 ;  eg : drop database test_01;2.重命名一张表:  rename table + 文件名 to 重命名文件名 ; eg : rename table test

2017-01-30 18:50:23 619

原创 mysql学习笔记(三)select语句

1.基本语法(1)selet * from  table_name : 查询table_name表中的所有内容(2)selet 条件 from table_name : 查询table_name表中指定条件的内容2.数学符号条件selct中一般会有where限制语句,eg : select name name , age from table_name where age

2017-01-25 00:08:59 415

原创 py2.7 : 《机器学习实战》 SVM支持向量机:1.26号 6-1 SMO算法简化版

概念:SMO(Sequential Minimal Optimization)是针对求解SVM问题的Lagrange对偶问题,一个二次规划式,开发的高效算法。传统的二次规划算法的计算开销正比于训练集的规模,而SMO基于问题本身的特性(KKT条件约束)对这个特殊的二次规划问题的求解过程进行优化。对偶问题中我们最后求解的变量只有Lagrange乘子向量,这个算法的基本思想就是每次都只选取一对,固定向量

2017-01-24 22:29:55 1135

原创 mysql学习笔记(二)SQL的约束

小操作:source +目录 + 文件名  ---->使用mysql获取文件资源概念:约束是一种限制,它通过对表的行或列的数据做出限制,来确保表的数据的完整性、唯一性。常见的约束:1.主键:PRIMARY KEY概念:主键 (PRIMARY KEY)是用于约束表中的一行,作为这一行的标识符,在一张表中通过主键就能准确定位到一行,因此主键十分重要。行中的主键不能有重复且不能为空。

2017-01-24 00:32:10 271

原创 mysql学习笔记(一) 基础操作

1. mysql -uroot - p    : 登录名为root的账户2.create database :创建名为XXX的数据库  eg : create database mysql_test  , 创建名为 mysql_test 的数据库3.use : 连接名为XXX的数据库  eg: use mysql_test , 如果出现 Database changed 则创建成功

2017-01-22 00:18:36 651

V-Net:Fully Convolutional Neural Networks

V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation

2017-05-22

k-nearest-neighbors-from-global-to-local

k-nearest-neighbors-from-global-to-local

2017-02-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除