余音丶未散-CSDN博客

原创博客写的时候很多内容由于图片问题会省略

github地址 https://github.com/lytforgood

2016-06-16 16:41:54 801

原创 tflearn学习笔记01

tflearn学习笔记常见函数解释tflearn.fully_connected全连接层flatten使传入的张量变平池化层/降采样层：Pooling Layer 标准化层（Normalization Layer）： Batch Normalization解决了反向传播过程中的梯度问题（梯度消失和爆炸） LRN（Local Response Normali...

2018-03-27 10:30:53 933

原创 mac os环境下安装lightgbm失败解决方法

问题使用官方github的安装方法，在cmake地方编译不通过解决已安装过Cmake，保证cmake版本要3.8以上，通用–更新cmake版本 gcc版本有问题，原mac os 因为其他项目下载过gcc-6 使用gcc-6 编译lighgbm时cmake ..替换为如下命令cmake -DCMAKE_CXX_COMPILER=g++-6 -DCMAKE_C_COMPILER...

2018-03-16 08:41:15 1454 1

原创 sklearn数据切分及交叉验证笔记

数据切分方法1 随机切分from sklearn.model_selection import train_test_splitiris = datasets.load_iris()X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_sta

2018-01-25 17:33:07 2893

原创自然语言处理学习笔记之中文文本分类

1. 中文处理的编码问题中文的编码不是utf8，而是unicode Python 会自动的先将解码,然后再编码 Python2.7默认编码是 ANSCII Python3 默认编码是 Unicode Python2.7解决中文乱码： 1). 文件开头#encoding:utf-82). python2.7使用sys.defaultencoding参考默认sys.de...

2018-01-25 11:32:48 8892

转载深度学习之LSTM实现

LSTM之keras实现TensorFlow之LSTMLSTM之keras实现import numpy as npnp.random.seed(2017) #为了复现from __future__ import print_functionfrom keras.datasets import mnistfrom keras.utils import np_ut

2017-09-15 15:38:52 7414 3

转载深度学习之CNN实现

CNN 实现CNN相比与传统神经网络，主要区别是引入了卷积层和池化层卷积是使用tf.nn.conv2d, 池化使用tf.nn.max_poolCNN之keras实现import numpy as npnp.random.seed(2017) #为了复现from __future__ import print_functionfrom keras.datasets i

2017-09-11 20:45:23 909

转载神经网络之keras/tf框架实现

Keras实现神经网络import numpy as npnp.random.seed(2017) #为了复现from keras.datasets import mnistfrom keras.utils import np_utilsfrom keras.models import Sequentialfrom keras.layers import Dense, Acti...

2017-09-11 15:08:04 846

转载 Tensorflow学习笔记

Tensorflow学习笔记参考知乎莫烦 Tensorflow安装# python 2+ 的用户:$ pip install tensorflow# python 3+ 的用户:$ pip3 install tensorflow更新# 如果你是 Python 2, 请复制下面pip uninstall tensorflow# 如果你是 Pyth...

2017-09-05 20:19:34 3787

转载深度学习之keras使用

深度学习之keras使用keras安装安装Numpy、Scipy等科学计算库安装theano、tensorflow eg:CPU版tensorflow pip install tensorflowpip install keras修改Backend底层框架Theano或者Tensorflow使用import keras屏幕会显示当前使用的Backend~/.keras/keras.json{

2017-09-05 20:17:30 2211

原创神经网络之python实现

神经网络之python实现#初始化w b 输入为 [每层的size] eg: [4,5,2] 输入层为4 隐藏层为 5 输出层为 2def initwb(sizes): num_layers_ = len(sizes) #层数 w_ = [np.random.randn(y, x) for x, y in zip(sizes[:-1], sizes[1:])] #1-最后二层与 2-最后一层

2017-09-05 16:26:30 717

原创相似URL判定及字符串相似度距离

相似URL判定edit distance缺点基于结构来判断URL相似度，去掉数字。字符串是否也需要去掉自身只保留结构，或者保留存在长度的结构，可以根据情况来灵活取舍。抽象一下特征 1、站点特征：如果两个url站点一样，则特征取值1，否则取值0； 2、目录深度特征：特征取值分别是两个url的目录深度是否一致； 3、一级目录特征：在这维特征的取值上，可以采用多种方法，比如如果一级目录名字相同则特

2017-08-28 08:29:41 3116

原创 spark线上环境问题总结

编译xgboost4j-on-spark的坑下载源码 git clone –recursive https://github.com/dmlc/xgboost 必须下载依赖 gcc –version 版本必须4.6以上cd jvm-packagesmvn -Dspark.version=2.1.1 package //mvn package上传到集群主要要把xgboost4j的j

2017-06-28 13:26:40 716

原创 Word2vec原理与应用

用一个普通的向量表示一个词，将所有这些向量放在一起形成一个词向量空间，而每一向量则为该空间中的一个点，在这个空间上的词向量之间的距离度量也可以表示对应的两个词之间的“距离”。所谓两个词之间的“距离”，就是这两个词之间的语法，语义之间的相似性。只介绍基于Hierarchical Softmax的CBOW模型，其他模型参考文章的参考链接。原理语言模型的目标函数一般为对数似然函数 C为所有语料针对

2017-03-22 10:59:10 2404

原创 R语言实用函数整理

初始化options(stringsAsFactors=F,scipen=99)rm(list=ls());gc()getwd() 获得工作路径信息setwd() 设置工作路径清空控制台快捷键control+L获取目录下所有文件名filenames=dir("/Users/yuyin/Downloads/数据/Excel数据")##or推荐第二种s...

2017-03-20 22:12:33 5300

介绍gcForest(multi-Grained Cascade forest 多粒度级联森林)是周志华最新提出的新的决策树集成方法。这种方法生成一个深度树集成方法（deep forest ensemble method），使用级联结构让gcForest学习。 gcForest模型把训练分成两个阶段：Multi-Grained Scanning和Cascade Forest。Multi-Grain

2017-03-10 16:55:03 7989 6

原创 XGBoost原理与应用

基本构成boosted tree作为有监督学习算法有几个重要部分：模型、参数、目标函数、优化算法模型模型指给定输入x如何去预测输出y 参数参数指我们需要学习的东西，在线性模型中，参数指我们的线性系数w 目标函数目标函数：损失 + 正则，教我们如何去寻找一个比较好的参数一般的目标函数包含下面两项: Bias-variance tradeoff，Bias可以理解为假设我们有

2017-03-09 10:17:47 12884 1

原创机器学习面试编程题汇总

阿里2017年3月在线编程题 package yuyin.chuli;import java.math.BigDecimal;import java.util.Scanner;public class Main { /** 请完成下面这个函数，实现题目要求的功能 **/ /** 当然，你也可以不按照这个模板来作答，完全按照自己的想法来 ^-^ **/ static doub

2017-03-01 20:39:28 3159 7

原创机器学习面试问题汇总

伪代码实现：LR、梯度下降、最小二乘、KNN、Kmeans; LR,SVM,XGBOOST推公式(手推) LR,SVM,RF,KNN，EM，Adaboost,PageRank，GBDT，Xgboost，HMM，DNN，推荐算法，聚类算法，等等机器学习领域的算法基本知识：1）监督与非监督区别；是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，

2017-02-28 17:08:18 13310 1

原创去掉CSDN-markdown编辑器的上传图片里面的水印

![这里写图片描述](http://img.blog.csdn.net/20170115141115170?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc3RlcmVvaG9tb2xvZ3k=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/NorthWest)去掉

2017-02-21 21:02:53 1763 5

原创机器学习面试准备(持续更新)

机器学习问题汇总http://blog.csdn.net/q383700092/article/details/58605715线性与非线性机器学习里面模型的线性与非线性说的是模型结果与参数之间的关系，模型结果与参数是非线性关系即为非线性模型。非线性模型又存在变量变换成线性问题和变换不成线性问题(本质非线性)两种。参考《概率论与数理统计》浙大第四版p257LR(Logistic Regres

2017-02-20 15:47:33 4115

原创聚类与距离学习笔记

距离距离度量的基本性质非负性：d(x1,x2)>0 同一性：d(x1,x2)=0 当且仅当 x1=x2 对称性：d(x1,x2)=d(x2,x1) 直递性：d(x1,x3)<=d(x1,x2)+d(x2,x3)闵可夫斯基距离适用于有序属性 (eg：1，2)，与数据的分布无关，具有一定的局限性，x过大y过小会放大x影响，需要做标准化，适用于假设数据各个维度互不相关。闵氏距离的缺点主要有两个：

2017-02-07 12:23:50 3222

原创 python使用汇总

python中函数参数*args和**kw的区别*args是可变参数，args接收的是一个tuple,把list或tuple的元素变成可变参数传进去,即可变参数允许你传入0个或任意个参数，这些可变参数在函数调用时自动组装为一个tuple(有序列表,元组,一旦初始化就不能修改)： **kw是关键字参数，kw接收的是一个dict。关键字参数允许你传入0个或任意个含参数名的参数，这些关键字参数在函...

2017-01-17 11:41:33 583 1

原创 sklearn-数据预处理-特征变换

标准化z-score标准化经过去均值来对某个特征进行中心化，再通过除以非常量特征(non-constant features)的标准差进行缩放。class preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True)：标准正态分布化的类属性：scale_：ndarray，缩放比例mean_：...

2017-01-16 10:42:49 5442

原创 Spark MLlib算法

Spark MLlib算法官方文档Mathematical formulation数学公式Loss functions损失函数hinge losslogistic losssquared lossRegularizers正则化L1L2elastic netzero (unregularized)Optimization优化spark使用 SGD 和 L-BFGS 这两种梯度下降方法

2017-01-09 22:22:31 906

原创 spark笔记二之Spark程序模型Transformation算子与action算子

Spark程序模型textFile读取文件val file=sc.textFile(“hdfs://192.168.192.137:9000/data/t1.csv”) filter函数过滤带“a”的行，输出errors（errors也是一个RDD）filter(func)val errors=file.filter(line=>line.contains(“a”)) count函数返回带“a”

2017-01-03 15:47:09 674

原创 Spark使用笔记汇总

安装IDEA及打包-常见问题参考http://www.cnblogs.com/seaspring/p/5615976.html https://yq.aliyun.com/articles/60346?spm=5176.8251999.569296.68 版本问题很重要,修改版本后注意新建项目的时候版本也得匹配参考https://www.zhihu.com/question/34099679

2017-01-03 11:32:31 1719

原创结合Scikit-learn介绍几种常用的特征选择方法

参考http://www.cnblogs.com/hhh5460/p/5186226.html 未完，占坑后续填写目标构成一套成型的自动特征选择的多方案集成输出

2016-12-26 22:20:13 7369 1

原创数据处理与模型选择的一些注释

数据处理与模型选择的一些注释数据预处理采样与过滤随机采样以随机方式生成采样数据，每次采样是各自独立的加权采样以加权方式生成采样数据；权重列必须为double或int类型，按照该列的value大小采样；如col的值是1.2和1.0；则value=1.2所属样本的被采样的概率就大一些。过滤与映射对数据按照过滤表达式进行筛选。”过滤条件”中填写where语句后面的sql脚本即可；”映射规则”可以renam

2016-12-26 22:18:28 3474

原创对机器学习与数据竞赛的一些总结

应导师要求，给新来的师弟师妹讲讲机器学习的一些东西，方便有个大概的结构，本人不才，略写点自己的看法和总结，有错误之处请多多指教。回顾比赛最近半年参加的比赛成绩：1. 阿里音乐流行趋势预测大赛 2016.5.17-7.15 Top 15/54762. 最后一公里极速配送 2016.7.4-9.9 Top 31/14603. 阿里云安全算法挑战赛 2016.8.22-10

2016-12-23 21:47:15 6577 2

原创并发和并行

并发和并行并发和并行从宏观来看，都是为进行多任务运行，但并发（Concurrency）和并行（parallelism）两者之间是有区别的并行并行是指两个或者两个以上任务在同一时刻同时运行 eg：A进程的线程1和B进程的线程1同时刻在不同核上运行并发并发是指两个或两个以上的任务在同一时间段内运行，即一个时间段中有几个任务都处于已启动运行到运行完毕之间，这若干任务在同一CPU上运行但任一个时刻点上只有

2016-12-23 10:43:55 660

原创 xgboost使用调参

github：https://github.com/dmlc/xgboost 论文参考：http://www.kaggle.com/blobs/download/forum-message-attachment-files/4087/xgboost-paper.pdf基本思路及优点http://blog.csdn.net/q383700092/article/details/6095...

2016-12-20 15:14:41 27011 2

原创 GBDT 原理与使用

基本思想GBDT–Gradient Boosting (Regression) Decistion Tree GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种用于回归的机器学习算法，该算法由多棵回归决策树组成，所有树的结论累加起来做最终答案。当把目标函数做变换后，该算法亦可用于分

2016-12-19 17:11:39 7673 1

原创 Xgboost筛选特征重要性

基本思想根据结构分数的增益情况计算出来选择哪个特征的哪个分割点，某个特征的重要性，就是它在所有树中出现的次数之和。使用代码import pandas as pdimport xgboost as xgbimport operatorfrom matplotlib import pylab as pltdef ceate_feature_map(features): ...

2016-12-16 21:00:38 37307 4

原创 Scala笔记学习之二

定义主函数object HelloWorld { def main(args: Array[String]) { println("Hello, world!") }}#交互式命令行调用HelloWorld.main(null)Scala代码作为脚本语言./hello.sh#!/bin/shexec scala "$0" "$@"!#object HelloWorld e

2016-12-16 10:45:33 576

原创集成学习-模型融合学习笔记

集成学习概念个人理解是按照不同的思路来组合基础模型，在保证准确度的同时也提升了模型防止过拟合的能力。三种常见的集成学习框架：bagging，boosting和stackingboosting算法Adaboosting(串行-减少偏差)1,基分类器权重均分分布 (每个训练数据权重一样) 最终分类器G(x)=w1G(x1)+w2G(x2)+… 2,反复学习基本分类器 2.1由当前权值学习Gm

2016-12-10 11:33:48 12453

原创 R可视化绘图三-recharts(更新)

官方文档https://madlogos.github.io/recharts/index_cn.html#tune-series安装if (!require(devtools)) library(devtools)install_github("madlogos/recharts")例子library(recharts)echartr(iris, ~Sep...

2016-11-30 17:25:18 2767 1

原创 Pandas常用笔记

官方文档http://pandas.pydata.org/pandas-docs/stable/导入包pandasimport pandas as pd获取文件夹下文件名称import osfilenames=[]for file in os.listdir(path): filenames.append(file)读前几行文件(大文件)...

2016-11-29 16:07:50 2665

原创 Scala基础语法学习笔记

scala学习笔记脚本模式编程object HelloWorld { def main(args: Array[String]) { println("Hello, world!") // prints Hello World }}基础语法区分大小写 - Scala是大小写敏感的，这意味着标识Hello 和 hello在Scala中会有不同的含义。类名 - 对于所有的

2016-11-26 10:07:39 652

原创 Mac OS X安装软件和使用入门

打开终端Terminal－－－搜索或者应用程序－实用工具－－Terminal快捷键command＋H：隐藏窗口；command Q:退出应用程序；commandZ:恢复上一步；commandshift Z:恢复下一步；强制退出无响应程序--Command＋Option＋Ecs剪切-CMD+C复制，按下OPTION+CMD+V粘粘Dock显示不正常使用命令行输入

2016-11-25 09:25:00 2774

阿里平台MR

阿里菜鸟仓库比赛说明

R语言的参考卡片

MATLAB神经网络原理与实例精解pdf

Ambari安装

Hive编程指南

HADOOP实战__陆嘉恒著

空空如也