自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 资源 (3)
  • 收藏
  • 关注

转载 Python-在Unicode和普通字符串之间转换

1.1. 问题 ProblemYou need to deal with data that doesn't fit in the ASCII character set.你需要处理不适合用ASCII字符集表示的数据.1.2. 解决 SolutionUnicode strings can be encoded in plain strings in a variety of way...

2019-01-29 00:29:13 8961 1

原创 xlearn初探

简介xLearn 是一款高性能的,易用的,并且可扩展的机器学习算法库,你可以用它来解决大规模机器学习问题,尤其是大规模稀疏数据机器学习问题。在近年来,大规模稀疏数据机器学习算法被广泛应用在各种领域,例如广告点击率预测、推荐系统等。如果你是 liblinear、libfm、libffm 的用户,那么现在 xLearn 将会是你更好的选择,因为 xLearn 几乎囊括了这些系统的全部功能,并且具有...

2018-12-17 13:39:19 2169

原创 linux常用命令

1. curlcurl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -X POST http://localhost:3000/datacurl usageFor sending data with POST and PUT requests, these are common...

2018-11-17 19:58:12 188

原创 Hadoop14-Spark常用

python接口环境:from pyspark import SparkContext, SparkConfconf = SparkConf().setAppName(appName).setMaster(master)sc = SparkContext(conf=conf)rdddata = [1, 2, 3, 4, 5]distData = sc.parallel...

2018-11-08 21:24:46 152

原创 Hadoop13-Hive常用

创建表CREATE EXTERNAL TABLE test.user_info(id INT,uid STRING,item_id STRING,behavior_type INT,item_category STRING,visit_date DATE,province STRING) COMMENT 'user information!' ROW FORMAT DELIMITED F...

2018-11-08 21:17:57 111

转载 程序员知识管理

前言本文从一个程序员的视角来讨论知识管理,包括以下几个方面:什么是知识管理 为什么要管理知识 如何管理知识什么是知识管理个人知识管理(Personal Knowledge Management):一般指个人通过工具建立知识体系并不断完善,进行知识的收集、消化吸收和创新的过程。知识管理的范围很广,一般的知识管理方法可以参考这篇文章 个人知识管理的方法。为什么要管理知识...

2018-10-27 16:43:12 285

原创 Leetcode382-随机抽样

Given a singly linked list, return a random node's value from the linked list. Each node must have the same probability of being chosen.Follow up:What if the linked list is extremely large and its ...

2018-10-27 16:27:18 392

原创 数据结构与算法-图

1. 图图是由点和变构成的 图的分类无向图有向图 无权图有权图 稀疏图稠密图 图的连通性:连通分量简单图:没有平行边和自环边 2. 图的存储邻接矩阵无向图有向图 邻接表  如何将一个图转换成计算机课存储的方式?1. 把节点列表列出来2. 在邻接表中填邻接节点(在邻接矩阵中填充邻接...

2018-10-11 10:58:46 155

原创 LeetCode11-盛水最多的容器

题目:给定一个高度数组,找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。思路1. 暴力解法由于题目中,要求的是找出其中的两条线,与x轴构成的容器,也就是说,找出数组中所有可能的两个高度的组合,很显然有种组合。具体的遍历思路[0] [1-n][1] [2-n]...代码:class Solution { public int ...

2018-10-04 08:21:02 162

原创 机器学习-关于推荐的一点思考

推荐系统的目标是在什么时间,什么地点,用户想看到什么。 推荐的过程大概就是recall、rank但是细节会很多,比如recall具体来说怎么做?recall依赖那些东西(特征,统计量),需要为这些统计量做一个服务。rank具体会用到哪些特征?模拟一下数据流程某用户在app端下拉,请求20条新数据1. 后端收到请求,开始从候选池里面recall,候选池肯定不能是全量数...

2018-09-14 22:31:51 190

原创 Hadoop12-Hive

1. 简介与核心概念2. 架构3. 使用4. UDF把phoneNumber转换成地区的UDFimport java.util.HashMap;import org.apache.hadoop.hive.ql.exec.UDF;public class PhoneNbrToArea extends UDF{ private static HashMap<S...

2018-09-14 20:00:54 116

原创 Hadoop11-Kafka

1. 核心概念简介Broker:Kafka 集群包含一个或多个服务器,这种服务器被称为 broker。Topic:每条发布到 Kafka 集群的消息都有一个类别,这个类别被称为 Topic。(物理上不同 Topic 的消息分开存储,逻辑上一个 Topic 的消息虽然保存于一个或多个 broker 上,但用户只需指定消息的 Topic 即可生产或消费数据而不必关心数据存于何处)。Part...

2018-09-14 19:16:05 326

原创 Hadoop10-Spark初步认识

1. Spark简介数据分布式。操作并行化,Spark 会自动将函数(比如 line.contains("Python"))发到各个执行器节点上。这样,你就可以在单一的驱动器程序中编程,并且让代码自动运行在多个节点上。在分布式环境下, Spark 集群采用的是主 / 从结构。在一个 Spark 集群中,有一个节点负责中央协调, 调度各个分布式工作节点。这个中央协调节点被称为驱动器...

2018-09-14 11:55:44 181

原创 Hadoop8-HDFS设计与实现

1. HDFS是为大数据集设计的一种可扩展、高可用、高可靠的分布式文件系统,适合一次写入,多次读的场景。2. HDFS重要组件    2.1 NameNode        2.1.1 元信息                         逻辑:Namespace的组织,命名空间                         物理:存储在磁盘上的edit log和fsima...

2018-09-10 10:49:20 274

原创 Hadoop9-MapReduce原理

首先来看一下MapReduce的整体流程(图片来源:https://haritbigdata.wordpress.com/2015/07/21/hadoop-inside-mapreduce-process-of-shuffling-sorting-part-ii/)1. Read阶段:先切片,再调用RecorderReader将切片数据解析成一个个kv,其中key是某行的起始偏移量,...

2018-09-09 13:19:18 181

原创 搭建大数据环境

1. 下载镜像地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop 2.6.3 spark-2.0.2-bin-hadoop-2.6scala-2.11.8sbt-0.13.15hive-1.2.2mysqlflume-1.6zookeeper-3.4.11kafka_2.11-0.10.2.1sto...

2018-09-04 23:17:40 193

原创 算法心得-树和递归

一直觉得算法挺难的,也不知道问题出在哪,想了下,其实可以分为两个方面1. 分析问题2. 将分析转化为代码的能力 比如整数划分问题,题目是把一个整数划分成若干个数,使得这若干个数的乘积最大上面是分析的问题,下面分析映射到的代码      for i in range(n): res = max(res,i*(n-i),i*func(n-i))可以看到,每个分...

2018-08-26 23:59:47 204

原创 机器学习-NLP

最近做了些关于NLP中文本分类的工作,记录一下相关知识。1. Representation - 文本的表示Word Representation-词的表示one hot:首先根据语料库corpus构建词典,假设词典长度为T,那么那么每个词就可以用一个one hot向量表示。word2vec:把一个词映射成一个M维向量,可以用来处理相似度,分类等问题Text Representa...

2018-08-24 16:44:35 1179

转载 机器学习-PCA

 协方差矩阵计算 总结一下PCA的算法步骤:设有m条n维数据。1)将原始数据按列组成n行m列矩阵X2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值3)求出协方差矩阵C=1mXX

2018-08-23 16:39:23 122

原创 机器学习2-推荐系统

问题TopKCTR 步骤FeatureRecall基于热度,基于用户兴趣标签,基于CF,基于FMSortLR,GBDT,GBDT+LR,FM,DNNAD 评价指标Accuracy:预测正确的样本/总样本Precision:预测为正类正确的样本数/预测为正类的样本数Recall:预测为正类正确的样本/实际为正类的样本F1:P和R的调和均...

2018-08-23 10:37:13 247

原创 机器学习1-简介

问题 步骤1. 准备数据(数据探索)2. 分析问题(分类,回归,聚类)3. 特征工程(特征选择,新特征构建,特征降维)这里的特征其实表示,例如用Bow表示一段文本,用TFIDF表示文本,用若干属性构成的向量表示心脏病(特征)低维结构化数据:传统的机器学习分类问题,维度一般很低,可以全部feed给模型。高维结构化数据:非结构化数据:比如文本,通过BOW后会变成高维...

2018-08-23 10:25:55 176

转载 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。先大概列一下互联网行业数据仓库、数据平台的用途:整合公司所有业务数据,建立统一的数据中心; 提供各种报表,有给高层的,有给各个业务的; 为网站运营提供运营上的数据支持,就是通过数据,让运营及时了解网站和产品的运营效果; 为各个业务提供线上或线下的数据支持,成为公司统一的数据交换与提供平台...

2018-08-10 15:07:07 260

原创 Python-Python操作Excel,邮件,MySQL

1. Python操作Excelopenpyxl=======基本概念介绍,Python定位Excel单元格的中的元素分别是通过workbook,sheet,cell,其中workbook对应于表格,sheet对应于sheet,cell对应于单元格。1.1 读取excel 1.2 写excel======== 2. Python操作邮件官方自带的包popli...

2018-07-21 19:26:10 303

原创 Hadoop2-Hadoop安装与配置

在安装配置大数据环境的时候,一定要注意版本的兼容性。1. JDK环境安装配置2. 设置SSH无密登录    ssh-keygen -t rsacp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys验证:ssh locahost3. 配置Hadoop(hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml)...

2018-07-14 16:16:13 357

原创 Linux使用tips-不定期更新

主要使用的是Ubuntu

2018-07-13 19:28:44 142

转载 大数据-常见算法

大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 1.Bloom f...

2018-07-13 19:20:45 6158 1

原创 大数据-ES学习1-安装配置

 1. JAVA环境下载jdk配置2. ES配置,主要是config/jvm.options默认的堆内存是1G,如果内存不够,启动时会报错所以需要把jvm.options的堆内存配置成一个合理的值3. 启动与验证bin/elasticsearchbin/elasticsearch -d4. 安装插件 elasticsearch-headelasticse...

2018-07-12 19:50:15 919

原创 大数据-搜索-倒排索引

1. 概念通过一个例子来介绍倒排索引文档1:Tom lives in Guangzhou,I live in Guangzhou too文档2:He once lived in Shanghai正向索引文章ID关键词1guangzhou,i,live,tom 2he,shanghai倒排索引简单点说,倒排索引就是讲包含关键词的文章ID整理出来关键词文章IDguangzhou1   he2i1liv...

2018-07-12 15:52:16 375

原创 切换工作平台的思考

之前的开发工作主要是在Ubuntu上完成的,基本习惯了Ubuntu 的种种,虽然也有一些坑,但是基本都能解决,最近切换到了Mac平台工作,变化颇多,以此记录一下切换平台过程中遇到的坑。1. Mac的基本使用 终端:commad+空格调出spotlight,再输入ter,回车command+T 在终端中新建选项卡终端快捷键设置 文件系统打开finder->偏...

2018-07-08 10:19:42 522

转载 大数据组件常见端口-Hadoop、Hbase、Hive、Spark、Kafka等

常见端口汇总:Hadoop:        50070:HDFS WEB UI端口    8020 : 高可用的HDFS RPC端口    9000 : 非高可用的HDFS RPC端口    8088 : Yarn 的WEB UI 接口    8485 : JournalNode 的RPC端口    8019 : ZKFC端口Zookeeper:    2181 : 客户端连接zookeeper的...

2018-04-13 19:53:23 3325

原创 机器学习1-朴素贝叶斯

1. 算法计算先验概率P(Y=ck)计算条件概率P(Xi=xi|Y=ck)对于给定的实例计算后验概率P(Y=ck)P(xi=xi|Y=ck),取后验概率最大的作为实例的分类2. 例子数据集 123456789101112131415X1111112222233333X2SMMSSSMMLLLMMLLY-1-111-1-1-11111111-13. 原理假设已知特征向量X=x,要求这个特征对应的类别...

2018-04-07 00:20:37 204

原创 决策树

1. 决策树的生成过程输入:训练集D,特征集A,阈值e输出:决策树Tif 遇到终止条件(D中所有样例的类别均为Ck,A=∅)    return 类别标签else:    根据公式计算信息增益,选择信息增益最大的作为最优特征Ag    如果信息增益小于阈值e,在训练集D中进行投票,决定当前节点的类别    否则,对于训练集D,以特征Ag为标准,将其划分成若干个非空子集Di,构建子节点。    遍历...

2018-04-03 22:26:04 156

原创 一些简单的记录

开坑填坑:把机器学习的常用算法实现一遍决策树,朴素贝叶斯,LR,SVM,NN,KNN,KMeans硬实力:算法&数据结构,机器学习,大数据,系统设计,Linux软实力:。。。书籍:机器学习:PRML统计学习方法机器学习实战深度学习大数据:Spark快速大数据分析Spark源码剖析Hadoop技术内幕(3)Hbase分布式一致性ZookeeperHiveKafka大型网站技术架构推荐系统:推...

2018-03-28 20:43:28 135

原创 机器学习简介(传统、新兴、大规模机器学习)

机器学习主要是用来预测,根据已有的数据,对未知的数据做出决策(也可以是对已有的数据聚类),如果已有的数据是带标签的,就是监督学习,无标签的,就是无监督学习。分类任务如果是预测类别,那就是分类,分类任务是研究的比较久,也比较成熟的一个任务,例如传统的手写体识别任务就是一个10分类问题、计算机视觉中的物体识别、人脸识别。再比如情感分析中的情感分类(喜怒哀乐)。股市的涨跌。点击预测(二分

2018-01-30 20:54:06 1343

原创 动态规划2-Leetcode343-integerBreak

1. 题目将一个整数划分成若干个整数的和,使得这若干个整数乘积最大。2. 思路这个题可以用递归去解,因为各种划分可以表示成一棵递归树。自顶向下的递归:先来看一个简单的例子,当n等于4时:可以使用动态规划解决的问题,一般都具有重叠子问题,我们只需要求出这些重叠子问题的最优解就可以了。什么是子问题?要求出n的integerBreak,那么只需要求出i

2018-01-14 16:13:44 206

原创 动态规划1-Leetcode70-Climb Stairs

1. 题目青蛙每次可以跳一个台阶或者两个台阶,问跳上n个台阶有多少种跳法2. 思路自顶向下思考:假如是10层台阶,那么我们只需要知道跳上9层台阶和8层台阶各有多少种跳法,要知道跳上9层台阶有多少种跳法,我们只需要知道跳上8层台阶和7层台阶有多少种跳法,要知道跳上8层台阶有多少种跳法,我们只需要知道跳上7层台阶和6层台阶有多少种跳法,依次类推...跳上第2层台阶有2种...

2018-01-14 15:52:18 173

原创 Java集合框架

1. 分类Collection(一组对立的元素)List(有顺序)Set(不能有重复元素,无序)Queue(保存队列先进先出的顺序)Map(键值对)1. Interface Iterable迭代器接口,这是Collection类的父接口。实现这个Iterable接口的对象允许使用foreach进行遍历,也就是说,所有的Collection集合

2018-01-11 11:36:12 131

原创 机器学习0-目录

先挖个坑数学基础0.1 微积分0.2 概率论与统计0.3 线性代数与矩阵0.4 优化理论0.5 机器学习基础(概念、分类、应用)分类1. Regression2. KNN3. NaiveBayes4. DecisionTree(ID3.0,C4.5,CART,Ensemble Learning,Boosting,Random Forest,GBD

2018-01-04 15:29:55 147

原创 Leetcode102-Binary Tree Level Order Traversal(107,103,199)

题目二叉树层次遍历For example:Given binary tree [3,9,20,null,null,15,7], 3 / \ 9 20 / \ 15 7return its level order traversal as:[ [3], [9,20], [15,7]]思路

2017-12-28 10:40:13 154

原创 Leetcode341-Flatten Nested List Iterator

题目:设计一个迭代器,输入形如 [[1,1],2,[1,1]] 重复调用next直到hasNext返回false,next返回的顺序应该是[1,1,2,1,1]输入[1,[4,[6]]] 返回[1,4,6]调用形式* NestedIterator i = new NestedIterator(nestedList);* while (i.hasN

2017-12-28 10:35:50 219

Android_开发从入门到精通_IBM

Android开发

2017-05-15

gitolite安装

前端时间由于工作需要,要给公司搭建git协作平台,就用的这个。感觉还不错

2014-11-10

php代码结构

php代码结构,如何安排代码,如何设计代码结构,淘宝系资料

2014-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除