sheldonwong-CSDN博客

转载 Python-在Unicode和普通字符串之间转换

1.1. 问题 ProblemYou need to deal with data that doesn't fit in the ASCII character set.你需要处理不适合用ASCII字符集表示的数据.1.2. 解决 SolutionUnicode strings can be encoded in plain strings in a variety of way...

2019-01-29 00:29:13 8961 1

简介xLearn 是一款高性能的，易用的，并且可扩展的机器学习算法库，你可以用它来解决大规模机器学习问题，尤其是大规模稀疏数据机器学习问题。在近年来，大规模稀疏数据机器学习算法被广泛应用在各种领域，例如广告点击率预测、推荐系统等。如果你是 liblinear、libfm、libffm 的用户，那么现在 xLearn 将会是你更好的选择，因为 xLearn 几乎囊括了这些系统的全部功能，并且具有...

2018-12-17 13:39:19 2169

原创 linux常用命令

1. curlcurl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -X POST http://localhost:3000/datacurl usageFor sending data with POST and PUT requests, these are common...

2018-11-17 19:58:12 188

原创 Hadoop14-Spark常用

python接口环境：from pyspark import SparkContext, SparkConfconf = SparkConf().setAppName(appName).setMaster(master)sc = SparkContext(conf=conf)rdddata = [1, 2, 3, 4, 5]distData = sc.parallel...

2018-11-08 21:24:46 152

原创 Hadoop13-Hive常用

创建表CREATE EXTERNAL TABLE test.user_info(id INT,uid STRING,item_id STRING,behavior_type INT,item_category STRING,visit_date DATE,province STRING) COMMENT 'user information!' ROW FORMAT DELIMITED F...

2018-11-08 21:17:57 111

转载程序员知识管理

前言本文从一个程序员的视角来讨论知识管理，包括以下几个方面：什么是知识管理为什么要管理知识如何管理知识什么是知识管理个人知识管理（Personal Knowledge Management）：一般指个人通过工具建立知识体系并不断完善，进行知识的收集、消化吸收和创新的过程。知识管理的范围很广，一般的知识管理方法可以参考这篇文章个人知识管理的方法。为什么要管理知识...

2018-10-27 16:43:12 285

原创 Leetcode382-随机抽样

Given a singly linked list, return a random node's value from the linked list. Each node must have the same probability of being chosen.Follow up:What if the linked list is extremely large and its ...

2018-10-27 16:27:18 392

原创数据结构与算法-图

1. 图图是由点和变构成的图的分类无向图有向图无权图有权图稀疏图稠密图图的连通性：连通分量简单图：没有平行边和自环边 2. 图的存储邻接矩阵无向图有向图邻接表如何将一个图转换成计算机课存储的方式？1. 把节点列表列出来2. 在邻接表中填邻接节点（在邻接矩阵中填充邻接...

2018-10-11 10:58:46 155

原创 LeetCode11-盛水最多的容器

题目：给定一个高度数组，找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。思路1. 暴力解法由于题目中，要求的是找出其中的两条线，与x轴构成的容器，也就是说，找出数组中所有可能的两个高度的组合，很显然有种组合。具体的遍历思路[0] [1-n][1] [2-n]...代码：class Solution { public int ...

2018-10-04 08:21:02 162

原创机器学习-关于推荐的一点思考

推荐系统的目标是在什么时间，什么地点，用户想看到什么。推荐的过程大概就是recall、rank但是细节会很多，比如recall具体来说怎么做？recall依赖那些东西（特征，统计量），需要为这些统计量做一个服务。rank具体会用到哪些特征？模拟一下数据流程某用户在app端下拉，请求20条新数据1. 后端收到请求，开始从候选池里面recall，候选池肯定不能是全量数...

2018-09-14 22:31:51 190

原创 Hadoop12-Hive

1. 简介与核心概念2. 架构3. 使用4. UDF把phoneNumber转换成地区的UDFimport java.util.HashMap;import org.apache.hadoop.hive.ql.exec.UDF;public class PhoneNbrToArea extends UDF{ private static HashMap<S...

2018-09-14 20:00:54 116

原创 Hadoop11-Kafka

1. 核心概念简介Broker：Kafka 集群包含一个或多个服务器，这种服务器被称为 broker。Topic：每条发布到 Kafka 集群的消息都有一个类别，这个类别被称为 Topic。（物理上不同 Topic 的消息分开存储，逻辑上一个 Topic 的消息虽然保存于一个或多个 broker 上，但用户只需指定消息的 Topic 即可生产或消费数据而不必关心数据存于何处）。Part...

2018-09-14 19:16:05 326

原创 Hadoop10-Spark初步认识

1. Spark简介数据分布式。操作并行化，Spark 会自动将函数（比如 line.contains("Python")）发到各个执行器节点上。这样，你就可以在单一的驱动器程序中编程，并且让代码自动运行在多个节点上。在分布式环境下， Spark 集群采用的是主 / 从结构。在一个 Spark 集群中，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器...

2018-09-14 11:55:44 181

原创 Hadoop8-HDFS设计与实现

1. HDFS是为大数据集设计的一种可扩展、高可用、高可靠的分布式文件系统，适合一次写入，多次读的场景。2. HDFS重要组件 2.1 NameNode 2.1.1 元信息逻辑：Namespace的组织，命名空间物理：存储在磁盘上的edit log和fsima...

2018-09-10 10:49:20 274

原创 Hadoop9-MapReduce原理

首先来看一下MapReduce的整体流程（图片来源：https://haritbigdata.wordpress.com/2015/07/21/hadoop-inside-mapreduce-process-of-shuffling-sorting-part-ii/）1. Read阶段：先切片，再调用RecorderReader将切片数据解析成一个个kv，其中key是某行的起始偏移量，...

2018-09-09 13:19:18 181

原创搭建大数据环境

1. 下载镜像地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop 2.6.3 spark-2.0.2-bin-hadoop-2.6scala-2.11.8sbt-0.13.15hive-1.2.2mysqlflume-1.6zookeeper-3.4.11kafka_2.11-0.10.2.1sto...

2018-09-04 23:17:40 193

原创算法心得-树和递归

一直觉得算法挺难的，也不知道问题出在哪，想了下，其实可以分为两个方面1. 分析问题2. 将分析转化为代码的能力比如整数划分问题，题目是把一个整数划分成若干个数，使得这若干个数的乘积最大上面是分析的问题，下面分析映射到的代码 for i in range(n): res = max(res,i*(n-i),i*func(n-i))可以看到，每个分...

2018-08-26 23:59:47 204

原创机器学习-NLP

最近做了些关于NLP中文本分类的工作，记录一下相关知识。1. Representation - 文本的表示Word Representation-词的表示one hot：首先根据语料库corpus构建词典，假设词典长度为T，那么那么每个词就可以用一个one hot向量表示。word2vec：把一个词映射成一个M维向量，可以用来处理相似度，分类等问题Text Representa...

2018-08-24 16:44:35 1179

转载机器学习-PCA

协方差矩阵计算总结一下PCA的算法步骤：设有m条n维数据。1）将原始数据按列组成n行m列矩阵X2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值3）求出协方差矩阵C=1mXX

2018-08-23 16:39:23 122

原创机器学习2-推荐系统

问题TopKCTR 步骤FeatureRecall基于热度，基于用户兴趣标签，基于CF，基于FMSortLR，GBDT，GBDT+LR，FM，DNNAD 评价指标Accuracy：预测正确的样本/总样本Precision：预测为正类正确的样本数/预测为正类的样本数Recall：预测为正类正确的样本/实际为正类的样本F1：P和R的调和均...

2018-08-23 10:37:13 247

原创机器学习1-简介

问题步骤1. 准备数据(数据探索)2. 分析问题（分类，回归，聚类）3. 特征工程（特征选择，新特征构建，特征降维）这里的特征其实表示，例如用Bow表示一段文本，用TFIDF表示文本，用若干属性构成的向量表示心脏病（特征）低维结构化数据：传统的机器学习分类问题，维度一般很低，可以全部feed给模型。高维结构化数据：非结构化数据：比如文本，通过BOW后会变成高维...

2018-08-23 10:25:55 176

转载大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

一直想整理一下这块内容，既然是漫谈，就想起什么说什么吧。我一直是在互联网行业，就以互联网行业来说。先大概列一下互联网行业数据仓库、数据平台的用途：整合公司所有业务数据，建立统一的数据中心；提供各种报表，有给高层的，有给各个业务的；为网站运营提供运营上的数据支持，就是通过数据，让运营及时了解网站和产品的运营效果；为各个业务提供线上或线下的数据支持，成为公司统一的数据交换与提供平台...

2018-08-10 15:07:07 260

原创 Python-Python操作Excel，邮件，MySQL

1. Python操作Excelopenpyxl=======基本概念介绍，Python定位Excel单元格的中的元素分别是通过workbook，sheet，cell，其中workbook对应于表格，sheet对应于sheet，cell对应于单元格。1.1 读取excel 1.2 写excel======== 2. Python操作邮件官方自带的包popli...

2018-07-21 19:26:10 303

原创 Hadoop2-Hadoop安装与配置

在安装配置大数据环境的时候，一定要注意版本的兼容性。1. JDK环境安装配置2. 设置SSH无密登录 ssh-keygen -t rsacp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys验证：ssh locahost3. 配置Hadoop（hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml）...

2018-07-14 16:16:13 357

原创 Linux使用tips-不定期更新

主要使用的是Ubuntu

2018-07-13 19:28:44 142

转载大数据-常见算法

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom f...

2018-07-13 19:20:45 6158 1

原创大数据-ES学习1-安装配置

1. JAVA环境下载jdk配置2. ES配置，主要是config/jvm.options默认的堆内存是1G，如果内存不够，启动时会报错所以需要把jvm.options的堆内存配置成一个合理的值3. 启动与验证bin/elasticsearchbin/elasticsearch -d4. 安装插件 elasticsearch-headelasticse...

2018-07-12 19:50:15 919

原创大数据-搜索-倒排索引

1. 概念通过一个例子来介绍倒排索引文档1：Tom lives in Guangzhou，I live in Guangzhou too文档2：He once lived in Shanghai正向索引文章ID关键词1guangzhou，i，live，tom 2he，shanghai倒排索引简单点说，倒排索引就是讲包含关键词的文章ID整理出来关键词文章IDguangzhou1 he2i1liv...

2018-07-12 15:52:16 375

原创切换工作平台的思考

之前的开发工作主要是在Ubuntu上完成的，基本习惯了Ubuntu 的种种，虽然也有一些坑，但是基本都能解决，最近切换到了Mac平台工作，变化颇多，以此记录一下切换平台过程中遇到的坑。1. Mac的基本使用终端：commad+空格调出spotlight，再输入ter，回车command+T 在终端中新建选项卡终端快捷键设置文件系统打开finder->偏...

2018-07-08 10:19:42 522

转载大数据组件常见端口-Hadoop、Hbase、Hive、Spark、Kafka等

常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口Zookeeper: 2181 ：客户端连接zookeeper的...

2018-04-13 19:53:23 3325

原创机器学习1-朴素贝叶斯

1. 算法计算先验概率P(Y=ck)计算条件概率P(Xi=xi|Y=ck)对于给定的实例计算后验概率P(Y=ck)P(xi=xi|Y=ck)，取后验概率最大的作为实例的分类2. 例子数据集 123456789101112131415X1111112222233333X2SMMSSSMMLLLMMLLY-1-111-1-1-11111111-13. 原理假设已知特征向量X=x，要求这个特征对应的类别...

2018-04-07 00:20:37 204

原创决策树

1. 决策树的生成过程输入：训练集D，特征集A，阈值e输出：决策树Tif 遇到终止条件（D中所有样例的类别均为Ck，A=∅） return 类别标签else: 根据公式计算信息增益，选择信息增益最大的作为最优特征Ag 如果信息增益小于阈值e，在训练集D中进行投票，决定当前节点的类别否则，对于训练集D，以特征Ag为标准，将其划分成若干个非空子集Di，构建子节点。遍历...

2018-04-03 22:26:04 156

原创一些简单的记录

开坑填坑：把机器学习的常用算法实现一遍决策树，朴素贝叶斯，LR，SVM，NN，KNN，KMeans硬实力：算法&数据结构，机器学习，大数据，系统设计，Linux软实力：。。。书籍：机器学习：PRML统计学习方法机器学习实战深度学习大数据：Spark快速大数据分析Spark源码剖析Hadoop技术内幕（3）Hbase分布式一致性ZookeeperHiveKafka大型网站技术架构推荐系统：推...

2018-03-28 20:43:28 135

原创机器学习简介（传统、新兴、大规模机器学习）

机器学习主要是用来预测，根据已有的数据，对未知的数据做出决策（也可以是对已有的数据聚类），如果已有的数据是带标签的，就是监督学习，无标签的，就是无监督学习。分类任务如果是预测类别，那就是分类，分类任务是研究的比较久，也比较成熟的一个任务，例如传统的手写体识别任务就是一个10分类问题、计算机视觉中的物体识别、人脸识别。再比如情感分析中的情感分类（喜怒哀乐）。股市的涨跌。点击预测（二分

2018-01-30 20:54:06 1343

原创动态规划2-Leetcode343-integerBreak

1. 题目将一个整数划分成若干个整数的和，使得这若干个整数乘积最大。2. 思路这个题可以用递归去解，因为各种划分可以表示成一棵递归树。自顶向下的递归：先来看一个简单的例子，当n等于4时：可以使用动态规划解决的问题，一般都具有重叠子问题，我们只需要求出这些重叠子问题的最优解就可以了。什么是子问题？要求出n的integerBreak，那么只需要求出i

2018-01-14 16:13:44 206

原创动态规划1-Leetcode70-Climb Stairs

1. 题目青蛙每次可以跳一个台阶或者两个台阶，问跳上n个台阶有多少种跳法2. 思路自顶向下思考：假如是10层台阶，那么我们只需要知道跳上9层台阶和8层台阶各有多少种跳法，要知道跳上9层台阶有多少种跳法，我们只需要知道跳上8层台阶和7层台阶有多少种跳法，要知道跳上8层台阶有多少种跳法，我们只需要知道跳上7层台阶和6层台阶有多少种跳法，依次类推...跳上第2层台阶有2种...

2018-01-14 15:52:18 173

原创 Java集合框架

1. 分类Collection（一组对立的元素）List（有顺序）Set（不能有重复元素，无序）Queue（保存队列先进先出的顺序）Map（键值对）1. Interface Iterable迭代器接口，这是Collection类的父接口。实现这个Iterable接口的对象允许使用foreach进行遍历，也就是说，所有的Collection集合

2018-01-11 11:36:12 131

原创机器学习0-目录

先挖个坑数学基础0.1 微积分0.2 概率论与统计0.3 线性代数与矩阵0.4 优化理论0.5 机器学习基础（概念、分类、应用）分类1. Regression2. KNN3. NaiveBayes4. DecisionTree（ID3.0，C4.5，CART，Ensemble Learning，Boosting，Random Forest，GBD

2018-01-04 15:29:55 147

原创 Leetcode102-Binary Tree Level Order Traversal（107,103，199）

题目二叉树层次遍历For example:Given binary tree [3,9,20,null,null,15,7], 3 / \ 9 20 / \ 15 7return its level order traversal as:[ [3], [9,20], [15,7]]思路

2017-12-28 10:40:13 154

原创 Leetcode341-Flatten Nested List Iterator

题目：设计一个迭代器，输入形如 [[1,1],2,[1,1]] 重复调用next直到hasNext返回false，next返回的顺序应该是[1,1,2,1,1]输入[1,[4,[6]]] 返回[1,4,6]调用形式* NestedIterator i = new NestedIterator(nestedList);* while (i.hasN

2017-12-28 10:35:50 219

Android_开发从入门到精通_IBM

gitolite安装

php代码结构

空空如也