自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

松坡的机器学习笔记

公众号:松坡的机器学习笔记(zspo__) 知乎:冰河映寒星 分享自己的机器学习笔记,包括知识点面经、NLP、推荐等等,新手的学习笔记,督促自己巩固与学习。

  • 博客(51)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux下Jupyter中的matplotlib画图中文不显示的问题解决-中文字体

1 下载SimHei.ttf2 找到jupyter的python kernelimport syssys.executable即可显示python的路径3 将SimHei.ttf复制到python路径下的matplotlib下面cp SimHei.ttf {python_path}/lib/python3.6/site-packages/matplotlib/mpl-data/fonts/ttf/4 找到matplotlib的缓存路径import matplotlibprint(mat

2021-03-04 10:43:46 665 1

原创 pandas ValueError: Wrong number of items passed 6, placement implies 0

ValueError: Wrong number of items passed 6, placement implies 0我的解决方法就是升级了pandas版本之前是0.24.1的,然后升级到1.0.5

2021-02-26 12:01:16 2168 2

原创 Word2Vec 学习笔记(CS224N笔记及相关论文学习)

参考CS224N笔记The Skip-Gram Modelword2vec papernegative sampling paperNLP  人类语言是独特的传达含义的系统,不同于计算机视觉及其他的机器学习任务。  NLP领域有着不同难度等级的任务,从语音处理到语义解释等。NLP的目标是设计出算法令计算机“理解”自然语言以解决实际的任务。Easy的任务包括:拼写纠正、关键词搜索、同义词查找等;Medium的任务包括:信息解析等;Hard任务包括:机器翻译、情感分析、指代、问答系统等。

2020-06-16 19:55:38 404

原创 Spark学习笔记:五、Spark编程基础

一、RDD创建RDD可以通过两种方式创建: 1、读取一个外部数据集。比如,从本地文件加载数据集,或者从HDFS文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件(Hadoop提供的 SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件)和其他符合Hadoop I...

2020-06-16 08:56:00 355

原创 Spark学习笔记:四、WordCount字频统计入门程序(基于IntelliJ IDEA使用Scala+SBT)

一、环境准备:Ubuntu16.04 IDEA Ultimate(破解版、教育版) Java JDK 1.8 Hadoop2.7 (伪单机模式) Spark 2.1.0Hadoop与Spark的安装过程本文省略二、IDEA + SBTIDEA安装Scala插件(自带sbt),新建scala sbt项目 配置项目中的build.sbtname := "SBTTest...

2020-06-16 08:55:46 524

原创 Spark学习笔记:三、RDD原理

一、RDD原理:一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算。RDD提供了一组丰富的操作以支持常见的数据运算,分为“行动”(Action)和“转换”(Transformation)两种类型,前者用于执行计算并指定输出的...

2020-06-16 08:55:33 1003

原创 Spark学习笔记:二、Spark运行架构

一、基本概念RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型; DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系; Executor:是运行在工作节点(Worker Node)上的一个进程,负责运行任务,并为应用程序存储数据; 应...

2020-06-16 08:55:09 301

原创 Spark学习笔记:一、Spark简介

1、Spark简介Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark作为大数据计算平台的后起之秀,在2014年打破了Hadoop保持的基准排序(Sort Benchmark)纪录,使用206个节点...

2020-06-16 08:54:56 445

原创 【斯坦福CS224N学习笔记】01-Introduction and Word Vectors

CS224N-01-Introduction and Word VectorsCS224N Home 【Stanford NLP】Video 【Bilibili】1、Human language and word meaning第一部分从传统的词表示引入到word vector,传统的表示方式是独热编码,有分布式语义产出词向量。XKCD cartoonDefinition: meaning (Webster dictionary)Common solution: WordNetProb

2020-06-12 17:20:06 245

原创 【推荐系统实践-03】推荐系统冷启动

项亮老师的《推荐系统实践》学习笔记​。目录1、冷启动问题简介2、利用用户注册信息3、选择合适的物品启动用户的兴趣4、利用物品的内容信息5、发挥专家的作用推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就成为推荐系统的重要组成部分和先决条件。但是对于很多在开始阶段就希望有个性化推荐应用的网站来说,对于没有大量的用户数据的情况下,就需要考虑冷启动...

2019-12-31 09:59:35 337

原创 【推荐系统实践-02】利用用户行为数据(协同过滤)

项亮老师的《推荐系统实战》学习笔记​。​目录用户行为数据简介用户行为分析用户活跃度和物品流行度的分布用户活跃度和物品流行度的关系基于邻域的算法基于用户的协同过滤算法基于物品的协同过滤算法UserCF和ItemCF的比较隐语义模型基于图的模型为了让推荐结果符合用户口味,我们需要深入了解用户。基于用户行为分析的推荐算法是个性化推荐系统的重要算法,学术界一般将这...

2019-12-30 13:07:31 722

原创 【推荐系统实践-01】推荐系统简介

项亮老师的《推荐系统实战》学习笔记​。​目录1、什么是推荐系统2、个性化推荐系统应用场景3、推荐系统评测推荐系统实验方法离线实验用户调查在线实验评测指标用户满意度预测准确度覆盖率多样性新颖性惊喜度信任度实时性健壮性商业目标总结评测维度1、什么是推荐系统如果用户有明确的需求,可以通过商家的商品分类、指示牌、自己的搜索等方式来找寻自己...

2019-12-30 09:57:56 631

原创 【ML-QA-02】支持向量机SVM中常见的面试问题QA

以下只是将知识点QA化,不要为了面试硬背答案,还是先得好好看书Q-List:简要介绍一下SVM支持向量机包含几种模型什么是支持向量SVM为什么采用间隔最大化SVM的参数(C,ξ,γ\gammaγ)Linear SVM和LR的异同SVM和感知机的区别感知机的损失函数SVM的损失函数SVM怎么处理多分类SVM可以处理回归问题吗为什么把原问题转换为对偶问题为什么求解对偶问...

2019-12-24 09:35:57 1569

原创 【ML-QA-01】机器学习中的模型评估

没有测量,就没有科学 ——门捷列夫原本之前的知识点总结里面没有太多关于模型评估的内容,QA这部分开始也没打算单独整理出来模型评估的部分。不过考虑到一个模型的评估指标是一个机器学习任务核心的部分,需要清楚各类机器学习任务的评估指标,那就汇总整理一下。评估指标评估方法评估指标机器学习的问题主要有分类、回归、聚类等等当我们选择评估指标的时候,要考虑具体的任务目标,要考虑具体的数据样本。...

2019-12-22 20:38:29 825

原创 机器学习知识点QA

浮沙之上,勿筑高台自己整理的笔记文章内容都是自己从自学机器学习以来涉及到的一些知识点、经历等等,包括研一上学期默默的学习机器学习理论知识,从李航老师的 《统计学习方法》 和周志华老师的 《机器学习》 西瓜书一步步地入门机器学习领域。这两本书从研一到确认工作陪伴了我两年,从入门学习到面试准备时都给予了我很大的帮助,以后这两本书也要经常的回头看看。理论学习后参加的数据挖掘类竞赛以及幸运的实习经历,...

2019-12-22 20:36:20 695

原创 Mysql将txt文件导入数据库采坑 load data local infile

使用mysql的load data local infile语句将 txt csv 等等文件导入导数据库中文件字段之间用 '\t' ',' 等等分隔符行与行之间用 '\n'等分割符 (注意Windows下与Linux下换行符的区别, '\r\n'或者'\n')load data local infile 文件路径 into table 表名 fields terminated by 字段...

2019-03-26 16:49:38 1486

原创 数据库查询结果直接导入文件

mysql -hlocalhost -uroot -ppassword console_v2 --default-character-set=utf8 -e “select * from ad left join ad_schedule s on ad.id = s.ad_id” > ‘/data1/dataservice/zsp/ad_info.txt’

2018-12-29 18:50:39 411

原创 Linux-awk命令学习整理

awk命令学习整理1、对文件进行百分之一的采样,即每100行采样一次:cat sample.txt | awk 'BEGIN{n=0}{n++;if(n%100==1)print $0}' >sample_new.txtcat:文本输出|:管道,把前面的信息传到后面去awk:‘{}’,引号BEGIN:{}条件开始print:打印(输出)想要的内容$0:表示我要一整行的数据(...

2018-10-11 10:41:20 336

原创 荷兰国旗问题

package Some_Algorithm;/** * Author: songpo.zhang * Date: 2018/8/29 * Target: * 荷兰国旗问题 */public class NetherlandsFlag { /** * * @param arr * @param num */ publi...

2018-08-29 20:15:30 181

原创 VMware安装虚拟机提示句柄无效、vmci.sys不正确、模块“DevicePowerOn”启动失败 问题解决

1、在虚拟机安装文件夹里找到 .vmx 后缀的文件; 2、右键用记事本或者 notepad++ 打开这个文件;3、找到 vmci0.present = "TRUE" 这一行,将TRUE 改为 FALSE,保存好搞定。...

2018-08-18 11:56:35 8575

原创 Python列表生成器与生成器

一、列表生成器列表生成式即List Comprehensions>>>list(range(1,5))[1, 2, 3, 4]>>>[x * x for x in range(1, 5)] // 即直接生成x平方的列表[1, 4, 9, 16]// 加判断 只生成偶数的平方[x * x for x in range(1, 11) ...

2018-08-16 19:26:10 335

原创 Hadoop fs 常用命令

常用命令:hadoop fs -ls hdfs_path //查看HDFS目录下的文件和子目录hadoop fs -mkdir hdfs_path //在HDFS上创建文件夹hadoop fs -rm hdfs_path //删除HDFS上的文件hadoop fs -rmr hdfs_path //删除HDFS上的文件夹hadoop fs -put local_file hdf...

2018-08-15 13:49:09 4100

原创 Hive SQL(HQL)常用语法学习整理

更行中create database if not exists hive;create table if not exists hive.usr( name string comment 'username', pwd string comment 'password', address struct<street:string,city:

2018-08-14 15:57:17 1279

原创 剑指Offer:从尾到头打印链表

输入一个链表,按链表值从尾到头的顺序返回一个ArrayList。import java.util.ArrayList;import java.util.Collections;public class Solution { public ArrayList<Integer> printListFromTailToHead(ListNode listNode) { ...

2018-08-13 16:00:48 135

原创 剑指Offer:替换空格

请实现一个函数,将一个字符串中的每个空格替换成“%20”。例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。Python:# -*- coding:utf-8 -*-class Solution: # s 源字符串 def replaceSpace(self, s): # write code here ...

2018-08-13 15:46:16 140

原创 剑指Offer:二维数组中的查找

在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。public boolean Find(int target, int[][] matrix) { if (matrix == null || matrix.length == 0 || matrix[0].length ...

2018-08-13 15:32:20 164

原创 GitHub如何下载clone指定的tag

如上图,我想下载Tags标签为solution-4 的代码,如何处理呢? 命令如下:git clone --branch solution-4 [email protected]:zspo/learngit.gitgit clone --branch [tags标签] [git地址]...

2018-08-12 19:22:19 14440 1

原创 Java获得数组的最大值(最小值)及对应的索引

获得最大值及最大值索引public static int[] getMaxIndex(int[] arr) { if(arr==null||arr.length==0){ return null;//如果数组为空 或者是长度为0 就返回null } int maxIndex=0;//假设第一个元素为最大值 那么下标设为0...

2018-08-12 19:02:39 15441

原创 Scala小案例:WordCount

wordcount目录下有两个文件:word1.txt、word2.txt 程序的目的就是统计这两个文件中单词的数量 其中word1.txt中内容为:Hello World Hello ScalaScala LearningFor SparkScalaword2.txt中内容为:Hello JavaPython ScalaFor SparkSpark Learning...

2018-08-09 15:32:30 407

原创 Scala:基本数组结构

定长数组:val intValueArr = new Array[Int](3) //声明一个长度为3的整型数组,每个数组元素初始化为0intValueArr(0) = 12 //给第1个数组元素赋值为12intValueArr(1) = 34 //给第2个数组元素赋值为34intValueArr(2) = 56 //给第3个数组元素赋值为56需要注意的是,在Scala中,对...

2018-08-09 09:17:48 231

原创 Python--OS模块的一些方法学习笔记

OS模块用来处理文件及目录1、os.walk()os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]])top : 需要遍历的目录地址 返回的是一个三元组(root,dirs,files) : root 所指的是当前正在遍历的这个文件夹的本身的地址 dirs 是一个 list ,内容是该文件夹中所有的目...

2018-08-05 16:57:51 189

原创 2018.08.03上海京东算法实习生面试

总共两位面试官两轮面试基本上是看着简历来问1、介绍一下参加的比赛,从头到尾讲一遍,问用到的lightgbm调了哪些参数,参数当时是怎么调的,讲了一下bagging、stacking的原理。2、画RF随机森林的原理图,怎么构建的,讲了随机森林的原理。3、了解xgboost吗,讲一下。4、问了一个Python的问题,截取字符串5、Java会多少,Scala会多少,Sql会多...

2018-08-05 10:28:43 488

原创 module 'tensorflow.contrib.rnn' has no attribute 'core_run_cell' 'BasicLSTMCell'

module ‘tensorflow.contrib.rnn’ has no attribute ‘core_run_cell’tf.contrib.rnn.core_run_cell.BasicLSTMCell()直接改成tf.contrib.rnn.BasicLSTMCell()

2018-07-31 10:29:19 518

原创 LeetCode - 14: Longest Common Prefix

public String longestCommonPrefix(String[] strs) { if (strs.length == 0) return ""; String prefix = strs[0]; for (int i = 1; i < strs.length; i++) while (strs[i].indexOf(prefix...

2018-07-25 23:11:40 119

原创 Java学习笔记 - substring()

substring()substring() 方法返回字符串的子字符串。public String substring(int beginIndex)public String substring(int beginIndex, int endIndex)params:beginIndex -- 起始索引(包括)endIndex -- 结束索引(不包括)...

2018-07-25 23:07:18 141

原创 Java学习笔记 - indexOf()

indexOf()indexOf 方法返回一个整数值,指出 String 对象内子字符串的开始位置。如果没有找到子字符串,则返回-1。Java中字符串中子串的查找共有四种方法,如下: 1、int indexOf(String str) :返回第一次出现的指定子字符串在此字符串中的索引。 2、int indexOf(String str, int startIndex):从指定的索引处...

2018-07-25 23:03:16 207

原创 Anything to Learn

1: java、scala、python、sql 2:mysql、linux、hadoop、spark、tensorflow 3:meachine learning、data mining、deep learning、data structures and algorithms 4:kaggle、tianchi、jdata、datafountain、kesci...

2018-07-23 10:46:31 137

原创 LeetCode - 07: Reverse Integer

class Solution { public int reverse(int x) { long result = 0; for(; x != 0; x /= 10) { result = result * 10 + x % 10; } if (result > Integer.M...

2018-07-23 10:35:34 153

原创 LeetCode -09: Palindrome Number

class Solution { public boolean isPalindrome(int x) {// if (x < 0) return false;// int tempX = x;// int reverse = 0;// while (tempX > 0) {// ...

2018-07-23 10:34:49 133

原创 LeetCode -13: Roman to Integer

class Solution { public int romanToInt(String s) { Map<Character, Integer> map = new HashMap<>(); map.put('I', 1); map.put('V', 5); map.put('X', 10); ...

2018-07-23 10:33:08 122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除