自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

轻功水上漂的博客

大数据挖掘、机器学习学习者

  • 博客(17)
  • 收藏
  • 关注

原创 linux下安装anaconda3并使用虚拟环境

问题描述:在服务其上安装anaconda3,并使用虚拟环境。一、安装步骤如下:解压anaconda压缩包: bash Anaconda3-5.3.1-Linux-x86_64.sh 接下来先回车,接收协议,如需改变安装目录如下: 选择是否将anaconda加入环境变量中(这里的局部环境变量,即当前用户,如果要加入全集变量这里选择no ) 安装成功后,无论是...

2019-05-25 17:52:09 4507 7

原创 解决linux与Windows系统中matplotlib和seaborn画图时中文乱码问题(实测有效)。

运行环境:python3.7 Linux Centos7 用conda安装的matplotlib与seaborn问题:matplotlib与seaborn画图,无法正常显示中文问题原因:linux操作系统以及matplotlib的字体库中,没有可用的中文字体 matplotlib包默认只支持ASCII码,不支持unicode码解决方法方法一(matplotlib与...

2019-05-02 19:26:42 1330

原创 python读取包含中文的文档出错!

最近在linux系统中使用python读取包含中文的文档,频频出错,出错警告类型如下:因之前在python2中能正常读取,且在本地windows中的python3环境中亦能读取,故确定为linux系统开发环境中python3不能正确读取包含中文的文档。将所需读取的文档转化为utf-8格式后,可正常读取!...

2019-04-08 14:20:36 755

原创 pandas加载csv出错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 0: invalid start

不知道为什么在加载csv文件时出现了编码错误,见鬼了之前一直这样加载都没有问题,花了我半个多小时才折腾出了答案,郁闷。加载文件指令:test=pd.read_csv(r'F:\book_list_1.csv',sep=',',names=['book_id','book_name','author'],skiprows=1)出现的错误:UnicodeDecodeError: '...

2019-02-27 20:26:06 21728 3

原创 scala中的foldLeft学习

闲来无事,在stackoverflow上看代码玩,偶尔发现一个之前没有用过的函数--foldLeft函数。现做记录如下:val sourceDF = Seq( (" p a b l o", "Paraguay"), ("Neymar", "B r asil")).toDF("name", "country")val actualDF = Seq( &qu

2019-02-26 21:40:16 1140

原创 mysql启动问题-ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock'

很久没登录的虚机再次登录其上的mysql时在启动时遇到以下问题:一番搜索后发现是mysql服务器找不到连接的套字节文件。(连接localhost通常通过一个Unix域套接字文件进行,一般是/tmp/mysql.sock。如果套接字文件被删除了,本地客户就不能连接。这可能发生在你的系统运行一个cron任务删除了/tmp下的临时文件。如果你因为丢失套接字文件而不能连接,你可以简单地通过重启服务...

2019-01-08 11:00:06 6098

原创 YARN/Mesos调研

博文1:Apache YARN/Mesos与Google Borg差距多远?http://dongxicheng.org/mapreduce-nextgen/yarn-mesos-borg/ 16月 08 .15年目前看来,Mesos/YARN的架构和设计上,与Google Borg仍有一定的差距,但需要注意的是,很多细节之处,都是tradeoff的结果,很难说哪种机制更适合我们的场景...

2018-10-24 14:14:46 615

原创 centos环境下Yum+rmp安装MySQL8.0及5.7+Yum安装MySQL8.0下修改其数据存储目录

在centos上安装mysql着实费了我一番功夫。一番探索后我成功的在4台centos虚机上安装上了mysql,其中三台用yum的方式进行安装,一台用rpm的方式进行安装。现做记录如下:0:检查centos是否有安装mysql和完全卸载mysql查看MySQL是否安装:yum list installed mysql*或者:rpm -qa | grep -i mysql...

2018-09-11 14:55:28 2615

原创 ALS推荐算法学习总结

在完成基于大数据平台的图书馆推荐系统后,最近把学习的中心放在机器学习上面。在接下来的几个月中,希望自己能弄明白常见机器学习算法的原理,并且能在spark平台上进行实践。在我的机器学习学习和实践之路的一个本书是《Spark机器学习》,这本书虽然比较旧,但是写的还是比较好。书里讲了各种常见的机器学习算法,并且在spark平台上进行了实战。在学习到此书第四章--构建基于spark的推荐系统引擎时觉得...

2018-09-03 15:14:52 21811

原创 datasSet学习

1、dataset官方定义:A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel using functional or relational operations.Each Dataset also has an untyped vie...

2018-08-28 16:51:24 197

原创 基于Hadoop与Spark大数据平台的个性化图书推荐系统搭建学习总结

前言:这两个月来一直在接手实验室师兄的一个图书推荐项目,期间从读懂其用pyspark代码到将其代码修改成pyspark、scala代码在spark大数据平台上运行实现相应的功能对于我这样一个无人指点的小白可谓是历经了一凡坎坷,现在做记录如下。一、spark分布式平台运到的坑用spark-submit提交pyspark代码没有按预期运行分布式模式 分布式平台(hadoop+spark)...

2018-08-19 15:15:04 10109 4

原创 Uncaught exception while reverting partial writes to file ...(Too many open files)

在用一个新的spark集群 处理业务时,处理的任务量稍微大一点,涉及到较多的map和reduce的任务式就会报下列错误: 开始以为是spark集群的内存没给够,因为在另一个更大集群中和自己只有6g的单机上跑都没有问题,但尝试加大集群运行内存和集群worker和executor数量后仍然报同样地错误。在技术群里问了一下,有人提示说是centos系统的系统参数没有设置好,沿着这个线索对比了...

2018-08-15 17:12:48 1762

转载 hadoop UI+spark UI

如何进入UI :https://blog.csdn.net/hua_jing/article/details/78433790如何调用spark UI:https://blog.csdn.net/u013013024/article/details/73498508 

2018-07-20 09:45:16 433

原创 半自动安装jieba分词库

python2.x环境安装:全自动安装 :easy_install jieba 或者 pip install jieba 半自动安装 :先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py install手动安装 :将jieba目录放置于当前目录或者site-packages目录 通过import jieba 来引用...

2018-07-12 15:32:17 1240

原创 python爬虫:爬取拉勾网职位并分析

博客内容:爬取拉钩网上的数据并进行分析,参考代码链接为点击打开链接。网页爬取部分:import requests import math import pandas as pd import time def get_json(url,num): '''''从网页获取JSON,使用POST请求,加上头部信息''' #my_headers 是json的一个实例 ...

2018-06-19 21:50:12 1141 1

原创 Hadoop2.7.5 Spark2.3.0 Anaconda2-5.1.0分布式集群搭建

这几天因为学习需要搭建了一个由3个节点组成的hadoop和spark分布式集群,做记录如下(已生成目录,可按需查看)。集群搭建环境及安装软件版本centos6 jdk1.8.0_161 hadoop2.7.5 Spark2.3.0 Scala-2.11.8 Anaconda2-5.1.0 IDEA-2018.1搭建分布式集群的几个主要步骤:下载好搭建分布式集群的软件 修...

2018-06-10 11:05:01 1603

原创 python插入第三方库wordcloud(词云)的步骤和出现的问题

    在利用python做数据分析时,我们常常会用到词语wordcloud这一第三方库来对数据进行可视化分析。下面我便来记录一下自己在导入词语这一库时的步骤及遇到的问题。 由于在pycharm开发环境下直接搜索wordcloud时显示“Nothing to show ”,便采取网上的建议手动下载好wordcloud这一库包后在cmd窗口进行pip指令安装。词云库包的下载地址为:https://w...

2018-05-29 19:40:48 16204 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除