Jumay0612-CSDN博客

原创 MacOS 14.1 配置kerberos认证

原操作系统为 10.14.*，因安装别的软件失败，不想去找旧版本了，所以把OS直接升级到最新版的14.1啦，升级后就一个字“爽！”，but 各种兼容问题也就来啦，解决吧，今天写MacOS 14.1 配置kerberos认证。需要用自带的safari浏览器，经修改配置测试Google浏览器偶尔好用偶尔不行，太麻烦了。位置和配置如图所示，添加身份和密码即可链接。该文件放到/etc下。

2023-12-11 11:24:56 677

原创 Redis踩坑系列（二）Spark批量Load大量数据到Redis，主从同步问题

需求每天定时批量刷新大量数据进RedisRedis集群是哨兵模式主从同步时间不做要求现象Spark批量load数据到redis，主节点没问题，大概10分钟可以写入完成网络IO负载较大，从节点报警is stop，主节点报主从同步异常从节点重启后，从磁盘load数据入内存，十几分钟时间后redis集群恢复正常只要有大量的写都会导致从节点stop，主节点没问题定位分析日志316495:C 19 Mar 16:18:38.002 * RDB: 9198 MB of memory u

2021-03-19 18:21:22 480

原创 Redis踩坑系列（一）Spark Redis连接池报错Pool not open解决

用Spark将大量HDFS数据批量写入Redis需求批量读入HDFS离线数据将数据按照partition分区写入redis中redis集群是哨兵模式。使用pipelined方法代码import java.util.Propertiesimport java.utilimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport org.apache.spark.rdd.RDDimport redis.clients

2021-03-16 14:49:01 5147

原创 Linux环境下安装Anaconda3和Tensorflow-gpu 2.1.0,简单易操作尽力避免各种坑

1.版本说明Anaconda3 == 4.8.3下载地址： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.07-Linux-x86_64.shTensorflow-gpu==2.1.0我的机器有GPU，所以选择gpu版本的。NVIDIA驱动==418.165.02这个NVIDIA驱动版本选择根据选择的tensorflow版本和cuda对应关系确定。我打算用anaconda安装tensorflow-gpu

2020-12-03 16:49:34 357

原创 Spark开发（一）-- 分区，分桶和数据重分区方法

分区：Partitioning:分区数据通常用于水平分配负载，这具有性能优势，并有助于以逻辑方式组织数据。分区表会更改持久化数据的结构，现在将创建反映此分区结构的子目录。这可以显着提高查询性能，但前提是分区方案反映了常见的过滤。根据指定列进行分区存储，每个列值一个文件结构。df.write.partitionedBy(column*) .parquet("")分桶：Bucketing:Bucketing是另一种将数据集分解为更易于管理的部分的技术 . 根据提供的列，将整个数据.

2020-09-24 17:20:07 2327

原创 Kafka 相关命令和问题记录

一、问题Kafka UI fetched统计问题开发完了代码，洋洋洒洒部署上线。一切都很OK。程序正常启动，kafka生产数据正常发送了。然后查看Kafka的实时曲线图。刚生产的数据，还没有通知消费端消费，却发现《各 Kafka Broker Topics 中的总 Bytes Fetched》的量是《各 Kafka Broker Topics 中的总 Bytes Received》的2倍。纳尼，测试环境没有这个问题啊。。。。第一次在正式环境使用kafka，顿时紧张不行，仔细检查程序，确认不是自己主动.

2020-09-10 14:34:46 297

原创 scala问题（一）sbt项目，sbt compile命令报错

因为是从同事那同步的代码，执行sbt命令报错Error wrapping InputStream in GZIPInputStream: java.util.zip.ZipException: Not in GZIP format at sbt.ErrorHandling$.translate(ErrorHandling.scala:10) at sbt.Wrap...

2020-01-08 09:24:00 1037

原创 mac问题（一） pro安装软件问题记录和解决方法

问题一、Mac 安装brew二、安装mysqlclient一、Mac 安装brewMac 安装brew时遇到curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused输入指令sudo gem install redis，再输入安装brew指令即可。还有github链接不上的问题，...

2020-01-08 09:09:14 231

原创 leetcode算法题（3）--不含重复字符的最长子串长度-Longest Substring Without Repeating Characters

整理自己对一些leetcode算法题的想法和实现，一直努力，每天都有新提高–来自一个热爱编程的程序媛1.LeetCode地址：Longest Substring Without Repeating Characters2.难度：medium3.题目：Given a string, find the length of the longest substring without repe...

2019-07-17 09:58:41 417

原创 python技能实践系列（七）-- jupyter notebook 用spark读取本地文件实现简单的wordcount功能

python技能实践系列（七）-- jupyter notebook 用spark读取本地文件实现简单的wordcount功能如果你正在用的是公司某台机器上的jupyter，不知道当前的工作目录，可以用下面的代码查看。展示的是绝对路径。import osos.getcwd()2.用spark读取当前工作目录下的文件。非远程文件，用file://表示读取本地文件from pysp...

2019-06-27 10:23:54 1109

原创 python技能实践系列（六）--python内置函数zip源码查看

python内置函数有两种，一种是python实现的，一种是C语言实现的。python实现的– 1.直接在IDE里面按住ctrl追踪到源码。– 2.使用help内置函数，例如：help(os)C语言实现的不能直接在IDE里面查看比如 builtins.py里的zip ,需要去Cpython 源码中查看：https://github.com/python/cpython/blob/m...

2019-05-14 11:19:49 547

原创 python技能实践系列（五）--从多维数组赋值到python两种对象再到深浅拷贝

初始化二维数组a = [[0]*3 ] * 4a[0][0]=1print(a)初始化4行3列的二维数组，想把第一行和第一列的位置赋值为1本来想象输出是[[1,0,0],[0,0,0],[0,0,0],[0,0,0]]结果发现输出是 [[1,0,0],[1,0,0],[1,0,0],[1,0,0]]原因为何？其实[]*N 这种方式初始化的数组，相当于只申请了一个地址空间。空间...

2019-04-26 15:30:55 486

原创 python技能实践练习（一）---- 字典排序

python比较常用的数据结构就是字典，有时候我们需要按照value值对字典进行排序操作。我们知道sorted能对list进行排序。我们就用sorted实现下面写了3中方法。1. 直接转成列表d = {'a': 1, 'b': 4, 'c': 2}# d.items()以列表返回可遍历的(键, 值) 元组数组a = sorted(d.items(), key=lambda x: x[1...

2019-04-23 18:44:57 203

转载各种树--二叉排序树、红黑树、AVL树、B树，B+树和B*树

教你初步了解红黑树剑指XX游戏(六) - 轻松搞定面试中的红黑树问题二叉排序树、红黑树、AVL树最简单的理解

2019-04-17 16:46:43 275

原创机器学习实践系列（二）----达观杯--轴承故障检测训练赛

竞赛地址轴承故障检测训练赛任务轴承有3种故障：外圈故障，内圈故障，滚珠故障，外加正常的工作状态。如表1所示，结合轴承的3种直径（直径1,直径2,直径3），轴承的工作状态有10类：参赛选手需要设计模型根据轴承运行中的振动信号对轴承的工作状态进行分类。数据*注 : 报名参赛或加入队伍后，可获取数据下载权限。可供下载使用的有2个文件：1.train.csv，训练集数据，1到6000为按...

2019-04-11 15:09:34 2805 3

原创机器学习实践系列（三）----达观杯--北京PM2.5浓度回归分析训练赛

1.大赛地址北京PM2.5浓度回归分析训练赛看了很长时间机器学习算法了，从这个博客开始打算长期更新一些算法的尝试，在实践中用起来。先从最简单的线性回归开始吧。2.赛题说明数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据。数据分为训练数据和测试数据，分别保存在pm25_train.csv和pm25_test.csv两个文件中。其中训练数据主...

2019-04-10 15:59:19 3739 3

原创分布检测-seaborn直观看正态分布的峰度和偏度

峰度和偏度偏度和峰度如何影响您的分布偏度(skewness)和峰度(kurtosis）摘要偏度Skewness定义中包括正态分布（偏度=0），右偏分布（也叫正偏分布，其偏度>0），左偏分布（也叫负偏分布，其偏度<0）峰度Kurtosis包括正态分布（峰度值=3），厚尾（峰度值>3），瘦尾（峰度值<3）型测试我们随机模拟一组正态分布数据，然后用seaborn图像...

2019-04-09 17:38:57 3758

原创 python技能实践练习（二）----ipython notebook 使用技巧记录

ipython notebook 中文显示乱码解决，记录一下，需要加上这两行配置。其实rcParams还可以设置plt很多属性，主要为图片像素什么的，使用了再记录。#设置字体为SimHei显示中文plt.rcParams['font.sans-serif'] = 'SimHei'#设置正常显示字符plt.rcParams['axes.unicode_minus'] = False...

2019-04-04 18:03:18 310 1

转载面试整理（一）----逻辑回归的常见面试点总结

转自：http://www.cnblogs.com/ModifyRong/p/7739955.html1.简介逻辑回归是面试当中非常喜欢问到的一个机器学习算法，因为表面上看逻辑回归形式上很简单，很好掌握，但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归，非常容易被问倒，从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时候，经常遇到的一些问题。2...

2019-03-29 17:06:45 180

原创 leetcode算法题（757）--Set Intersection Size At Least Two 找到能与每个集合相交保留至少2个元素的最小集合S

leetcode 找到能与每个集合相交保留至少2个元素的最小集合Sleetcode题目：https://leetcode.com/problems/set-intersection-size-at-least-two/思路来自：大神太厉害，开始以为很难的题目，发现思想如此简单。https://leetcode.com/problems/set-intersection-size-at-le...

2019-03-29 10:55:34 255

原创 python技能实践练习（三）----IDEA中python内置函数提示红色波浪下划线，运行没正常--mark

原因就是配置的python 的inspection 的路径无效。运行没问题，但是碍眼。记录下在这里下拉框选一个有效的python编译环境即可

2019-03-26 10:16:04 1889

原创 python技能实践练习（四）----pandas 系列--dataframe常用操作记录

获取列值的唯一值idtarget1120324150y_labels = y_train.drop_duplicates(['target'])

2019-01-08 16:07:05 260

原创 hivesql获取用户当前订单的下一订单号-mark

很多业务场景下都需要获取用户当前订单的下一订单信息，例如淘宝和京东的订单的下一订单，滴滴打车司机的下一单号。或者浏览场景下，用户浏览商品的顺序等等。样例数据1：表名order_infouseridorderidordertimeorderinfo1100002017-01-14 12:25:56手机1100012017-01-17 11:05:23手机...

2018-12-25 09:42:59 742 1

原创 xgboost算法初步尝试和绘图

数据准备数据使用hive提取，此处不做说明spark.sql读取hive表from pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .enableHiveSupport() \ .appName(&quot;predict_sale&quot;) \ .getOrCreate()sc = spa...

2018-12-13 14:39:14 3302

原创 hadoop查看配置的 fs.default.name名字

hdfs getconf -confKey fs.default.name

2018-09-10 11:22:51 5879

原创 pyspark 将rdd创建createDataFrame报错处理

pyspark 将rdd持久化到hive表createDataFrame报错处理TypeError: Can not infer schema for type: owords_result = topWords.map(lambda p: Row(label_word=p[0], word_weight=p[1], word_flag=p[2]))schemaPeople = spar...

2018-09-07 16:36:32 9642

原创记录

python学习视频链接 http://52opencourse.com/552/%E6%8E%A8%E8%8D%90%E4%B8%80%E4%B8%AApython%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%B7%A5%E5%85%B7%E5%8C%85scikit-learn%E4%BB%A5%E5%8F%8A%E7%9B%B8%E5%85%B3%E8%A7

2016-06-18 15:38:28 678

原创 win7+python3.4 +nltk搭建自然语言处理环境

win7+python3.4 +nltk搭建自然语言处理环境python3.4下载安装（1）python3 64位有各种各样问题，因此直接安装的python3.4 win32位版本的附链接：http://download.csdn.net/detail/dreamingfish2011/9548554 （2）python3 以上自带了pip，不需要安装，我进行了升级。 pip i

2016-06-13 23:24:39 3096

原创 HIVE自定义函数之UDF，UDAF和UDTF

UDFhive的udf允许用户使用自定义函数解决hive 自定义函数无法处理的逻辑。输入一行数据输出一行数据。解决问题描述想要比较两个逗号分隔的字符串是否相同。 -使用方法如果ignoreNullFlag是1，则两个字符串都是空算相等，如果不是1，算不等 add jar /home/mart_wzyf/zhuhongmei/plist_udf_udaf.jar; CREATE TE

2016-04-29 18:00:28 10574 2

原创 hive 高级数据类型使用之array（含横表转纵表）

hive 高级数据类型使用用了许久的hive，但是一直都是简单的sql join，sort， order by等，今天有一个业务场景需要使用array数据类型存储数据并进行横表转纵表的转换。mark下以后用了可以查询。数据样子是这样的。 ID type_flag tags 10001 3 11_20_30,11_22_34,12_23_30,13_24_36 10002

2016-04-26 15:08:57 17812

原创 spark+eclipse环境搭建同时使用kmeans聚类

spark+eclipse环境搭建同时使用kmeans聚类spark本地环境搭建网址：http://spark.apache.org/downloads.html 网址：http://hadoop.apache.org/releases.html 配置SPARK_HOME和HADOOP_HOME，同时环境变量path中加入相应的bin路径启动： cmd命令dos下使用spark-she

2016-04-07 17:56:38 1273

原创 Hive使用记录

hive使用技巧-hive新加字段 hive新增字段后，如果是分区表，当前分区已经有数据时一定要先删除分区后再插入数据，否则新加字段的值为NULL。 ALTER TABLE login DROP IF EXISTS PARTITION (dt=’2008-08-08’);

2016-01-18 15:18:37 389

原创 ubuntu系统使用技巧-随时更新

以前一直使用centos和redhat，没使用过ubuntu，据说是个轻巧好用的系统，就换了。把一些技巧记下来备忘。ubuntu 图形界面和命令行切换工具图形界面进入命令行 ctrl+alt+ f2 命令行返回图形界面 ctrl+alt+ f7ubuntu root密码问题 ubuntu系统的root用户密码每次开机都是随机的。可以使用普通用户进行修改 sudo passwd 会

2015-12-25 17:36:58 406

原创 windows7下eclipse连接ubuntu中的hadoop开发环境配置

工具下载eclipse-jee-mars-1-win32-x86_64 下载地址：http://www.eclipse.org/downloads/hadoop-2.5.2 下载地址：http://hadoop.apache.org/releases.htmlhadoop-src-2.5.2 下载地址：http://hadoop.apache.org/#Download+Hadooph

2015-12-24 18:22:55 838

原创 Ubuntu14搭建Hadoop2.5.2伪分布式开发环境

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-12-24 16:29:37 715

原创 hadoop单机伪分布式环境搭建和mahout试用

单机版hadoop安装（1）下载hadoop安装包，解压 http://hadoop.apache.org/releases.html（2）配置环境变量export PATH=$PATH:/home/iomssbd/user/hadoop-2.4.1/bin:/home/iomssbd/user/hadoop-2.4.1/sbinexport HADOOP_HOME=/home/

2015-07-09 14:59:40 462

python3.4 msi文件

win7搭建python3.4+nltk需要的包

java web三大框架（SSH）实现的俱乐部ＣＲＭ系统

空空如也