fengzhimohan-CSDN博客

原创运行Spark编程报错Unable to make field transient java.lang.Object[] java.util.ArrayList.elementDataaccessib

IDEA运行Spark编程报错Unable to make field transient java.lang.Object[] java.util.ArrayList.elementData accessible: module java.base does not “opens java.util” to unnamed module @d2de489或者module java.base does not "opens java.util.concurrent 等等，跟这种类似的报错情况的话。

2024-04-01 18:13:12 174 2

原创 centos root忘记密码，修改方法

Linux centos忘记root密码修改方法

2023-04-13 11:19:23 2033 1

原创 Linux/Centos安装完python3还是提示python: command not found

因安装的Python为Python3版本，因此直接输入python是会报错，可以输入python3即可。现在教大家怎么修改python3变为python，即输入python不会报错：查看python3路径 which python3更改默认版本alternatives --set python /usr/bin/python3如果没有权限，可以加入sudo之后在输入python就不会报错...

2022-01-21 16:16:49 8917

原创亲测有效 debian出现does not have a Release file. N: Updating from such a repository can‘t be done securely

当安装完Debian系统，要安装软件时候，出现如下报错信息：The repository 'cdrom://[Debian GNU/Linux 10.6.0 _Buster_ - Official amd64 DLBD Binary-1 20200926-10:17] buster Release' does not have a Release file.N: Updating from such a repository can't be done securely, and is therefor

2021-12-26 19:24:25 9162

原创 Google浏览器无法打开，出现错误：应用程序无法启动，因为应用程序的并行配置不对，或使用命令行sxstrace.exe工具的解决办法(亲测可行)

Google浏览器无法打开，出现错误：应用程序无法启动，因为应用程序的并行配置不对，或使用命令行sxstrace.exe工具的解决办法(亲测可行)电脑几点没有关机，有点卡，反应很忙，就重启了一下，结果一开机要打开Google浏览器提示：应用程序无法启动，因为并行配置不对。网上找了一些解决方法，比如打开服务查看是否开启，依然无法解决。亲测可用的方法：打开C盘，找到这个路径：C:\Users\dell\AppData\Local\Google\Chrome\Application（每个人路径会有点不同，

2021-10-07 09:37:27 11390 4

原创 python中\t，\n，\n\t三者之间的区别

python中经常看到使用\t，\n，\n\t，那么它们有什么区别之处呢？\t ：表示空4个字符，类似于文档中的缩进功能，相当于按一个Tab键。\n ：表示换行，相当于按一个回车键\n\t : 表示换行的同时空4个字符。我们用例子来说明它们的区别。# -*- coding: utf-8 -*-print("\t你好")print("\n你好\n在吗")print("你好\n\t...

2020-04-13 16:41:11 92570 4

原创脚本文件实现elasticsearch集群定时删除7天前索引数据

elasticsearch定时删除7天前索引数据的步骤：1.新建sh脚本文件项目中elasticsearch集群有两台服务器，分别为126和127,选择127服务器新建sh脚本文件。es_index_delete.sh脚本文件内容如下：#!/bin/bash#es_index_delete.shLAST_DATA=`date -d "-7 days" "+%Y-%m-%d"`cur...

2019-11-06 16:22:24 3468

原创 logstash利用grok截取字符中指定长度的内容

最近项目用到logstash，要求利用grok截取日志消息中某一指定长度的内容。Logstatsh需要两个必需参数input、output，以及一个可选参数filter。input用于输入数据的设置，output用于输出数据的设置。filter是实现数据过滤的设置。grok是在filter里面实现数据截取。项目有一串协议消息如 7e8900000c040116432693324af001018...

2019-10-29 11:54:47 5398 1

原创模型评价指标说明和scikit-learn代码实现

目前常用的评价指标有：准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线，AUC曲线。1.混淆矩阵True Positive(真正，TP)：将正类预测为正类数True Negative(真负，TN)：将负类预测为负类数False Positive(假正，FP)：将负类预测为正类数→误报 (Type I error)False Neg...

2019-06-27 11:49:50 1593

原创交叉验证(cross validation)原理和方法说明以及scikit-learn代码实现。

交叉验证(cross validation)1.定义：用来验证分类器的性能一种统计分析方法，基本思想是把在某种意义下将原始数据(data set)进行分组，一部分做为训练集(training set)，另一部分做为验证集(validation set)，首先用训练集对分类器进行训练，在利用验证集来测试训练得到的模型(model)，以此来做为评价分类器的性能指标。2.作用：针对在训练集上训练...

2019-06-26 11:04:24 6023

转载转载——5 分钟带你弄懂非监督学习k-means 聚类(通俗易懂)

本文转载，原文为https://blog.csdn.net/huangfei711/article/details/78480078 聚类与分类的区别分类：类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。属于监督学...

2019-06-18 09:59:19 1389

原创支持向量机SVM的原理和常用名称解释，以及利用sklearn-SVC实现简单的支持向量机

支持向量机(SVM)1. 简介支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类（binary classification）的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplan...

2019-06-12 19:46:39 1700

原创 java开发——时间类型和时间格式转换

项目开发过程中，有时候需要将时间的形式进行变换，时间的输入和输出不一致的转换，本文用于记录常用到的方法。首先对sdf.format(a),sdf.parse(a)两个类型进行区分.sdf.format(a):将String类型a转换为Date类型，输出结果为Date类型。sdf.parse(a):将Date类型a转换为String类型，输出结果为String类型【时间类型转换】1.将St...

2019-05-27 15:31:30 2498 1

原创 pandas数据分析处理常用知识点整理

一.基本知识有两个主要的数据结构，Series和DataFrame，记住大小写区分。导入库方法：import pandas as pd1.Series类似于一维数组，和numpy的array接近，由一组数据和数据标签组成。数据标签有索引的作用。数据标签是pandas区分于numpy的重要特征。(1) 用列表list创建Seriess=pd.Series([1,2,3,4,])s0 1...

2019-04-10 16:17:28 1416

原创数据分析处理Numpy库方法整理

一.基本知识NumPy的主要对象是同构多维数组。它是一个元素表（通常是数字），都是相同的类型，由正整数元组索引。在NumPy维度中称为轴。导入库方法：import numpy as np对应的属性有：.ndim：返回的是数组的维度，只有一个数。.shape：每个维度中数组的大小，返回的是元组，对n行和m列的矩阵，shape将是(n,m).size：数组的元素总数。这等于元素的乘积sha...

2019-04-02 17:12:26 1049

原创解决报错：Parser must be a string or character stream, not Series

一开始使用df[‘TIME’] = parser.parse(df[‘GPS_TIME’]),出现错误，错误提示为：Parser must be a string or character stream, not Seriesdf[‘GPS_TIME’]中的每个数据虽然是str，但df[‘GPS_TIME’]整体是Series，parse()需要str类型才能进行时间转换，故不能直接用。df...

2019-03-25 19:09:48 4730

原创 pandas中Series索引切片说明

Series是pandas中一个重要的数据结构，Series是一种类似于一维数组的对象，它由一组数据以及一组与之相关的数据标签(即索引)组成。Series索引可以使用索引值也可以使用位置数值两种方法索引。import numpy as npimport pandas as pdobj = pd.Series(np.arange(4.0),index=['a','b','c','d'])...

2019-03-14 15:02:28 5574

原创 python中*args和**kargs的用法和区别

*一.args1.直接赋值python中在参数前面加一个的参数，可以按照位置传值，称为可变位置参数，如args*args：是一个列表，传入的参数会被放进列表里。values = (1,2,3,4,5,6)a ,b , *args = values2.函数定义*args：将实参中按照位置传值，多出来的值都给args，且以元组的方式表示，即实现拆分功能def fun(*args...

2019-03-12 15:21:45 2515

原创利用Python对电商销售数据进行分析

一.数据集介绍此次的数据集来自kaggle的关于在线零售业务的交易数据，该公司主要销售礼品，大部分出售对象是面向批发商。二.数据集字段介绍数据包含541910行，8个字段，字段内容为：InvoiceNo: 订单编号，每笔交易有6个整数，退货订单编号开头有字母’C’。StockCode: 产品编号，由5个整数组成。Description: 产品描述。Quantity: 产品数量，有负号...

2019-03-12 10:40:01 28580 10

原创 java读取文本数据，将数据保存为二维数组。

利用BufferedReader和FileInputStream都可以实现读取文本数据，不同的是BufferedReader适用于读取文本较小的场景，因其会将文件所有行都存入内存中。1.BufferedReader实现读取文本数据，并保存为二维数组。private static double[][] getFile(String pathName) throws Exception { ...

2018-11-30 10:30:14 10892 2

原创 matlab程序打包成jar包，IDEA实现java调用matlab程序

本文将分为三部分展开，有matlab程序打包成jar包，添加jar包到IDEA并调用，遇到的错误解决办法说明。一. matlab程序打包成jar包1.环境说明系统：window7 64位 jdk1.7matlab版本：matlab2016a 64位 jdk1.7注意：必须要保证matlab的位数和jdk版本与系统一致(大版本一致即可，如都是1.7或1.6，后面的数字可以不一样)2.环...

2018-10-15 17:20:34 12554 5

原创机器学习中的特征工程的处理过程

本文是在别人的文章基础上进行修改，添加。（一）特征工程概述1.特征工程的含义特征工程具体含义：通过一系列的工程活动，将这些信息使用更高效的编码方式（特征）表示。使用特征表示的信息，信息损失较少，原始数据中包含的规律依然保留。编码方式还需要尽量减少原始数据中的不确定因素（白噪声、异常数据、数据缺失…等等）的影响。 2.特征工程的目的特征工程的目的：如何将原始的数据处理成合格的数据...

2018-09-21 20:21:51 660

原创《机器学习实战》学习笔记——k-近邻算法(kNN)知识点和Python实现

最近开始学习《利用Python数据分析》和《机器学习实战》，本篇主要对《机器学习实战》中的k-邻近算法的整理和Python程序实现。k-近邻算法kNN(可用于分类也可用于回归)1.理论知识点含义：采用测量不同特征值之间的距离方法进行分类。优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高、空间复杂度高。适用数据范围：数值型和标称型。工作原理：存在一个样本数据...

2018-08-13 21:20:45 395

原创 Elman神经网络介绍以及Matlab实现

Elman神经网络介绍1.特点 Elman神经网络是一种典型的动态递归神经网络，它是在BP网络基本结构的基础上，在隐含层增加一个承接层，作为一步延时算子，达到记忆的目的，从而使系统具有适应时变特性的能力，增强了网络的全局稳定性，它比前馈型神经网络具有更强的计算能力，还可以用来解决快速寻优问题。 2.结构 Elman神经网络是应用较为广泛的一种典型的反馈型神经网络模型。一般分为四层：输入层...

2018-06-28 19:27:15 64506 32

原创 svn is already locked报错无法更新代码解决方法。

在使用svn时，有时候会遇到：Error:svn: E155004: Run ‘svn cleanup’ to remove locks (type ‘svn help cleanup’ for details) svn: E155004: Working copy ‘E:\Projects\yx-vn-bdp’ locked. svn: E155004: ‘E:\Projects\yx-vn...

2018-03-05 09:58:14 3987

原创基于Java使用HashMap实现数据的缓存

1.最近任务需要将数据进行不断比较并输出数据，数据是多条，利用HashMap和List结合实现数据缓存。代码如下：public class MapTest { private static HashMap<String,List<String>> mapSave = new HashMap<>(); public static void ...

2018-03-05 09:44:12 3866

原创 java中将日期转换为毫秒

已知在数据库中保存的时间是String类型，现在要求出两个时间间隔，故通过求出时间的毫秒数值，然后相减，即得到两个时间的间隔。1.日期转换为毫秒思路：首先需要将String型的时间转换为以日期型的时间，然后利用getTime()得到时间的毫秒数值。public class Test { public static void main(String[] args) { St

2018-01-18 17:32:48 9561

原创基于Java使用HashMap<String,List<String>>实现数据的缓存

1.最近任务需要将数据进行不断比较并输出数据，数据是多条，利用HashMap和List结合实现数据缓存。代码如下： public class MapTest {public class MapTest { private static HashMapList> mapSave = new HashMap<>(); public static void main(Str

2018-01-11 20:58:11 8609

原创基于Java实现Spark统计身高的实例

例子仍然引用：https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/a. 案例描述本案例假设我们需要对某个省的人口 (10万) 性别还有身高进行统计，需要计算出男女人数，男性中的最高和最低身高，以及女性中的最高和最低身高。本案例中用到的源文件有以下格式, 三列分别是 ID，性别，身高 (cm)，格式如下： b.

2017-11-17 19:24:11 6381 2

原创基于Java的spark年龄统计实例编程实现

本文的实例引用至 https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/网上很多基于scala实现spark实例编程，由于项目需要用到java，为此利用java来实现spark的学习并应用到实例中来。a. 案例描述该案例中，我们将假设我们需要统计一个 10 万人口的所有人的平均年龄，当然如果您想测试 Spark

2017-11-14 21:08:44 2907 1

原创基于Java的Spark WordCount编程实现

刚开始接触Spark编程，以WordCount作为入门编程实例，WordCount是用于统计单词出现的次数。本文参考http://blog.csdn.net/gongpulin/article/details/51534754，不同的是本文以Java语言实现实例的编程实现。a、案例分析对于词频数统计，用 Spark 提供的算子来实现，我们首先需要将文本文件中的每一行转化成一个个的单词, 其次是对

2017-11-13 19:24:55 1156

原创 Spark使用Java读取mysql数据和保存数据到mysql

基于java应用需要利用Spark读取mysql数据进行数据分析，然后将分析结果保存到mysql中。

2017-11-07 20:17:39 9333 13

原创 java.lang.IllegalArgumentException:System memory 259522560 must be at least 4.718592E8

在IDEA运行Spark程序对数据求和时，出现问题：Exception in thread “main” java.lang.IllegalArgumentException: System memory 259522560 must be at least 4.718592E8. Please use a larger heap size. 解决办法：点击Run——>Edit Configura

2017-09-30 14:33:03 1277

原创 IDEA运行Spark出现UnsupportedClassVersionError: scala/tools/：Unsupported major.minor version 52.0

在IDEA环境运行Spark实例时，出现UnsupportedClassVersionError: scala/tools/：Unsupported major.minor version 52.0其解决方法是：**检查jdk版本，修改本地环境变量jdk版本为1.8，IDEA选择JDK版本为1.8，**Scala版本要与Spark版本一致，建议使用scala 2.10.X 版本，问题比较少。sc

2017-09-30 14:10:38 943

原创灰色系统预测模型GM(1,1),GM(1,n)及Matlab实现

1.灰色系统的定义：灰色系统指既含有已知信息又含有未知信息的系统。 2.灰色预测模型的定义：对灰色系统进行预测的模型。灰色模型（Grey Model，简称GM模型）一般表达方式为GM（n,x）模型，其含义是：用n阶微分方程对x个变量建立模型。 3.灰色预测模型的目的：通过把分散在时间轴上的离散数据看成一组连续变化的序列，采用累加和累减的方式，将灰色系统中的未知因素弱化，强化已知因

2017-08-24 19:10:59 114104 60

kaggle在线零售业务数据，用于数据分析处理。

kaggle的关于在线零售业务的交易数据，用于数据分析和处理。数据包含541910行，8个字段，字段内容为： InvoiceNo: 订单编号，每笔交易有6个整数，退货订单编号开头有字母’C’。 StockCode: 产品编号，由5个整数组成。 Description: 产品描述。 Quantity: 产品数量，有负号的表示退货 InvoiceDate: 订单日期和时间。 UnitPrice: 单价（英镑），单位产品的价格。 CustomerID:客户编号，每个客户编号由5位数字组成。 Country: 国家的名称，每个客户所在国家/地区的名称。

2019-05-27

基于matlab灰色模型GM(1，1)预测数据

基于matlab灰色模型GM(1，1)预测数据,通过对已知数据进行处理，预测出新的数据，然后对比其结果，求出误差，已经对结果进行后验差检验，从而来判断预测准确性。

2017-08-31

java怎么简化这段代码，

2018-02-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人