自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

heccxx的博客

https://github.com/HeCCXX/MyBlog/issues

原创 ClickHouse 使用之常用数据类型、表引擎、语法

四、数据类型4.1 整型固定长度的整型，包括有符号整型或无符号整型。整型范围（-2n-1~2n-1-1）：Int8 - [-128 : 127]Int16 - [-32768 : 32767]Int32 - [-2147483648 : 2147483647]Int64 - [-9223372036854775808 : 9223372036854775807]无符号整型范围（0~2n-1）：UInt8 - [0 : 255]UInt16 - [0 : 65535]UInt32

2020-11-10 15:34:58 1166 3

原创 ClickHouse 安装及使用

ClickHouse 安装及使用ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。一、安装前准备1.1 Centos取消打开文件数限制在/etc/security/limits.conf、/etc/security/limits.d/90-nproc.conf这2个文件的末尾加入一下内容：[root@hadoop1 software]# vim /etc/security/limi

2020-11-06 17:58:12 608 1

原创 Oracle dbms_job和dbms_scheduler创建带参和不带参的定时任务使用教程

Oracle 定时任务在工作中，有时候会需要定时执行存储过程或者一段sql，如果每次都人为执行，会很费力费时。所以需要使用数据库定时任务来按时执行对应sql，这样做有效的节约了时间和人力。下面以oracle为基础，分别从oracle自带的dbms_job和dbms_scheduler两种方式来介绍定时任务的创建和执行。一、dbms_job 方式以下介绍定时执行存储过程，存储过程的作用是向临时表中插入每次定时执行时的日期。首先创建临时表tmp_date,创建语句如下：create table

2020-10-16 14:32:21 2229

转载 [[转载]MySQL索引-B+树（看完你就明白了）

[转载]MySQL索引-B+树（看完你就明白了）索引是一种数据结构，用于帮助我们在大量数据中快速定位到我们想要查找的数据。索引最形象的比喻就是图书的目录了。注意这里的大量，数据量大了索引才显得有意义，如果我想要在 [1,2,3,4] 中找到 4 这个数据，直接对全数据检索也很快，没有必要费力气建索引再去查找。索引在 MySQL 数据库中分三类：B+ 树索引Hash 索引全文索引我们今天要介绍的是工作开发中最常接触到的 InnoDB 存储引擎中的 B+ 树索引。要介绍 B+ 树索引，就不得不

2020-10-12 16:33:40 153

原创 GitHub图片不显示的解决办法

GitHub图片不显示的解决办法首先把这些内容复制到hosts文件中，如下：# GitHub Start 140.82.114.3 github.com 199.232.68.133 gist.github.com 199.232.68.133 assets-cdn.github.com 199.232.68.133 raw.githubusercontent.com 199.232...

2020-04-29 11:15:57 405 1

原创利用github仓库做图床，将图片上传到指定repository，在issues或其他博客网页链接图片

首先创建一个repository，然后将图片上传到自己定义的目录下，如下图，我上传了1.png到master的issues/pic/java/issue#6目录下。上传完后，有人觉得直接用这个图片地址就可以了，但是我试过csdn和issues里面，图片加载不出来。于是就要改用下面这样的地址https://raw.githubusercontent.com/域名固定，HeCCXX为用户名，MyBl...

2020-04-29 11:12:03 563

原创线程池原理分析（ThreadPoolExecutor源码分析）

线程池的优点线程是稀缺资源，使用线程池可以减少创建销毁线程的次数，每个工作线程都可以重复使用。可以根据系统的承受能力，调整线程池中工作线程的数量，防止因为消耗过多内存导致服务器崩溃。线程池的创建创建时，有多个构造方法，参数个数不同，最终都调用下面的构造方法进行创建。public ThreadPoolExecutor(int corePoolSize, ...

2020-04-14 15:31:15 243

原创 Nginx+keepalived高可用集群简单搭建（主从和双主）

nginx搭建高可用集群在本文中，将利用keepalived + nginx搭建高可用集群，分别介绍主从模式和双主模式。环境准备首先需要准备环境，本文使用两台虚拟机搭建一个nginx高可用集群，虚拟机上分别安装nginx和keepalived，安装步骤如下：使用如下命令安装相关依赖：yum -y install make zlib zlib devel gcc c++ libtool...

2020-04-11 20:57:56 1754

原创 JDK+CGLIB动态代理过程每一步做了什么（看完你就懂了）

关于java的动态代理，首先我们需要了解与之相匹配的设计模式—代理模式。而对于创建代理类的时间点，又可以分为静态代理和动态代理。代理模式代理模式是常用的java设计模式，它的特征是代理类与委托类有同样的接口，代理类负责为委托类预处理消息、过滤消息、把消息转发给委托类，以及事后处理消息等。代理类并不真正实现服务，而是具有委托类的实例对象，通过委托类对应的实例对象调用委托类的相关方法，来提供特定的...

2020-04-02 20:16:57 615

原创 Kylin安装及员工表和部门表多维度分析实战（详细步骤）

Kylin快速安装1、首先去官网下载对应安装包，http://kylin.apache.org/cn/download/。2、下载完成后，将apache-kylin-3.0.1-bin-hbase1x.tar.gz上传到集群，并解压。注意：需要在环境变量中添加HADOOP_HOME,HIVE_HOME,HBASE_HOME,可以到/etc/profile文件中修改，最后需要source 使添...

2020-03-20 14:34:00 1035

原创快速理解JVM（从小白到入门）

JVM重要知识点记录JVM体系结构一、类加载器类装载器ClassLoader：负责加载class文件，class文件在文件开头有特定的文件标识，将class文件字节码内容加载到内存中，并将这些内容转换成方法区中的运行时数据结构并且ClassLoader只负责class文件的加载，是否可以运行，由Execution Engine决定。-类加载器分为虚拟机自带的加载器和用户自定义加载器...

2020-03-19 14:20:00 489

原创快速理解替换、搜索利器————正则表达式

一、正则表达式元字符"^" ：^会匹配行或者字符串的起始位置，有时还会匹配整个文档的起始位置。**""∗∗："** ："∗∗：会匹配行或字符串的结尾"\b" :不会消耗任何字符只匹配一个位置，常用于匹配单词边界如我想从字符串中"This is Regex"匹配单独的单词 “is” 正则就要写成 “\bis\b”\b 不会匹配is 两边的字符，但它会识别is 两边是否为单词的边界...

2019-12-26 18:24:23 326

原创 SpringBoot连接mysql密码正确但SQLException: Access denied for user 'root'@'localhost' (using password: YES)

SpringBoot mysql连接问题在application.yaml文件中设置datasource配置如下，此时不加双引号，执行数据库连接，会出现异常java.sql.SQLException: Access denied for user 'root'@'localhost' (using password: YES)。但是输入的密码的确是正确的，是数据库连接的密码，但在SpringB...

2019-12-16 20:08:19 5000 8

原创 Flink实时项目例程

Flink实时项目例程一、项目模块完整例程github地址：https://github.com/HeCCXX/UserBehaviorAnalysis.gitHotItemAnalysis 模块：实时热门商品统计，输出Top N 的点击量商品，利用滑动窗口，eventTime（包括本地文件数据源和kafka数据源）NetWorkTrafficAnalysis 模块，实时流量统计，和...

2019-11-29 11:00:05 1604

原创 Spark Streaming+kafka+spring boot+elasticsearch实时项目（canal）

在本次实验中，利用spark、elasticsearch、kafka等相关框架搭建一个实时计算系统。具体流程如下图所示，用户访问对应服务，由nginx服务器进行负载均衡访问具体的主机上的服务，访问过程中将产生用户具体的操作日志，该操作日志将由具体服务发送保存到Kafka集群（或者可以写到具体文件，可以通过Flume对日志文件进行采集，发送到Kafka集群）。数据缓存到kafka集群后，利用...

2019-11-25 18:17:53 1681

原创 Flink es-sink解决java.lang.NoSuchFieldError: FAIL_ON_SYMBOL_HASH_OVERFLOW

在写Flink实例时，遇到将case class 样例类转换为jsonObject后，在添加到es sink source中时，报错java.lang.NoSuchFieldError: FAIL_ON_SYMBOL_HASH_OVERFLOW。问题总结出现以下问题的原因是jar包的依赖版本问题。解决该问题需要引入高版本的包，同时解决包冲突问题。java.lang.NoSuchField...

2019-11-21 18:48:54 1379 1

原创 Flink安装及WordCount实例yarn-cluster提交

flinkflink（基于数据流上的有状态计算）flink的特点：事件驱动型事件驱动型应用是一类具有状态的应用，它从一个或多个事件六提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。（SparkStreaming是微批次，将批次更加微小化）实时流处理批处理的特点是有界、持久、大量。非常适合需要访问全套记录才能完成的计算工作，一般用于离线计算。流处理的特点是无界、实时...

2019-11-19 19:22:30 1652

原创解决windows上The root scratch dir: /tmp/hive on HDFS should be writable.Current permissions are: ------

解决Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState': java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: ---------首先...

2019-11-02 17:41:57 3447 2

原创 RDD（弹性分布式数据集）介绍---Spark的核心

Sparkspark和hadoop的区别：hadoop磁盘IO开销大，延迟高、表达能力有限（需要转换为MapReduce）、在前一个任务执行完成之前，其他任务都无法开始，map 和 reduce过程，任务之间的衔接。spark计算模式也属于MapReduce，但不局限与map和reduce操作，还提供了多种数据集操作类型、提供内存计算，将中间结果放在内存中，对于迭代计算效率更高。...

2019-11-02 17:24:38 394

原创 Scala快速入门（零基础到入门）

基础语法区分大小写 - Scala是区分大小写的，比如标识符Hello和hello在Scala中表示不同的含义(对象)。类名称 - 对于所有类名，第一个字母应为大写。如果使用多个单词来形成类的名称，则每个内部单词的第一个字母应该是大写。示例 - class MyFirstScalaClass，class Employee*类等。方法名称 - 所有方法名称应以小写字母开头。如果使用多个单词...

2019-09-26 10:46:11 761

转载 ES内存深度解析——gc问题

注：本文主要针对ES 2.x。 “该给ES分配多少内存？” “JVM参数如何优化?““为何我的Heap占用这么高？”“为何经常有某个field的数据量超出内存限制的异常？““为何感觉上没多少数据，也会经常Out Of Memory？”以上问题，显然没有一个统一的数学公式能够给出答案。和数据库类似，ES对于内存的消耗，和很多因素相关，诸如数据总量、mapping设置、查询方式、查询频...

2018-12-28 15:35:36 5572

原创 elasticsearch.yml配置内容详解

关于es的现实生成环境可以相应修改配置内容。cluster.name: elasticsearchnode.name: bigdata01network.host: 172.16.58.21http.port: 9200transport.tcp.port: 9300node.master: truenode.data: truediscovery.zen.ping.mult...

2018-12-28 15:24:11 992

原创 flume消费kafka数据，以时间戳的形式创建文件，保存到hdfs

组件：flume-1.8、hadoop-2.6.0、kafka-2.10-0.10.2.1目的：flume消费kafka数据，以时间戳的形式创建文件，保存到hdfsSINKS.HDFS配置说明： channel type hdfs path 写入hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/flume/webdata/可以使用...

2018-12-28 15:07:13 2268

原创 Kafka Connect 出现ERROR Failed to flush WorkerSourceTask{id=local-file-source-0}, timed out while wait

在官网第七步Step 7: 使用 Kafka Connect 来导入/导出数据从控制台写入和写回数据是一个方便的开始，但你可能想要从其他来源导入或导出数据到其他系统。对于大多数系统，可以使用kafka Connect，而不需要编写自定义集成代码。Kafka Connect是导入和导出数据的一个工具。它是一个可扩展的工具，运行连接器，实现与自定义的逻辑的外部系统交互。在这个快速入门里...

2018-11-07 15:05:39 2678 1

原创 flume、kafka、avro组成的消息系统

利用apache flume和Apache kafka（依赖zookeeper）完成一个消息系统，具体消息传递：kafka-->flume A-->flume B-->kafka。将数据通过flume进程A从kafka集群中读取，通过avro sink将数据发送到flume进程B ,最后将数据kafkasink 到kafka集群中。测试过程两端kafka可选不同topic，例...

2018-11-06 13:41:27 1092

转载 Java23种设计模式总结【转载】

总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式，共十一种：策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有两类：并发型模式和线程池...

2018-09-05 10:33:28 275

原创 Java编程思维导图

最近又学习了一遍Java，用思维导图记录下学习内容。学习的路还很漫长！！！！思维导图github：https://github.com/HeCCXX/java-mindmap

2018-07-29 21:49:04 595

原创人工神经网络（ANN）BP算法应用（手写体数字识别部分代码）

人工神经网络在热门的人工智能领域有着很多很好的应用。在网上也有很多优秀的文章阐述人工神经网络的原理和应用，可以参考以下优秀的文章。https://blog.csdn.net/leiting_imecas/article/details/60463897https://blog.csdn.net/sinat_36171246/article/details/71056454?locati...

2018-07-18 21:12:02 3061

原创利用sklearn中 ID3算法实现简单的课程销量预测+决策树可视化

决策树中ID3算法是一种贪心算法，用来构造决策树。ID3算法主要用到每个属性的信息增益，使用到信息熵。ID3算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点，并以该节点的属性标记，对该属性的每个值创建一个分支据此划分样本.信息熵从通俗易懂的角度来说就是信息的价值。比如本次是做对网络上课程销量的预测，而影响一门课程销量的因素有该课程是否有...

2018-07-15 17:01:07 2581

原创 GPA、成绩、学校排名对录取情况的逻辑回归简单例子

admit、GPA、grade、rank分别代表录取情况、绩点、成绩、学校排名，此次利用sklearn库进行逻辑回归的简单训练。进行筛选主要特征值，模型准确率。import pandas as pdafrom sklearn.linear_model import LogisticRegression as LRfrom sklearn.linear_model import Ran...

2018-06-06 22:29:09 1383

原创利用贝叶斯算法实现手写体识别

之前记录过利用knn实现手写体识别。现在记录一下利用贝叶斯算法实现，训练数据和测试数据和knn的一样。首先了解贝叶斯理论知识。贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。那么既然是朴素贝叶斯分类算法，它的核心算法又是什么呢？是下面这个贝叶斯公式：换个表达...

2018-06-06 21:37:30 5838 1

转载【剑指Offer学习】【所有面试题汇总】

剑指Offer学习所有代码下载【https://github.com/Wang-Jun-Chao/coding-interviews】目录第01-10题【剑指Offer学习】【面试题02：实现Singleton 模式——七种实现方式】【剑指Offer学习】【面试题03：二维数组中的查找】【剑指Offer学习】【面试题04：替换空格】【剑指Offer学习】【面试题05：从尾到头打印链表】【剑指Off...

2018-06-05 14:35:10 325 1

原创编写knn算法实现手写体识别

一、首先学习学习knn算法。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此...

2018-05-16 22:15:54 6456 5

原创 python+jieba+tfidf算法文本相似度

jieba是python第三方库，用于自然语言处理，对文本进行分词，当然也有其他的分词库。gensim库，利用TFIDF算法来进行文本相似度计算，通过利用gensim库的corpora，models，similarities处理后续。基本思路：jieba进行分词，整理为指定格式->gensim库将要对比的文档通过doc2bow转化为稀疏向量->再通过models中的tf-idf将语料库...

2018-05-16 20:57:28 29011 19

原创 ubuntu hadoop2.x 伪分布部署及集群搭建（完全分布式）

在单机模式的基础上，完成伪分布部署！单机模式安装Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改如下配置文件。Hadoop的配置文件是 xml ...

2018-05-11 21:36:50 1211

原创 ubuntu16.04 +Java8+ hadoop2.x单机安装

关于hadoop及相关模块的安装，自己下载模块安装的话较为麻烦，有配置、版本对应的些许问题，使用cloudera集成好的平台也不错，但如果跑的任务多的话，机器配置要好一点，模糊的记得是最低需要8G内存？下面先记录下单机模式的安装。hadoop集群有三种启动模式：单机模式：默认情况下运行为一个单独机器上的独立Java进程，主要用于调试环境伪分布模式：再单个机器上模拟成分布式环境，每一个hadoop守...

2018-05-11 00:06:44 956

原创 python pandas库的一些使用总结

pandas用于处理.csv excel html 文本等文件。在数据分析方面起到很大的作用。pandas.Series（数据，index=[]）索引数据，默认格式数字按序增加，可以自己设置index，为第一列的索引值。pandas.DataFrame（）创建一个表格样式，横纵坐标索引默认数字递增，可以通过index，columns设置横纵索引。panda...

2018-05-01 15:35:06 1567

原创 scrapy 当当网书籍信息爬取存储MySQL

这里使用到MySQL，对小白还算挺友好的。当然还有其他数据库 redis、mongodb（非关系数据库） influxdb （时序数据库）一般用作监控框架，单机版免费，了解一下？废话少说，开始正题.1、先创建scrapy项目scrapy startproject dangdang2、创一个爬虫，模式basic，crawlscrapy genspider -t b...

2018-04-30 15:14:21 660 2

原创 pymysql 中总结出来的一些问题

在这用到pymysql为例，其他的可作为参考。一、关于(1054, "Unknown column 'xxxxxxx' in 'field list'")如果你写的是下面这样的话，以后记住别这样写了：add_produto = """INSERT INTO produto(nome, data_lcm, preco) VALUES...

2018-04-30 14:29:18 1250

原创 python3 requests 12306下单环节

完成之前的登录，查票（城市编号转换之后），重头戏也是最复杂的环节来了，要完成下单，需要经过下列一系列验证，且均要通过验证，由此可见12306的反爬机制做的还是相当出色的。1、检查用户是否保持登录成功 https://kyfw.12306.cn/otn/login/checkUser2、点击预定 https://kyfw.12306.cn/otn/leftTicket/subm...

2018-04-27 16:37:48 4169 33

搜狗中文文本分析语料库

搜狗实验室新闻数据精简版，将xml文本进行处理后分类如下：奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt 体育 17237 个txt 文化 628个txt 娱乐 6757个txt 招聘 18个txt 由于是个人xml文本处理过的，处理了部分文档，如果需要更多可以联系我。免费下载链接：https://share.weiyun.com/X0prakLr

2018-07-03

手写体数字识别原始数据和贝叶斯代码python实现

手写体数字识别原始数据，0~9数字，32*32，贝叶斯代码实现手写体识别和大致出错率计算，可用于python学习实践。 github免费下载：https://github.com/HeCCXX/CSDNDownloading/raw/main/%E6%89%8B%E5%86%99%E4%BD%93%E6%95%B0%E5%AD%97%E8%AF%86%E5%88%AB%E6%95%B0%E6%8D%AE%E5%92%8C%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0.zip

2018-06-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

HeCCXX CSDN认证博客专家 CSDN认证企业博客

码龄6年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

40: 原创

10万+: 周排名

77万+: 总排名

10万+: 访问

: 等级

1365: 积分

46: 粉丝

71: 获赞

91: 评论

360: 收藏

私信

关注

分类专栏

数据库 3篇
Linux 1篇
Web 1篇
Github 2篇
并发编程 1篇
正则表达式 1篇
Spark 2篇
文本分析 1篇
爬虫 6篇
数据分析算法 5篇
Java之路 6篇
大数据框架 12篇
elasticsearch 3篇

最新评论

scrapy 当当网书籍信息爬取存储MySQL
Juliet992: 数据库怎么弄啊
python3 requests 12306城市中文转英文编码
2301_77166000: 为什么保存下来了乱码了
ClickHouse 使用之常用数据类型、表引擎、语法
CSDN-Ada助手: 非常感谢博主分享这篇关于ClickHouse使用的博客，对于想要深入学习该技术的读者来说，这篇文章肯定非常有用。建议博主可以继续探讨与ClickHouse相关的技术主题，比如如何进行数据迁移、安全性等方面的内容，这样的技术文章对其他用户也会非常有帮助。相信博主的下一篇文章会吸引更多读者的关注。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
编写knn算法实现手写体识别
Ty_kilig: 请问博主调用了哪些库啊，就比如knn中的那个title函数
python+jieba+tfidf算法文本相似度
m0_69415250: 作者大大，关键是用一个语料库例如d1,再来一个对比d3,他的tfidf结果为0.这个是为什么呢。我试了很多次

最新文章

提示

确定要删除当前文章？

取消删除