-早起的码农-CSDN博客

原创 StarRocks安装

rpm -e --nodeps mysql　　// 强力删除模式，如果使用上面命令删除时，提示有依赖的其它文件，则用该命令可以对其进行强力删除。rpm -e mysql　　// 普通删除模式。下载完解压，配置STARROCKS_HOME。

2022-10-25 19:21:23 2182

] 传统数仓的解决方案，行为分析的解决方案 1. 使用数据的底表和表的字段 2. 定义中间表的创建逻辑(过滤条件，分组条件，指标计算) 3. 最终结果的业务逻辑 4. 查询优化 (过滤前置，数据倾斜，shuffle，关联方式…[] 实时数仓解决方案：1，通过模型字段扩展，预先定义用户新增日期，当日活跃状态，设备类型等状态， 2，实时更新用户的属性 3，通过where条件过滤的方式。模型定义后，对模型生成效率的优化至关重要，不一样的解决方式，会影响模型的查询生成效率，模型的复用度，影响用户使用体验。

2022-10-17 17:21:23 971

原创 Python Http请求和HTML的解析

python html 爬取 BeautifulSoup

2022-08-15 10:15:08 973

原创作为码农你必须懂的序列化

一、基本概念序列化：将对象写入到IO流中反序列化：从IO流中恢复对象意义：序列化机制允许将实现序列化的Java对象转换位字节序列，这些字节序列可以保存在磁盘上，或通过网络传输，以达到以后恢复成原来的对象。序列化机制使得对象可以脱离程序的运行而独立存在。使用场景：所有可在网络上传输的对象都必须是可序列化的，比如RMI（remote method invoke,即远程方法调用），传入的参数或返回的对象都是可序列化的，否则会出错；所有需要保存到磁盘的java对象都.

2021-02-09 16:23:22 212

原创隐私保护广告行业新生态

不管我们用IOS手机，还是ANDROID类型的手机，又或者是浏览器，只有拥有一个用户设备的唯一标识才能对使用该设备的用户进行精准的广告投放，个性化推荐以及广告等浏览的频次控制。下面让我们一起回顾一下各种终端下唯一的设备标识的变迁历史。一IOS的变迁和对行业影响下面是IOS端可获取的标识，随着人们对数据隐私的重视和《一般数据保护法案》（General Data Protection Regulation (GDPR)实施，各种标识也在不断被被禁用，直到去年上市发布的ios1...

2021-02-09 16:21:37 1198 2

原创 Cookie、sessionStorage和localStorage

一 HTML4的本地存储cookiecookie和session都是用来跟踪浏览器用户身份的会话方式。我们通过了解两者的区别来了解cookie：1、保持状态：cookie保存在浏览器端，session保存在服务器端2,使用方式：Cookie是服务器发给客户端的特殊信息，cookie是以文本的方式保存在客户端，每次请求时都带上它。服务器收到请求需要创建session对象时，首先会检查客户端请求中是否包含sessionid。如果有sessionid，服务器将根据该id返回对应session对象。如果

2021-02-09 16:19:56 233

原创 Flink Transformation 操作

前面我们介绍了Flink DataStream数据处理流程中的source和sink，这篇文章我们介绍一下 Flink的Transformation 的操作，一般常用的算子有下面几种，我们分别用代码来演示下他基本用法：Map操作val stream = env.generateSequence(1, 5)//简单的map操作//val streamMap = stream.map(item => item * 3)//复杂的map操作val streamMap = stre...

2020-07-04 15:43:48 453

原创 Flink API入门

Flink数据处理流程通过前面的文章我们大概了解了实时流处理框架，这篇文章开始我们将详细来学习下Flink的使用。Flink为开发流式/批处理应用程序提供了不同级别的抽象。而这几个抽象的模块中DataStream API用于处理实时流处理，DataSetAPI用于离线批处理。入门Flink API 后面我们都选择使用Scala来完成Flink程序的编写，当然你也可以选择Java或者Python。Scala DataSet API的所有核心类都在包org...

2020-07-04 15:32:21 424 2

原创 Flink实时统计入MySQL

先上代码片段import java.sql.Typesimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.flink.api.java.io.jdbc.JDBCOutputFormatimport org.apache.flink.api.scala._import org.apache...

2020-01-14 19:25:11 3387

原创 Mongodb副本集和分片

MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。而且mongodb也有索引，视图功能， MongoDB 4.0 引入的事务功能，支持多文档ACID特性，总之，MongoDB是一个基于分布式文件存储的数据库。那么作为分布式数据库，他应该具...

2019-08-20 21:33:02 1792

原创 Elasticsearch基础实践

Elasticsearch是高度可伸缩的开源全文搜索和分析引擎。它允许我们快速实时地存储、搜索、分析大数据。Elasticsearch是一个接近实时的搜索平台，对大数据量的处理我们通过搭建ES集群来完成。1，集群的几个概念：主节点服务器只作为一个主节点，但不存储任何索引数据，主节点负责创建索引、删除索引、分配分片、追踪集群中的节点状态等工作。一个节点启动后，就会使用Zen Dis...

2019-07-08 20:56:31 345

原创 Presto Functions

1 求数组长度cardinality(x) → bigintReturns the cardinality (size) of the array xeg: select cardinality(array[1,24,3]) result: 32 获取数组第一个元素(下标从1开始)The [] operator is used to access an element o...

2019-07-03 11:47:41 2004

原创 Spark Rdd DataFrame操作汇总

直接上测试代码：import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.{udf, _}import org.junit.{Assert, Test}import org.apache.spark.sql.types._...

2019-05-04 12:06:22 1338

原创 Aerospike API操作Map

Aerospike是一个高性能、可扩展、可靠性强的NoSQL解决方案，支持RAM和SSD作为存储介质，并专门针对SSD特殊优化，广泛应用于实时竞价等实时计算领域。官方保证99%的操作在1ms内完成，并提供集群数据自动Rebalance、集群感知客户端等功能，且支持超大规模数据集(100T级别)的存储。作为KV存储，Aerospike提供多种数据类型，其操作方式和Redis比较类似。除基...

2019-03-01 15:01:31 1176

原创 spark-submit 参数

Usage: spark-submit [options] <app jar | python file | R file> [app arguments]Usage: spark-submit --kill [submission ID] --master [spark://...]Usage: spark-submit --status [submission ID] --m...

2019-01-11 11:44:04 579

原创大数据技术人常被问的问题

前几天转正答辩，我ppt讲完后，各部门大佬们来提问，有两个问题答得不是很好，后来有空了想想，其实要答也不难。1，技术选型上为什么用A技术不用其他技术？个人观点：技术选型上用某技术主要考虑1），该技术的学习成本比较低； 2），该技术能不能高效满足需求并且稳定运行；3），使用该技术需要花费的成本是否比其他低；上面3点其实是技术选型最关心的问题2，实时计算和离线计算...

2018-10-06 10:37:41 535 1

原创 Mongodb常用查询Shell

Mongodb常用查询Shell分组查询：包括过滤，分组，排序等DBQuery.shellBatchSize = 2000;db.test_data.aggregate([{$group : {_id : "$day", num: {$sum : 1}}},{$sort:{_id:-1}}])db.test_data.aggregate( [{$match: {status:...

2018-09-26 17:35:00 2237 2

原创机器学习入门-过拟合欠拟合

机器学习最重要的就是模型训练训练结果怎么反馈，一般有三种叫法，欠拟合，拟合，过拟合。下面介绍下白话介绍下具体含义下面三个图分别展示的是欠拟合，合适拟合，过拟合针对线性回归模型：针对逻辑回归模型：解释:1，形象例子欠拟合:光看书不做题觉得自己会了，上了考场啥都不会。过拟合: 课后题全能做对但是理解的不好，好多题答案都是强背下来的，上考场变一点儿人就懵逼差不多的拟合: 做了题，背了老师给画了重点，考试...

2018-04-08 16:34:09 1293

原创 10分钟入门go语言

Go是一种新的语言，一种并发的、带垃圾回收的、快速编译的语言,go支持的平台：LinuxFreeBSDMac OS X（也称为 Darwin）Window我们选择在Windows下载安装go环境https://golang.org/dl/ 选择windows-amd64.msi完成后双击安装，完成后path中会自动配置go环境以上不用自己配置。完成后进入dos窗口，运行go可以看到支持的命令，并...

2018-03-16 11:01:28 2805 2

原创数据分析EXCEL入门必备

做数据分析，不光要会编程，基本的excel也得会两手。这样可以大大提高工作效率。例如下面：vlookup匹配：=VLOOKUP(A2,I:J,2,FALSE)=VLOOKUP(B2,L:M,2,FALSE)去重求个数=SUMPRODUCT(1/COUNTIF(C2:C7,C2:C7))求和=SUM(D2:D7)求均值，四射五入=ROUND(B11/C11,2)求均值，并做异常处理=IFERROR(...

2018-02-11 10:40:10 2177

转载 scala基础

翻译自《big data analytics with spark》第二章Programming in Scalascala基础虽然scala包含了面向对象编程和函数式编程的能力，但是他更侧重函数式编程。写spark程序，只会用到一点点scala的基本功能，所以只需要学一点点scala就可以了。自带的类型：这些都是类，scala没有类似int、long这样的基本数据类型Byte、Short、Int

2017-11-23 09:45:59 580

原创 100行代码入门Scala

100行代码入门scala//定义类，传入变量默认实现get set方法class People(var name:String, var age:Int) { //默认构造函数 println("get people one") name+="_name" var company = "abc" //自定义构造函数 def

2017-10-17 16:01:00 1080 2

原创 Linux高级命令汇总

安装rpm -qa |grep softwarename 列出所有被安装的rpm package,包含softwarename的软件rpm　–e softwarename 删除软件rpm　–e --nodeps softwarename 强制删除软件包rpm　–Uhv softwarename.rpm 升级软件包（-U参数是告诉RPM先删除原先的版本，再安装新的版本）系统查看ls...

2017-09-15 10:52:58 1048

原创 Hbase命令整理

hbase shell general命令：ddl 命令

2017-09-14 17:10:40 771

原创 HIVE全部函数详解

函数名含义及实例 abs abs(x) - returns the absolute value of x Example: > SELECT abs(0) FROM src LIMIT 1; 0 > SELECT abs(-5) FROM src LIMIT 1; 5 acos acos(x) - returns the

2017-09-13 18:04:28 16994 1

原创 Mapreduce实例-JOIN

package com.sohu.tv.amstat.mr.test;import java.io.IOException;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.h

2017-07-28 13:55:17 618

原创 Spark MLlib之协同过滤

Spark MLlib 协同过滤实例

2017-03-23 14:16:20 1953

原创 Spark MLlib之KMeans

Spark MLlib之KMeansimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Function;im

2017-03-22 17:46:04 1687 1

原创 Spark MLlib之线性回归

回归 RegressionMetrics mllib spark

2017-03-22 14:12:46 2921 1

原创 SPARK各种提交方式总结

1，Spark SQL1.1 spark sql运行在yarn之前注意在/etc/profile配置export HADOOP_HOME=/data/hadoop/hadoop-2.7.1export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop1.2 需要将hive-sit

2017-03-21 18:24:04 5609

原创 Hive ORC数据格式的MapReduce Shuffle

1，mr代码如下package com.test.hadoop;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apach

2017-03-03 17:01:25 1487

原创 MD5/DES/AES加密实现

三种加密方式,java版本实现代码如下：import java.io.UnsupportedEncodingException;import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;import javax.crypto.Cipher;import javax.crypto.Ke

2016-12-23 14:58:17 2198

转载 [译] MYSQL索引最佳实践

转自http://www.uoota.com/blog/archives/27218?utm_source=geek你做了一个明智的选择理解索引对开发和dba来说都是极其重要差劲的索引对产品问题负相当大的一部分责任索引不是多么高深的问题MySQL 索引一览表理解索引为你的应用创建最佳索引拥抱MySQL的限制简述索引索引有什么用为从数据库读取数据加速强制约束 (唯一索引 UNIQUE, 外键 FOR

2016-12-05 14:33:44 1609

原创 python,scala,java中的map,reduce和filter

1,python中的map,reduce,filter使用 >>> a=[1,2,3,5]>>> map(lambda x:x+x,a)[2, 4, 6, 10]>>> map(lambda x:2*x,a)[2, 4, 6, 10]>>> reduce(lambda x,y:x*y,a)30>>> filter(lambda x : x%2,a)[1, 3, 5]2,sc

2016-12-01 12:04:09 2603 1

原创数据挖掘-高等数学常用概念用法总结

1, 对数：如果a的x次方等于N（a>0，且a不等于1），那么数x叫做以a为底N的对数（logarithm），记作x=logaN。其中，a叫做对数的底数，N叫做真数默认以e为底数>>> from math import *>>> log(8,2)3.0>>> log(100,10)2.0>>> log10(100)2.0>>> log(10)2.302585092994046

2016-11-29 17:35:03 2129

转载史上最全“大数据”学习资源整理

当前，整个互联网正在从IT时代向DT时代演进，大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。　　为了帮助大家更好深入了解大数据，云

2016-10-21 15:00:58 4992 1

原创 Hbase的REST访问

Hbase的访问方式1、Native Java API：最常规和高效的访问方式；2、HBase Shell：HBase的命令行工具，最简单的接口，适合HBase管理使用；3、Thrift Gateway：利用Thrift序列化技术，支持C++，PHP，Python等多种语言，适合其他异构系统在线访问HBase表数据；4、REST Gateway：支持REST 风格的Http API访问HBase,

2016-07-28 16:23:38 17025 2

原创 Hive ORC数据格式的MapReduce读写

1，先上代码package com.test.hadoop;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.

2016-07-27 18:22:45 11676 3

原创数据交换工具DataX使用

1，下载svn co http://code.taobao.org/p/datax2，安装根据服务器安装软件情况可能需要安装下面软件yum install antyum install gcc-c++进入rpm目录编译cd datax/trunk/rpmrpmbuild --ba t_dp_datax_engine.specrpmbuild --ba t_dp_datax_hdfsreader.

2016-07-22 19:31:37 16308 1