自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lm709409753的专栏

最怕你一生碌碌无为,还安慰自己平凡可贵!梦想要有,并为之坚持✊。

  • 博客(112)
  • 资源 (8)
  • 收藏
  • 关注

原创 java Date类型数据存储到Mysql后时间和系统当前时间有差距

java Date类型数据存储到Mysql后时间和系统当前时间有差距

2024-01-04 09:50:46 409 1

原创 ubuntu配置开机服务自启和定时任务

将一些自启脚本放置到/etc/init.d目录下,然后编辑 /etc/rc.local。注:博客又开始更新了,会记录做机器视觉(测距)和自然语言处理的一些实践。在启动脚本时可以打印一些状态信息,用于后期排查使用!可以编辑crontab -e,然后加入定时任务。

2023-07-09 15:10:28 646

原创 fastapi-跨域、静态文件添加

【代码】fastapi-跨域、静态文件添加。

2023-07-09 15:00:26 506

原创 特征工程-特征处理

1 特征工程 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。 特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果。“工欲善其事,必先利其器”,特征工程可以理解为利其器的过程。2数据采集、数据清洗、数据采样...

2019-10-24 13:16:28 559

原创 MobileNet总结

MobileNet V1MobileNet主要是针对移动端或者嵌入式设备优化的卷积。特点:(1)放弃pooling直接采用stride = 2进行卷积运算。(2)使用depthwise separable convolutions。(3)用两个超参数来控制网络计算速度与准确度之间的平衡,宽度调节参数和分辨率参数,主要用于压缩模型。Depthwise separable convolut...

2019-09-10 14:49:39 1202

原创 Kenlm 使用

总结工作中用到及学习的知识,也算自己的一个笔记。 环境准备 #公司环境为Centos7.3yum install gcc gcc-c++yum install boostyum install boost-develyum install zlibyuminstallzlib-develwget-O-https://kheafield.com/code/kenlm.ta...

2019-05-18 10:36:38 5150 4

原创 语言模型-Ngram

总结工作中用到和学习的知识,也算自己的一个笔记。 语言模型 语言模型简单来讲,就是计算一个句子的概率,更确切的说是计算组成这个句子一系列词语的概率。 举个简单的例子,我们知道“武松打死了老虎”相比于“老虎了死武松打”,更像是一句正常的话,这是因为前者出现的概率更高。对一句话而言,它的概率举个简单的邮件分类例子,对于垃圾邮件中...

2019-05-17 12:21:21 3741

原创 Tensorboard 使用

2019-04-19 16:29:26 89

原创 Tensorflow房价预测案例

1 定义目标函数2. 定义符合的损失函数3.梯度下降,更新参数阿尔法值不同,会影响模型,有可能陷入局部最优解数据归一化使用Tensorflow开发流程...

2019-04-18 17:23:48 522

原创 TensorFlow loss

经验风险,

2019-04-18 17:06:02 271

原创 TensorFlow session

本地计算,会话执行机制,创建session,然后连接server执行

2019-04-18 16:32:43 126

原创 TensorFlow模块介绍

TensorFlow 模块执行的时候,相当于拓扑排序,先把入度为0的节点加入计算队列,执行完后,更新节点的入度,如果有节点的入度为零,则加入执行队列。为零可能多个,则可以并行执行。(1)并行计算块(2)分布式计算块(cpus,gpus,tpus) (3) 预编译优化(4)可移植性好...

2019-04-18 16:11:13 1264

原创 TensorFlow介绍和安装使用

TensorFlow1.后向传播的发展,促进深度学习,梯度下降2.TensorFlow 创作者 Jeff Dean Google Brain负责人hadoop mapreduce,bigtable pfGPU TPU为tensorflow专研的设备3.智能社会,银行内没有人,活动场景识别、行为识别、OCR+自动审核,身份证人脸图像比较识别落地应用:机器翻译;能源节能:牛奶...

2019-04-18 13:35:27 141

原创 专题机器学习和深度学习---1.python

最近很少写文章,打算把以前的机器学习和深度学习写一个专题,每天都要写一点,写在这里打个卡,也是督促自己。总结下python。python是一个脚本语言。常用的分析库/包(1)numpy :数组,矩阵(2)scipy : 统计、优化、线性代数、信号、图像处理等(3)pandas: 基于numpy,数据框,序列,数据处理,绘图(4)statsmodule 统计检验,统计建模(5)s...

2019-04-17 12:09:14 156

原创 spark 提交jar包优化

1.原因在测试中,使用livy去运行spark程序,采用代码片段的方式。但是应用在启动的,会把本地的jar文件上传到hdfs,然后再从hdfs分发到其它的运算节点,这个很影响性能。可以配置如下内容2.配置之后,应用等待时间,明显降低。第二个参数,主要是删除应用jar的缓存,防止应用过多,占用hdfs存储。...

2018-12-25 16:58:32 643

原创 spark提交脚本,记录相关信息

主要是记录GC的相关内容,每个任务的最大重试次数。/usr/lib/spark/bin/spark-submit --class com.centrality.kBC.kBCDriver --executor-cores 1 --executor-memory 10000M --master yarn-cluster --num-executors 28 --conf spark.driver....

2018-12-21 10:48:13 256

原创 graphx-lpa

1.LPA 标签传播算法,主要是顶点计算函数,选择label标签最多的项,更新顶点的属性。根据相应的业务,可以修改graphx的源码进行修改,改为我们业务中需要的标签值。由于LPA很难保证收敛,所以要设定迭代次数。2.代码object LabelPropagationAlgorithm { /** * Run static Label Propagation for detecti...

2018-12-15 23:36:50 608

原创 graphx-ConnectedComponents

1.ConnectedComponents返回一个与原图结构相同的图,只是顶点的属性变为连通图中最小的顶点ID。2.算法 grpahx源码import scala.reflect.ClassTagimport org.apache.spark.graphx._object ConnectedComponents { /** * Compute the connecte...

2018-12-15 21:52:10 970

原创 graphx-pagerank

1.算法描述pagerank算法里面,要设置一个随机重置概率,主要为了解决顶点自循环和顶点没有出边造成的问题。2.代码import org.apache.spark.graphx.GraphLoaderimport org.apache.spark.sql.SparkSessionobject PageRankExample { def main(args: Array[Str...

2018-12-15 21:05:44 389

原创 graphx-最短路径

1.最近在总结图计算,把相关算法实现贴出来,坐下总结,作为督促。算法实现多数是graphx。package org.apache.spark.graphx.algorithmsimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.graphx.{EdgeDirection, VertexId, Gr...

2018-12-15 20:44:57 1363 1

原创 jausgraph中支持gremlin的操作

public static final String map = "map"; public static final String flatMap = "flatMap"; public static final String id = "id"; public static final String label = "label...

2018-12-02 16:34:46 442

原创 Spark机器学习--treeAggregrate

最近项目不是很忙,把一些东西整理出来,当作笔记,主要是为了养成一个好的习惯。这个主要介绍MLlib源码主要出现的treeAggregratepackage com.lm.spark.mlimport org.apache.spark.{SparkConf, SparkContext}object Treeaggreate { def main(args: Array[String...

2018-11-02 18:54:21 240

原创 cdh apache 下载地址

cdh apache 下载地址1.apache http://archive.apache.org/dist/hadoop/common/2.cdh http://archive.cloudera.com/cdh5/cdh/5/避免找错

2018-09-22 10:38:02 907 1

原创 YARN Resourcemanager引入挖矿病毒的经历

原因由于同事为了测试方便,把YARN RM的8088对外网开放了,导致攻击者可以通过RM 的rest api直接可以提交应用。解决参考博客https://labitacoranet.wordpress.com/2018/05/16/forensic-analysis-of-a-cryptocurrency-mining-attack-in-a-big-data-cluster/我解...

2018-06-01 17:24:49 3296 1

原创 YARN 任务日志存储到HDFS中

场景:公司使用YARN运行非MR、SPARK的任务,任务是一个长期的任务,在测试阶段,任务可能会挂掉,任务产生的日志对于问题的分析是必不可少的。为了保留任务容器产生的日志,在YARN中要配置相应的参数,开启日志聚合等操作。 配置文件如下 yarn-site.xml。我下面只写出日志相关的配置内容<property> <name>yarn.log-...

2018-05-04 14:59:15 2997

原创 rabbit1. 安装

版本号RabbitMQ 3.6.12, Erlang 19.0.4 centos 6.8安装依赖环境yum install xmlto gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel unixODBC-devel wxBase wxGTK wxGTK-gl perl -y下载地址erlang http://ww...

2018-03-21 18:00:40 312

原创 分布式服务架构

本篇文章将会不断的更新分布式服务框架:服务消费端服务提供端数据序列化、反序列化服务注册中心服务治理服务数据通讯机制

2018-01-05 17:49:04 208

原创 Hadoop YARN ERROR 1/1 local-dirs are bad *, 1/1 log-dirs are bad *

nodemanager log内容yarn web日志修改删除数据目录下不需要的内容,系统可用 参考博客: http://blog.csdn.net/duyuanhai/article/details/54908382

2017-12-26 16:49:26 325

原创 一些好的文章/博客/交流

epoll理解 https://www.zhihu.com/question/20122137

2017-12-19 16:32:49 300

原创 hadoop namenode启动失败解决

问题描述机房测试环境由于停电原因,再次启动namenode节点报错,启动不了,出现如下错误:org.apache.hadoop.hdfs.server.namenode.FSImage: Failed to load image from FSImageFile解决办法把已经启动的namenode节点的元数据信息拷贝到standby节点上,然后再次启动namenode节点。 不推荐重新格式化had

2017-12-19 14:17:21 1843

转载 StringUtils类中isEmpty与isBlank的区别

org.apache.commons.lang.StringUtils类提供了String的常用操作,最为常用的判空有如下两种isEmpty(String str)和isBlank(String str)。StringUtils.isEmpty(String str) 判断某字符串是否为空,为空的标准是 str==null 或 str.length()==0System.out.println(St

2017-12-18 11:33:24 183

原创 Hadoop2.6.1 源码编译

安装jdk,并配置环境变量,此版本的hadoop,jdk要使用jdk 7的,jdk 8会出现异常。 安装protobuf ,版本为2.5.0 安装之前,先要安装一些依赖库 yum install g++ autoconf automake libtool cmake zlib1g-dev pkg-config libssl-dev$ ./configure$ make$ make check

2017-08-31 16:08:21 297

原创 linux 下tmp目录文件怎么被删除的?

tmp目录下文件什么时候会删除?写这篇文章是我要重启长时间运行的hadoop集群的时候,关闭不了相应的服务。查看shell脚本看到,要找到服务的pid文件,才能重启,一般情况下pid文件都会存储在tmp目录下,但是pid文件却不见了为了保证tmp目录不爆满,系统默认情况下每日会处理一次tmp目录文件,原理就是使用了tmpwatch。tmpwatch 作用tmpwatch作用:removes fil

2017-08-07 17:06:00 9775

原创 配置yarn调度器后,自动刷新集群队列

前期配置的容器调度策略,配置之后,然后重启了应用环境,(感觉好蠢),今天在阅读文档的时候,发现可以使用 yarn rmadmin -refreshQueues 命令。

2017-07-31 15:37:03 1306

原创 cp 拷贝文件的时间

拷贝日志文件的时候,为了验证日志的写入顺序,最好加上-p的属性,可以保持文件的原来的时间属性,方便查看,否侧会修改问文件拷贝的当前时间。 cp -rfp source dest

2017-07-10 16:21:32 1473

原创 maven打包跳过测试

取消编译时候的自动测试 org.apache.maven.plugins maven-surefire-plugin true

2017-04-21 18:23:17 233

原创 tar解压命令问题

问题tar: /tm: 归档中找不到 tar: 由于前次错误,将以上次的错误状态退出解决加上 -C 就好了

2017-04-18 14:27:39 804

原创 版本比较

代码package com.liangman.bigdata.spark.coreimport scala.util.control.Breaks/** * 软件版本比较 * 软件版本号一般分为3段, a.b.c * a 表示大版本号 * b 表示功能更新 * c 表示小修改,修复bug * Created by lm on 2017/4/16. */class V

2017-04-16 23:13:07 291

原创 harpc php

Harpc GitHub add:https://github.com/baifendian/harpc问题:harpc原理?怎么加上php支持?rpc的全称是remote procedure call,翻译过来就是远程过程调用。远程调用的意思就是程序调用的方法实现不是在程序所在的本地,而是在远程的某个地方。远程调用的好处就是解耦。当server需要对方法内实现修改时,client完全感知不到,不用

2017-02-21 08:49:19 515

转载 hive大数据倾斜总结

转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.htmlhive大数据倾斜总结在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原

2017-01-20 21:05:11 229

scala-2.11.8.tgz

https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 官网下载不了,分享下。

2018-05-11

HTTP权威指南(高清带目录)

HTTP权威指南(高清带目录) 该文档被我压缩了 本书是HTTP协议及相关Web技术方面的权威著作,主要内容包括: HTTP方法、首部以及状态码 优化代理和缓存的方法 设计Web机器人和爬虫的策略 Cookies、认证以及安全HTTP 国际化及内容协商 重定向及负载平衡策略

2018-04-11

Redis开发与运维 pdf

本书全面讲解Redis基本功能及其应用,并结合线上开发与运维监控中的实际使用案例,深入分析并总结了实际开发运维中遇到的“陷阱”,以及背后的原因, 包含大规模集群开发与管理的场景、应用案例与开发技巧,为高效开发运维提供了大量实际经验和建议。本书不要求读者有任何Redis使用经验,对入门与进阶DevOps的开发者提供有价值的帮助。主要内容包括:Redis的安装配置、API、各种高效功能、客户端、持久化、复制、高可用、内存、哨兵、集群、缓存设计等,Redis高可用集群解决方案,Redis设计和使用中的问题,最后提供了一个开源工具:Redis监控运维云平台CacheCloud。

2018-03-29

开源大数据分析引擎Impala实战

开源大数据分析引擎Impala实战.pdf 该资源来自网络,仅用于分享知识,学习和交流,请勿用于商业用途。请支持正版! (请支持原作者)

2017-11-27

快学Scala 中文版带目录

快学Scala 中文版 带目录 第一版 清晰 蛮不错的书籍,适合大家学习!

2017-10-18

《像计算机科学家一样思考Python》

《像计算机科学家一样思考Python》按照培养读者像计算机科学家一样的思维方式的思路来教授Python语言编程。全书贯穿的主体是如何思考、设计、开发的方法,而具体的编程语言,只是提供一个具体场景方便介绍的媒介。《像计算机科学家一样思考Python》并不是一本介绍语言的书,而是一本介绍编程思想的书。和其他编程设计语言书籍不同,它不拘泥于语言细节,而是尝试从初学者的角度出发,用生动的示例和丰富的练习来引导读者渐入佳境。

2017-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除