Marho11-CSDN博客

原创 1-Attention

1 Attention机制注意力机制，顾名思义，它的主要作用是让神经网络把“注意力”放在一部分输入上，即：区分输入的不同部分对输出的影响。1.1 Encoder-Decoder框架在学习Attention之前，不得不先谈下Encoder-Decoder框架，因为目前大多数注意力模型附着在Encoder-Decoder框架下，当然，其实注意力模型可以看作一种通用的思想，本身并不依赖于特定框架，这点需要注意。 Encoder-Decoder框架可以看作是一种深度学习领域的研究模式，应用场

2021-04-16 13:40:06 315

原创从当前目录mv指定数量的文件夹到指定目录

当前目录结构：/data1 /data1/1.txt /data1/2.txt/data2 /data2/3.txt /data2/4.txt/data3 /data3/5.txt /data3/6.txt#将当前目录下前2个目录及子目录文件mv到/tmp目录下：ls -l | grep "^d" | head -n 2 | awk '{print $9}' | xargs -i mv {} /tmp...

2020-10-16 10:27:04 956

原创 log4j日志未生效

问题配置了log4j为Info，仍会打印DEBUG日志。原因引用的项目中有依赖logback的jar，这样会导致冲突，配置的日志文件就不起作用，将查看，藏在spring-boot-starter-logging中解决方案去掉logback相关的jar<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-b

2020-09-16 16:27:21 1706

原创 Processing of multipart/form-data request failed. Connection reset by peer

使用post 上传大文件（其实也只有50M）时报错：Processing of multipart/form-data request failed. Connection reset by peer。经排查，是spring没有配置上传文件大小，采用了默认值（非常小），在application.properties中添加:spring.http.multipart.maxFileSize=10MBspring.http.multipart.maxRequestSize=10MBmaxFile

2020-08-20 10:33:06 3804

原创机器学习三要素：模型、策略与算法

模型：就是用来描述客观世界的数学模型，如lr的sigmoid函数。策略：从假设空间中挑选出参数最优模型的准则。经验风险最小化作为常用的标准，是一个参数优化的过程，这就需要构造一个损失函数来描述经验风险。如交叉熵损失函数。算法：优化模型参数的方法，即最小化损失函数的算法。如梯度下降。...

2020-07-29 18:14:57 309

转载 excel 查找/替换回车键

excel 查找/替换回车键操作如下：首先 ctrl +f在”查找内容“中输入回车键的组合2.1 如果是笔记本电脑，右下角不是数字键盘的那种光标放入“查找内容” 按下 ctrl与j;2.2 如果用的是大键盘的话，就是那种右下角是数字键盘的光标放入“查找内容” 按下 Alt 与1与0。（注意是右下角的数字键盘，alt按下不要松，然后按1，松1 按0 松0 最后松alt ）...

2020-01-05 12:03:21 12208

转载机器学习中正则化项L1和L2的直观理解

https://blog.csdn.net/jinping_shi/article/details/52433975

2018-10-09 14:28:15 234

转载 idea打包java可执行jar包

1,在项目上鼠标右键 --&amp;gt; Open Module Settings2, Artifacts --&amp;gt; + --&amp;gt; JAR --&amp;gt; From modules with dependencies…3, Main Class是你这个项目(脚本)的主方法,就是要运行的类,选一个4,如下图,设置 META-INF/MANIFEST.MF!!!切记,不能用默认的(起码我.

2018-10-09 14:28:03 614

转载 maven添加ojdbc6

由于oracle官方未授权，所以maven上无法直接下载ojdbc，需要自己下载，然后通过命令加载到本地maven库中，详细步骤如下：1、到官方下载，地址：http://www.oracle.com/technetwork/indexes/downloads/index.html，找到“drivers”-“jdbcDrivers”，打开，点击同意协议，就可以选择版本下载了2、将jar包放在d盘...

2018-09-29 13:10:04 3749 1

转载 Hadoop 获取Active Namenode的IP地址

由于工作需要，需要拿到当前集群的Active Namenode的Ip地址，所以写以下小代码，防止忘记，记录一下：import java.io.IOException;import java.net.InetSocketAddress;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSys...

2018-09-28 10:51:37 5336

转载 oracle进行分组后，取出每组的前几条数据

SELECT * FROM ( SELECT 分组的字段名, ROW_NUMBER() OVER(PARTITION BY 分组的字段名 ORDER BY 排序的字段名) AS RN FROM 表名) WHERE RN <= 10 得到分组后,数据的前几条...

2018-09-13 14:54:45 9370

转载 java 多层json转map

public static Map<String, Object> parseJSON2Map(String jsonStr){ Map<String, Object> map = new HashMap<String, Object>(); JSONObject json = JSONObject...

2018-08-27 17:18:12 7528 1

原创 windows Anaconda 安装xgboost

1、转到https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost安装对应版本的xgboost文件，选择适合自己python版本和系统版本的文件下载. 2、安装pip install C:\MyDisk\Software\xgboost-0.72-cp36-cp36m-win_amd64.whl安装后，进入python命令行，import...

2018-08-03 15:09:45 285

转载 Pandas：让你像写SQL一样做数据分析（二）

转自：http://www.cnblogs.com/en-heng/p/5686062.html 1. 引言前一篇介绍了Pandas实现简单的SQL操作，本篇中将主要介绍一些相对复杂一点的操作。为了方便后面实操，先给出一份简化版的设备统计数据：0 android NLL 387546520 20994579110 ios NLL 52877990 916421755...

2018-06-28 10:52:50 1143

转载 Pandas：让你像写SQL一样做数据分析（一）

转自http://www.cnblogs.com/en-heng/p/5630849.html 1. 引言Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类：Series，1维序列，可视作为没有column名的、只有一个column的DataFrame；DataFrame，同Spark SQL中的DataFrame一样，其概念来自于R语言，为多colu...

2018-06-28 10:15:17 406

原创 Oracle查看某个用户下所有表的记录总数和所有表的字段总数、记录数

如我想查看用户M下的所有表的总记录数：SELECT SUM(num_rows) FROM SYS.ALL_TABLES T WHERE T.OWNER = 'MARHO';但是查出的不是实时记录数。如果想查看用户M下所有表的字段总数：SELECT * FROM SYS.dba_TAB_columns T WHERE T.OWNER = 'M';

2017-11-22 19:37:59 14582

原创 Intellij Idea安装主题包

打开主题网址：http://color-themes.com/?view=index，里面有各种主题。下载自己喜欢的主题。然后进行设置：导入主题： file –> import setttings –> 选中主题jar文件 –> 一路确认 –> 重启设置主题： Preferences -> editor –> colors & fonts

2017-10-17 15:48:01 1138

转载 ssh 免密码登录设置后还是提示需要输入密码

是权限问题：chmod 700 ~/.ssh/chmod 700 /home/userNamechmod 600 ~/.ssh/authorized_keyshttp://blog.csdn.net/xyl295528322/article/details/37762557

2017-08-24 10:16:02 1347

转载递归算法

递归算法就是一个函数通过不断对自己的调用而求得最终结果的一种思维巧妙但是开销很大的算法。比如：汉诺塔的递归算法：void move(char x,char y){ printf("%c-->%c\n",x,y);}void hanoi(int n,char one,char two,char three){/*将n个盘从one座借助two座，移到three座*/ if(n==1

2017-08-17 17:09:11 519 1

原创如何通过命令将本地项目代码上传到github

1、建立github仓库在待传项目代码的根目录下打开命令行工具，键入：git init2、将项目的所有文件添加到仓库中git add .如果只是想添加指定的文件，那么将.换成该文件名即可。3、commitgit commit -m "注释部分"4、打开自己的github，创建Repository：点击Create repository，获取红色部分的链接：

2017-04-25 14:46:15 547

原创 thrift 实例

Thrift是一个软件框架，用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码生成引擎，以构建在 C++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C#, Cocoa, JavaScript, Node.js, Smalltalk, and OCaml 等等编程语言间无缝结合的、高效的服务。Thrift最初由facebook

2017-04-25 10:45:19 806

转载最大似然估计总结笔记

http://blog.csdn.net/yanqingan/article/details/6125812

2017-02-17 14:00:46 669

转载极大似然原理

参考资料

2017-01-06 13:57:06 691

转载正态分布（Normal distribution）又名高斯分布（Gaussian distribution）

转自：http://blog.csdn.net/rns521/article/details/6953591正态分布（Normal distribution）又名高斯分布（Gaussian distribution），是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布，记为：X∼

2017-01-03 17:34:59 18930 1

转载一种提取HTML网页正文的方法

package getContent;import java.io.IOException;import java.util.HashMap;import java.util.Stack;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup

2016-11-17 21:10:44 1514

原创 [Anaconda2]Selenium+PhantomJS环境搭建

最近在学习python的js解析，发现使用Selenium+PhantomJS的方案还是比较适合我的，以下是环境配置教程。Selenium及PhantomJS介绍：Selenium是一个用于Web应用程序测试的工具，Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Chrome等。 Phantom JS是一个服务器端的 Java

2016-11-15 11:17:11 3612 1

原创 Window环境下使用IntelliJ IDEA调试Spark Application

最近在玩spark，每次敲完代码，就需要打成jar包上传服务器进行测试，所以比较繁琐，准备在window环境下使用IntelliJ IDEA搭建Spark调试环境。在window环境下先安装Spark环境：安装jdk，建议1.8+，配置java环境变量。下载Hadoop，并安装，配置环境变量，修改配置文件。下载Spark，并解压缩至本地，我的版本是spark-2.0.1-bin-hadoop2

2016-11-03 17:33:44 4108

转载 Scala字符串处理常用函数

package com.agiers.util import java.io._import java.nio.channels._import java.nio._import java.net.{ URLEncoder, URLDecoder }import com.spreada.utils.chinese.ZHConverterimport scala.collection.

2016-11-01 20:50:33 4438

转载 Scala break和continue

Scala没有提供break和continue，可以通过以下方式实现一个：import util.control.Breaks._ object BreakDemo { def main(args: Array[String]) { breakable { for (i <- 1 to 10) { if (i == 2) break() els

2016-10-28 17:04:51 2199

原创使用Anaconda下载工具包

Anaconda作为一个工具包集成管理工具，下载python工具包是很方便的，直接敲：conda install package_name但是有时候安装一个工具包（如xmltodict）的时候，在当前的channels中找不到这个包，会提示：[root@master sbin]$ conda install xmltodictFetching package metadata .......So

2016-10-20 13:52:57 11656 1

原创 Spark和Anaconda结合

安装Anaconda后，编辑~/.bashrc或者~/.bash_profile文件：export PATH=/yourpath/anaconda2/bin:$PATH然后使用ipython启动spark shellPYSPARK_DRIVER_PYTHON=ipython $SPARK_HOME/bin/pyspark就可以在pyspark shell中使用Anaconda中的python工具包了

2016-10-20 13:44:15 4766

转载 Mariadb配置文件优化参数（仅供参考）

[client]#password= your_passwordport= 3306 socket= /tmp/mysql.sock!includedir /opt/local/mysql/wsrep# The MySQL server[mysqld]port= 3306socket= /tmp/mysql.sockbasedir = /opt/

2016-10-13 21:45:13 15931

原创 CentOS7.2下MariaDB的安装

centos7.2安装mariadb集群：1、关闭SELinux：先查看SELinux状态：/usr/sbin/sestatus -v，如果SELinux status: enabled，说明是开启状态，修改/etc/selinux/config 文件将SELINUX=enforcing改为SELINUX=disabled 重启机器即可。或者setenforce 0临时关闭。2、关闭防火墙sy

2016-10-13 21:40:33 3853

原创 Mariadb集群实现部分数据库不同步的功能

更改每个机器的/etc/my.cnf.d/server.cnf文件：添加[server]server-id = 1replicate-ignore-db=db_name1,db_name2binlog-ignore-db=db_name,db_name2其中在同一个复制组（replicating group）里面server-id应该是唯一的，值在1~2^31-1。replic

2016-10-13 21:40:01 2291

转载 Linux下修改PATH变量

PATH环境变量的设置方法：方法一：用户主目录下的.profile或.bashrc文件（推荐）登录到你的用户（非root），在终端输入： sudogedit /.profile(or.bashrc)可以在此文件末尾加入PATH的设置如下：exportPATH=” sudo gedit ~/.profile(or .bashrc) 可以在此文件末尾加入PATH的设置如下： expo

2016-09-22 16:31:16 6203 2

转载 pyspark命令行打印日志问题

在使用spark-submit运行工程jar包时常常会出现一下两个问题： 1.在程序中手打的log（如print（“***testRdd.count=”+testRdd.count()）常常会因被下一个Job的执行日志覆盖掉而无法查看日志；，或执行日志过多，不好查看print的内容。 2.一旦命令窗口被关闭或者电脑因断电等原因异常关闭，程序便终止运行。其中，第一个问题可以通过将运行日志

2016-09-22 10:31:44 7003

转载 Lateral View语法

语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* 数据准备假设我们有一张表pageAds，它有两列数据，第一列是pageid string，第二列是adid_list，即用逗号分隔的广告ID集合。mahao@ubuntu:~$ cat pageAds.txt "fro

2016-09-21 20:08:52 761

原创 Spark中的aggregate和aggregateByKey的区别及疑惑

aggregate将初始值和第一个分区中的第一个元素传递给seq函数进行计算，然后将计算结果和第二个元素传递给seq函数，直到计算到最后一个值。第二个分区中也是同理操作。最后将所有分区的结果经过combine函数进行计算（先将前两个结果进行计算，将返回结果和下一个结果传给combine函数，以此类推），并返回最终结果。>>> data = sc.parallelize((1,2,3,4,5,6),2

2016-09-21 16:31:20 7760 1

翻译快速开始Spark

基础Spark shell提供一个交互式的数据分析工具，可以用来学习API。启动python的shell：./bin/pysparkSpark的最主要抽象是RDD（Resilient Distributed Dataset），数据在spark内部用RDD表示。可以使用Hadoop InputFormats（如HDFS）或其他RDDs来创建RDDs。启动Spark shell后，会自动创建一个

2016-09-19 13:08:39 489

原创 Hive分桶表及抽样查询

抽样查询对于非常大的数据集，用户不需要全部查询的结果，只需要一个代表性的查询结果时，可以通过对表进行分桶抽样。 Hive桶先介绍一下Hive桶。桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织，对列值哈希，然后除以桶的个数求余，决定将该条记录存放到哪个桶中。好处： 1、获得更高的查询处理效率。 2、使抽样更高效。创建带桶的table：create table

2016-09-14 17:12:28 10580 1

word2vec 中的数学原理详解.pdf

Spark大数据处理：技术、应用与性能优化

机器学习最新课件

集体智慧编程中文版

（数据挖掘概念与技术第三版（英文原版）

数据挖掘概念与技术-(英文第2版)课后习题答案

空空如也