自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(239)
  • 资源 (2)
  • 收藏
  • 关注

原创 mapreduce问题记录

# -*- coding:utf-8 -*-import sysimport osfrom collections import defaultdictdef emoji_merge(tokens): res = [] emoji = "" flag = False for token in tokens: if token == '[': flag = True emoji = token

2021-04-07 15:18:57 209

原创 (六)IME之Constituency Parser

简介中文的Constituency Parser的工具比较少,Stanford CoreNLP应该是最有的选择。 stanza是Stanford CoreNLP的最新python包,官网链接。安装jdk 1.8 64bitpip install stanzastanza提供了下载Stanford CoreNLP的java包和中文模型的接口import stanzastanza.install_corenlp(dir="YOUR_CORENLP_FOLDER")stanza.downloa

2020-10-20 16:37:58 1189 1

原创 tensorflow Estimator train & evaluation & prediction & export model

Estimator实现transition based dependency parsingimport numpy as npimport mathimport tensorflow as tfimport cjdpyWORD_NUM = 6def model_fn(features, labels, mode): # word_lookup = tf.truncat...

2019-09-18 17:38:58 450

原创 Neural Response Generation via GAN with an Approximate Embedding Layer

1. Goal用GAN来对dialogue system建模,从而减少safe response(e.g. “我不知道”, “我也是”)。2. Contribution提出了一个AEL (Approximate Embedding Layer )来解决seq2seq模型decode阶段由于sampling导致的不可微问题(non-differentiable problem)。3....

2018-08-15 10:35:26 474

原创 sklearn源码解读1(sklearn.linear_model.LinearRegression)

Situation&Task:机器学习的回归问题,尝试用LinearRegression这个model,涉及调参问题。Actioin:看LinearRegression的源码,简单做个笔记。Result&learned:LinearRegression中的fit函数求参数w和b,是用normal equation求解的。具体求解方法:numpy.linalg.lstsq

2017-12-27 19:56:06 3218

转载 JVM内存自动管理

转载与:http://blog.csdn.net/zhangerqing很多Java面试的时候,都会问到有关Java垃圾回收的问题,提到垃圾回收肯定要涉及到JVM内存管理机制,Java语言的执行效率一直被C、C++程序员所嘲笑,其实,事实就是这样,Java在执行效率方面确实很低,一方面,Java语言采用面向对象思想,这也决定了其必然是开发效率高,执行效率低。另一方面,Java语言对程序

2017-03-09 22:19:37 428

原创 Centos6.8安装Vim8.0

1、首先卸载旧版本的vim(之前我使用yum安装的vim,vim版本为7.4,卸载命令:yum erase vim)2、从github(https://github.com/vim/vim)上下载vim,得到vim-master.zip,安装目录为/opt/vim-8.0在/opt/vim-8.0/src/features.h中加入(设置vim的配置文件路径):define SYS_VIM

2017-02-26 17:24:31 1678

原创 学习SVM过程思考过的问题

1、在低维空间和高维空间中遇到线性可分和不可分的问题应该如何解决?在低维空间中的线性可分问题,可以直接用logistic回归解,当然也可以用SVM(没有用到核函数);在低维空间中的线性不可分问题,用SVM解,利用核函数将原(低维)空间映射到高维空间(任何一个低维空间中线性不可分的问题,映射到高维空间之后会更趋向于线性可分),当然也存在高维空间中线性不可分的情况,所以在SVM中存在一个松弛变

2016-04-05 10:16:49 431

原创 Streaming(C++)实现WordCount

Streaming 提供来Mapreduce的API,允许我们用非JAVA语言编写map和reduce函数,这是我第一次使用Streaming,也是第一次在linux写shell脚本,值得记录一下(2015/12/16)!我以前习惯用C++写程序,所以这里用C++实现map和reduce。先介绍下使用Streaming实现的步骤:1、写map和reduce函数2、在linux下测试

2015-12-16 15:23:25 1238

原创 Join

import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.util.Tool;import org.apac

2015-12-09 11:31:24 493

原创 倒排索引的简化版

简单介绍下倒排索引:它广泛的应用于全文搜索引擎,提供了一种根据内容查找文档的方式,一般情况下,我们是知道文档才会知道文档的内容,而搜索是依靠关键字进行查找的,这与一般的情况相反,所以称为倒排索引。现在我们的任务是:已知三个文档:file1: mapreduce is simplefile2: mapreduce is powerful is simplefile3: hello

2015-12-08 10:16:14 385

原创 WordCount

记录一个简单的WordCount程序,以后当做模板用import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoo

2015-12-07 10:33:21 392

原创 虚拟机的网络配置

这个文库讲的很好,链接:点击打开链接下面我简单的总结。1、host-only连接方式首先要配置一个虚拟网卡WMnet1,配置一个IP和netmask,这里的IP随便配置,可以不和宿主机在一个局域网内;接着配置虚拟机网卡IP和netmask,这里的IP要和WMnet1在同一个网段。配置完之后,宿主机可以和虚拟机相互通信,但是虚拟机不能访问互联网。这种配置方式的特点是简单、但是不能连接外网

2015-08-06 19:34:43 492

原创 System&Language

Unix系统,产生于1969年,主要创始人丹尼斯.里奇,肯汤普森C语言,产生于1970年,主要创始人丹尼斯.里奇,肯汤普森C++语言,产生于1983年,主要创始人本贾尼·斯特劳斯特卢普Windows系统,产生于1985年Linux系统,产生于1991年,主要创始人本林纳斯·托瓦兹Java语言,产生于1995年,主要创始人詹姆斯·高斯林

2015-06-06 17:09:48 454

原创 指针传递和引用传递

指针传递和引用传递为了更好的理解指针和引用,我们下面来介绍一下指针传递和引用传递。当指针和引用作为函数的函数是如何传值的呢?(下面这一段引用了C++中引用传递与指针传递区别(进一步整理))指针传递参数本质上是值传递的方式,它所传递的是一个地址值。值传递过程中,被调函数的形式参数作为被调函数的局部变量处理,即在栈中开辟了内存空间以存放由主调函数放进来的实参的值,从而成为了实参的一个副

2015-05-12 23:27:28 462

原创 C++函数重载

函数重载是什么?是指在同一作用域内,可以有一组具有相同函数名,不同参数列表的函数(函数返回值不能区分重载)为什么要函数重载?减少了函数名的数量,避免了名字空间的污染,对于程序的可读性有很大的好处C++中为什么不将函数返回类型考虑到函数重载中?这样设计能够保证函数调用能够独立于上下文,不依赖与上下文重载函数的调用时如何匹配的?为了估计哪

2015-05-12 20:34:07 448

原创 [leetcode]Recover Binary Search Tree

Recover Binary Search TreeTwo elements of a binary search tree (BST) are swapped by mistake.Recover the tree without changing its structure.题意:交换了二叉排序树中的两个节点,要求将其还原,不改变树的结构。思路:

2015-05-11 20:45:47 455

原创 排列、组合、递归、搜索

1、给一个字符串,输出它的全排列#include#include#includeusing namespace std;void permutation(char* pstr,char* pbegin){ if(*pbegin == '\0') printf("%s\n",pstr); else{ for(char* pch = pbegin; *p

2015-04-26 11:19:36 540

转载 300道IT面试题

tip:非黑色字体是本人做的笔记,对于一些不懂的问题用?标记过,求大神指点。1. 指出以下变量数据存储位置全局变量int(*g_pFun)(int);g_pFun=myFunction;g_pFun存储的位置(A ) // 为全局的函数指针指向空间的位置( B) //所有函数代码位于TEXT段函数内部变量 static int nCount; ( A)

2015-04-19 17:46:55 5082

原创 平衡二叉树

平衡二叉树(Balanced Binary Tree)又被称为AVL树。性质:它是一 棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树,即平衡因子的绝对值小于1。构造与调整AVL树的方法:红黑树、AVL算法、Treap、伸展树、SBT。

2015-04-07 20:29:01 430

原创 hdu1532(最大流)

好久没做题了,应该有2个多月了,最近在准备找实习工作,看了几道笔试题,遇到一道网络流的题目,可是做不来,所以又来学下网络流。这是一道最大流的模板题。思路:用bfs找最短增广路,求得最短增广路上能通过的最大流量flow,然后该路径上的每条边减去flow,在添加相应的反向边,重复上述操作,知道找不到增广路为止。注意重边!代码如下:#include #include #include

2015-03-19 18:47:07 507

转载 网络流

EK算法即增广路算法首先是网络流中的一些定义:V表示整个图中的所有结点的集合.E表示整个图中所有边的集合.G = (V,E) ,表示整个图.s表示网络的源点,t表示网络的汇点.对于每条边(u,v),有一个容量c(u,v)   (c(u,v)>=0),如果c(u,v)=0,则表示(u,v)不存在在网络中。相反,如果原网络中不存在边(u,v),则令c(u,v)=0.

2015-03-19 13:43:15 531

原创 面试笔试中的一些知识点

1、new/delete、 malloc/free内存泄漏是指堆内存(heap memory)的泄漏(memory leak)。堆内存指程序从堆中分配的,大小任意的(内存块的大小可以在程序运行期决定),使用完后必须显式释放的内存。应用程序一般使用malloc,realloc,new等函数从堆中分配内存,使用完后,程序必须负责相应的调用free或delete释放该内存,否则,这块内存

2015-03-19 13:22:08 542

原创 面试笔试中的排序问题

快速排序:#include #include #define N 100using namespace std;int a[N];void quicksort(int l,int r){ int x = l,y = r; int num = a[x]; //最左边的数字为基准 while(x < y) { while(x

2015-03-17 16:32:34 438

原创 Vim的各种小知识点

1、命令模式下,按i进入编辑模式2、编辑模式下,按esc进入命令模式3、保存文件,命令模式下:w4、退出,命令模式下:q5、显示行号,命令模式下:set nu

2015-03-16 15:12:42 397

原创 Linux经典命令

1、yum基于RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软件包,无须繁琐地一次次下载、安装。yum的命令形式一般是如下:yum [options] [command] [package ...][options]是可选的,选项包括-h(帮助),-y(当安装过程提示选择全部为"yes"),-q(不显示安装的过程)等等。

2015-03-15 21:27:00 384

原创 Centos虚拟机网络配置

1、修改并配置IP,在/etc/sysconfig/network-scripts/ifcfg-eth0文件内修改2、onboot = no 修改为onboot = yes3、设置虚拟机网络连接方式:桥接、NAT等等4、执行network service restart

2015-03-15 13:37:55 429

原创 c++读取bmp图片详解

先介绍几个会用到的函数。1、FILE * fopen(const char * path,const char * mode);path是字符串类型的bmp图片路径;mode读取方式,等下回用到"rb",读写打开一个二进制文件,允许读写数据,文件必须存在。2、int fseek(FILE *stream, long offset, int fromwhere);函数设置文件

2014-12-01 23:54:04 25425 5

原创 hdu3518(后缀数组求至少出现两次以上的不可重叠串)

一段时间没学后缀数组,刚开始练sa[]和rank[]的含义都忘记了。题意:给一个长度为n的字符串,问有多少个字符串至少出现2次以上且不重叠。思路:后缀数组解,求后缀数组的时间复杂度nlogn,求答案的时间复杂度为n*n,枚举字符串长度为i个串,利用height数组,求某个连续区间(height[i] >= i)中排在最左边和左右边的sa,然后两个的差值如果大于等于i的话。ans++。

2014-11-20 15:08:49 651

原创 hdu5107(线段树处理三维问题)

很不错的一道线段树题,这里的降维方式值得我们学习。题意:已知n个建筑的坐标(x,y)和高度,查询点(x,y)的左下角中高度第k小的建筑的高度。解题思路:坐标加高度相当于是一个三维的题目。首先要发现这里的k非常小,所以我们只要用线段树维护区间内最小的10个建筑的高度。现将查询与建筑一起离散化处理,采用巧妙的降维方式,将x、y、flag(是否为建筑)的优先级排序,y作为线段树下标。

2014-11-19 10:44:47 1420

原创 hdu4503(概率的逆向思维)

题意:已知n个小朋友,他们认识的人数,

2014-11-18 16:01:01 653

原创 hdu2296(AC自动机+DP)

题意:构造一个长度为n的字符串,价值最大。思路:比较基础的AC自动机+DP,但是要求记录路径。dp[i][j]表示长度为i,在Trie图中的节点是j的最大价值,用path[i][j]记录路径。状态转移:dp[i][j] - > dp[i+1][从j出发能够到达的点] + val[j]。代码如下:

2014-11-18 12:41:46 1444

原创 hdu4501(多维背包)

题意:多维背包思路:dp[i][j][k][o]表示前i件物品,花了j元,花了k个积分,拿了o个免费品的最优值,状态转移见代码。

2014-11-16 10:16:43 830

原创 hdu5105(求一元三次方程的最值)

f(x)=|a∗x3+b∗x2+c∗x+d|(L≤x≤R)

2014-11-16 09:19:25 1098

原创 zoj3686(重新编号的线段树)

题意:一颗n个节点的树,每个点都有一个权值(0或者1),初始化为0,两个操作:1、取反以i为节点的子树的所有点的权值;2、求以i点为根的子树中1的个数。 思路:dfs将所有节点重新编号,然后就是普通的成段更新。

2014-11-13 19:16:28 530

原创 zoj3689(贪心+DP)

题意:n个任务,剩余t的时间,完成每个任务会消耗时间ti,同时也会得到t*si的价值,求怎么安排任务得到的价值最大思路:先贪心,将n个任务按性价比排序,然后用DP,dp[i][j]表示完成前i个任务,用时j,实现的最大价值,dp[i][j] = max( dp[i][j],dp[i-1][j-ti] + (t-(j-ti))*s1 ),但是很明显这样会超内存,优化dp[j]表示用时t实现的最大

2014-11-13 19:12:26 717

原创 hdu4288(线段树维护多个sum)

题意:给n个有序的数字,三个操作:1、删除数字x;2、增加数字x;3、求i%5=3的数字之和(i为数字的下标)思路:一开始想水一下,结果超时。先对所有输入的数字离散化,线段树维护区间上点的个数和5个sum值,区间合并的时候要注意:左儿子节点和父亲节点的关系很容易,右儿子合并的时候与左儿子中的点个数有关。代码如下:#include#include#include#include

2014-11-08 19:30:19 579

原创 hdu1542(扫描线求面积并)

题意:求多个矩形面积的并思路:扫描线算法,对每个矩形,用两条平行于x轴的线段表示,然后对每条线段的y排序,然后就用平行于x轴的扫描线从y = 0出往上扫,每次求面积。这里n只有100,所以可以用暴力解。

2014-11-08 00:17:24 606

原创 hdu5091(扫描线+线段树)

题意:给n个点,和长w宽h的矩形,问矩形最多能包含多少个点。思路:扫描线+线段树,首先将坐标转化成非负数,对于每个点(x,y),标记为1,生成一个(x+w,y)的点,标记为-1,然后将y轴建立线段树,维护一个最大值即可。如不不明白的话,画个图,理解一下就好了。

2014-11-06 13:53:56 1549

原创 hdu4433(三维DP,后效性)

题意:给你个长度为n的数字串,每次最多旋转三个数字,至少经过都少部才能到达目标串。思路:一开始我也是用DP做的,但是没考虑到后效性,所以wa了。后来看了题解,思路是这样的dp[i][j][k]表示第i为匹配好,第i+1位增加了j,第i+2增加了k。状态转移:第i+2位增加k+x,第i+3位增加y,然后还要考虑到减的情况。

2014-11-06 08:34:13 1196

css教程(pdf中文版)

css入门推荐书,如果你学过了html,想学css那么快来下载吧

2014-03-17

Word Amalgamation

代码精简,相信对你们有帮助。让你感受到stl的魅力。

2014-01-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除