自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 资源 (4)
  • 收藏
  • 关注

原创 python函数通过lru_cache缓存加速

通过lru_cache缓存加速不加缓存%%timedef fib(n): return(1 if n in [1, 2] else fib(n-1)+fib(n-2))print(fib(35))9227465Wall time: 2.11 s加lru_cache缓存,递归快的一笔%%timefrom functools import lru_cache#...

2019-06-11 10:35:53 1903

原创 python代码运行时间分析的几种方法

python代码运行时间分析的几种方法测试一次运行普通方法import times_time = time.time()sqrt_list = [x**2 for x in range(1, 1000000, 3)]e_time = time.time()print("use {:.5}s".format(e_time-s_time))use 0.1154sjupyter快...

2019-06-10 17:03:31 6237

原创 写一个夸夸机器人

前段时间夸夸群火热,试着用几种不同方式写一个夸夸机器人。

2019-04-03 16:29:28 2090

原创 aiml的中文适配aiml_cn

aiml的中文适配aiml_cn与其每次费力迁就,不如一劳永逸改造它源码地址:https://github.com/xiaopangxia/aiml_cnaiml对中文的支持一直不好,主要时他对中文字符的分割处理不好。很多人选择强行给问句加空格,或者用分词策略。这种做法对纯中文有一点作用,但当问句时中英混句时依然不好用。因为Kernel.py中learn函数的实现策略是判断有英文就当全英文处...

2019-03-20 10:55:58 2320

原创 小议中国剩余定理兼怀金庸

        本是几个月前整理完备hash构造时打算写的,不意拖到了金庸先生去世。《射雕英雄传》中那一次精彩绝伦的数学启蒙,不亚于光明顶上张无忌出尽风头的擂台秀。瑛姑与黄蓉的几轮口头交锋,涵盖了n阶幻方,多元方程,级数以及数论等多个方面的经典问题。童稚时也许你和我一样背过“二四为肩,六八为足……”,是不是钦佩金庸先生一丝不苟的装逼与博学,中学时候你有没有觉得黄蓉说她和老爹能解地元到天元19次的方...

2018-11-02 17:17:04 614 1

原创 Fredman构造法构造完备哈希

        在刘璟的《计算机算法引论——设计与分析》一书中介绍了几种完备哈希(PHF)构造技术,里面提到了Fredman构造法。这本书是零几年写的比较早,光看书中介绍不太容易理解这一构造法的具体流程,搜了一下网上居然极少有这一方法的介绍,看了很多数据结构与算法的书也很少有。在这里先介绍原理与构造方法,再拿一个例子过一遍操作。原理:        Fredman通过构造法证明了:对任意的关键字集...

2018-06-21 19:49:24 1340 1

原创 mysql只能sudo连接问题

一个小运维问题,Ubuntu下正常安装完了mysql,包括server和client。但是首次无密码连接却被拒,只能sudo连接。那不行啊,不能每次都sudo执行脚本啊,解决方法是在/etc/mysql/my.cnf添加点内容...

2018-03-24 20:26:48 7921

原创 虚拟机端口映射提供mysql远程服务

碰到一个运维问题,目标是需要远程访问mysql,花了一些时间总算搞定,聊作记录。 场景是远程有一台物理服务器WinServer2012,里头用VMware装了若干台Ubuntu 16.04虚拟机,虚拟机网络采样NAT方式,在虚拟机里搭的mysql,3306端口,在虚拟机内部通过localhost或者127.0.0.1是可以访问的,外网无法访问。外网要访问虚拟机里的mysql在330

2018-01-25 22:44:33 4202

原创 半监督学习_知识点脑图

读西瓜书半监督学习那章,聊做笔记。

2017-12-25 15:59:20 699

原创 Ubuntu安装teamviewer报libqt5x11extras5依赖错误

报错如下,用了好几个版本的teamviewer都报这个,就是依赖问题吧,补一个依赖还会缺别的,挺麻烦的。是通过sudo apt-get install -f 解决的,记录一下。然后就OK了。

2017-12-08 22:24:54 15689

原创 Python脚本在Windows下后台运行

Python脚本在Linux后台执行加个&就行了在Windows起Python服务总有不畅查了一下,可以用start /b python xxx.py后台运行,这招虽然不影响cmd操作,但是关闭cmd窗口后服务也死了解决这个问题挺麻烦的,需要以Windows服务的方式挂起来第一步,将Python脚本打包成exe可执行文件,详见:  用python

2017-11-20 21:46:29 15609 1

原创 PostgreSQL初安装小记

在使用deepdive的时候采用了PostgreSQL作为数据库安装可以从deepdive的github获取bash 也可以分步安装postgresql的server和clientsudo apt-get install postgresqlsudo apt-get install postgresql-client安装完,像mysql一样需要做一些配置就是先把

2017-11-11 15:10:44 423

原创 微投乐V8投影仪试用评测

原文发布在锋芒小栈,地址:http://www.fongmong.com/thread-15009-1-1.html体验视频https://v.qq.com/x/page/p038222tk9f.html电子数码产品的发展与变革,几乎是与显示技术的发展脉络捆绑在一起的,时至今日,我们几乎已经是生活在各种屏幕中的人类了。单一的几台桌面显示器早已不能满足多元

2017-03-09 19:49:36 809

原创 SVM对sklearn自带手写数字数据集进行分类

sklearn自带一些数据集,其中手写数字数据集可通过load_digits加载,我找到load_digits里头是这样def load_linnerud(): """Load and return the linnerud dataset (multivariate regression). Samples total: 20 Dimensionality: 3 f

2017-03-01 22:36:43 11114

原创 Median of Two Sorted Arrays

LeetCode上的一道题目,有点意思,求两有序数组放一块以后的中位数,复杂度要求O(log(n+m))There are two sorted arrays nums1 and nums2 of size m and n respectively.Find the median of the two sorted arrays. The overall run time complexi

2017-02-27 10:56:06 753

原创 Neuroph多层感知机训练XOR

之前的实验中只有输入输出两层的简单感知机,可以通过对几条逻辑运算的输入输出情况进行训练,就能完成AND和OR的学习,但是无法对XOR运算在有限次迭代内完成训练。需要我们采用多层的网络结构,其实三层就够了,在原来的基础上,增加一个隐层。依旧用在java代码中运用Neuroph框架实现一下。import org.neuroph.core.NeuralNetwork;import org.neur

2017-01-25 16:25:36 2315 1

原创 Neuroph训练简单逻辑运算感知机

Neuroph是一个开源的java神经网络框架,Neuroph是自带一个图形化的神经网络工具的,叫Neuroph Studio在自己的java代码中引入neuroph也很方便,添加从官网下的一堆jar包就行。所谓感知机(perceptron),应该算是最简单的神经网络吧用Neuroph提供的perceptron类实现一个简单的感知机,学习简单的逻辑运算(AND、OR和XOR)i

2017-01-24 15:01:18 4600

原创 EM算法逼近GMM参数针对二维数据点的python实现

GMM即高斯混合模型,是将数据集看成是由多个高斯分布线性组合而成,即数据满足多个高斯分布。EM算法用来以迭代的方式寻找GMM中个高斯分布的参数以及权值。GMM可以用来做k分类,而混合的高斯分布个数也就是分类数K。当数据Y都是一维的时候,我们假设由两个高斯分布组成就有概率密度函数PI和1-PI作为各自分布的权值这样EM的实现步骤矩很简单了

2016-12-09 18:18:16 4339 2

原创 python处理文件首行的BOM问题

这个问题之前一直放过,烦了好久了,用python的readlines方法读文件,首行总是会因为有一个小短横而报错。在pycharm里就是这个样子,把那行复制出来又看不到小短横了。这是文件首行的BOM在作祟。UTF-8编码文件可分为utf-8和utf-8 without BOM两种,可以用编辑器另存为utf-8 without BOM,也可以在代码中采用codecs.

2016-12-09 18:03:54 1716

原创 ssh连接localhost被拒绝

报的这样的错ssh: connect to host localhost port 22: Connection refused按照hadoop官网上的操作 $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.s

2016-11-30 19:19:59 6245

原创 用python+graphviz/networkx画目录结构树状图

想着用python绘制某目录的树状图,一开始想到了用grapgviz,因为去年离职的时候整理文档,用graphviz画过代码调用结构图。graphviz有一门自己的语言DOT,dot很简单,加点加边设置属性就这点东西,而且有python接口。我在ubuntu下,先要安装graphviz软件,官网有deb包,然后python安装pygraphviz模块。目标功能是输入一个路径,输出该路径下的

2016-11-05 10:20:09 13573

原创 Numpy数组转置

Numpy数组转置很容易,两种种写法np_array = np.array([[1, 2], [3, 4]])np_array.transpose()np.transpose(np_array)但是一维数组转置的时候有个坑,光transpose没有用,需要指定shape参数array_1d = np.array([1, 2])print array_1d.shape, array

2016-11-03 22:42:14 15326 1

原创 华为手机USB调试搜不到设备

之前解决过一次,新手机的时候又给忘了,浪费了不少时间,助记助记。前后两部华为的手机都遇到同样的问题,开发人员选项已经打开了,手机上也显示已连接USB调试,但是电脑上的Android Device Monitor就是搜不到设备,adb devices 出来列表也是空的。据说是缺驱动,解决方法是安装豌豆荚,豌豆荚在连接手机的时候会自动帮你安装对应的USB调试驱动。  ...

2016-10-05 15:32:44 4812

原创 数据挖掘笔记:Review_2

链接分析简单PageRank,节点投票,只考虑入度对自己的贡献为应付爬虫陷阱和终节点,引入一个随机跳转的概率β大规模PageRank的计算方法,存储上压缩,分批处理,计算加速:1.   M矩阵的稀疏特点,可以只存储非零元素2.   将M矩阵存放在磁盘中,运算时分批加载矩阵中的向量3.   当连r[old]和r[new]这种状态向量也无法存储在内存时,就要把r[old]和r[

2016-02-25 20:47:44 985 1

原创 数据挖掘笔记:Review_1

学习斯坦福CS246提供的课程课件做的期末总结相对于机器学习、人工智能和数据库统计,数据挖掘更强调:       1. 特征与实例数量上的可扩展性         2. 算法与架构         3. 大规模数据的自动化处理如何综合运用数据挖掘诸知识点:         根据不同的数据类型         根据不同的计算模型

2016-02-25 19:57:59 1120 1

翻译 Terrier文档翻译:配置概述

配置 Terrier配置概述Terrier 全都是由几个文件来配置的,都在 etc/目录。最核心的文件是 terrier.properties 和terrier-log.xml。 在terrier.properties里,你可以指定Terrier中定义的任意变量的属性。 属性文档页(Properties)列出了你配置Terrier会用到的大部分属性。,而javadoc 里列出了那些直接影响

2016-02-07 13:17:09 1079

翻译 Terrier文档翻译:组件

Terrier 组件在这一页我们会为Terrier的主要组件及其交互做一个概述。组件交互索引下图展示了在索引过程中涉及到的主要组件之间的交互。一个语料库将被表示成一个Collection 对象的形式。裸的文本数据会被表示成一个Document 对象的形式。 Document的实现往往是用一个Tokeniser类的实例将文本片段打碎成单一的索引标记(token

2016-02-07 13:09:59 1172

翻译 Terrier文档翻译:安装与运行

安装与运行安装与运行 Terrier如果你立刻就想要运用Terrier在标准测试集上建立索引和进行检索,那么你可以跟着下面的步骤做。 我们为在Linux和Windows上安装Terrier提供了一步步的操作指南,指导你在TREC WT2G测试集上进行你的第一次索引建立和检索。Terrier必备条件Terrier唯一的要求是你安装过Java JRE1.7.0或更高版本。 你可以从Ja

2016-01-26 12:00:47 2833 2

翻译 Terrier文档翻译:概述

概述Terrier Features下面,你将看到Terrier提供的功能简表。General支持常见的桌面文件格式和常用的TREC文献集的索引(e.g. TREC CDs 1-5, WT2G, WT10G, GOV, GOV2, Blogs06, Blog08, ClueWeb09, ClueWeb12)。大量文档加权模型,比如许多免参数的DFR权重模型,Okapi BM

2016-01-26 11:35:46 1253

翻译 Terrier文档翻译:首页

最近要用Terrier平台作为医学文献检索项目的工具,自己也探索了一下,感觉中文资料甚少,Terrier也有好多特性有待自己发掘,索性将官方文档翻译出来,方便自己也方便别人,还没有全部弄完,几日更新一篇吧,水平有限差错肯定不少,见者指正吧。文档官方地址:http://terrier.org/docs/v4.1/~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...

2016-01-26 11:21:23 1458 1

原创 python用requests请求百度接口报“SSL: CERTIFICATE_VERIFY_FAILED”

SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)今天想试用一下百度的语音识别API,附带步骤:1. 先去百度开放云平台注册,成为开发者,审核可能需要时间的,我去年申过现在账号还在2. 然后创建一个应用3.为创建完的应用添加服务,有俩,语音识别和语音生成4. 这样我就...

2015-11-18 16:58:10 40035 1

原创 斯坦福数据挖掘不同版本课件讲局部敏感哈希中MinHash的理解

        今天学习局部敏感哈希,看斯坦福的课件,他在讲将7维Input matrix (Shingles x Documents)用MinHash处理成3维Signature matrix 时那一步里面结果怎么也对不上,就是这张熟悉的图:描述是这样的:        我解读的应该是置换后一列中第一个是1的那行的行号,这样理解没什么问题吧,可是右边那个3*3的结果的表里咋没几个...

2015-11-04 21:44:32 1585

原创 pip install遇到编码问题

以前pip都是好用的,今天装flask的时候他莫名报了个错Downloading/unpacking flaskCleaning up...Exception:Traceback (most recent call last): File "D:\Python\lib\site-packages\pip-1.5.6-py2.7.egg\pip\basecommand.py", li...

2015-10-03 13:27:27 11160 2

原创 跑第一个hadoop自带示例遇到的错误

装完hadoop跑一个算圆周率pi值的示例的时候,先在hadoop的安装位置找到那个传说中的hadoop-examples-xxxx.jar,xxxx因版本而异由于安装的hadoop是2.7.0,位置在xxx/share/hadoop/mapreduce/里,xxx为hadoop安装根目录,这个东西也因为和书上的版本不同位置不太一样要自己找。开四个job算圆周率hadoop jar...

2015-09-13 16:09:32 3113 2

原创 python发邮件

几种邮件发送的架子是差不多的,这里做点笔记,先写一个配置信息:email_config = { 'mailto_list': ['[email protected]', '[email protected]'], 'mail_host': "smtp.xxx.com", #设置服务器 'mail_user': "xxxx", #用户名 'mail_pass': "1111...

2015-09-04 17:28:54 849

原创 用python的profile模块找到程序性能瓶颈

昨天学到一招,不用像之前一样想看程序执行慢的时候到底慢在哪里就到处写"start_time = time.time() end_time =  time.time()  use_time = end_time - start_time"了,有一个profile模块可以查看执行过程中各个调用的耗时。用法是:import profile……profile.run('exe_str')...

2015-09-04 14:26:42 3267

原创 python实现断点续传下载文件

最近的任务里有一个功能是要我从日志服务器实时跟新日志到本地,日志在不断新增内容就需要我隔一段时间从上次下载的位置继续下载,并写入本地文件上次写完的位置后面。 headers = {'Range': 'bytes=%d-' % local_file_dict.get(packet_path+k)} web_log = request...

2015-08-30 16:16:18 14171

原创 Andrew Ng机器学习公开课第一节笔记

课程主页,亲测能上,有好些材料http://cs229.stanford.edu/Andrew讲的比较早的机器学习应用,1958年有人用来训练一个会下国象的电脑,这个有机会可以试一下,训练一个会下中国象棋的。介绍了有监督的学习(supervised)和无监督的学习型算法(unsupervised)有监督是有标准答案集来反馈的训练,无监督的就是没有标准答案的通过算法从

2015-08-15 20:07:45 1251

原创 看spark示例代码如何求的PI

以前也知道蒙特卡洛投针求PI,今天安装spark,安完先要试试他自带的几个小程序看看能不能用,我主要会用python写程序,也就是pyspark所以在spark里的examples目录深处找python的文件夹,里面的pi.py就是。看了一下源码是这样的:import sysfrom random import randomfrom operator import addfrom p...

2015-08-15 14:57:34 1664

原创 解决ubuntu的wifi连接不稳定

我笔记本用ubuntu的时候连wifi总是掉线重连,解决的途径是要去看/etc/ppp/下的optionppp就是点对点协议,所有与ppp配置相关的文件都放在这个目录下那就sudo vim /etc/ppp/option 吧在两百一十多行的地方有这样一段  # If this option is given, pppd will send an LCP echo-requ...

2015-08-08 20:38:24 3996

EM算法逼近GMM参数针对二维数据点的python实现

EM算法逼近GMM参数针对二维数据点的python实现。 GMM即高斯混合模型,是将数据集看成是由多个高斯分布线性组合而成,即数据满足多个高斯分布。EM算法用来以迭代的方式寻找GMM中个高斯分布的参数以及权值。GMM可以用来做k分类,而混合的高斯分布个数也就是分类数K。

2018-06-21

找座位问题

一个找座位的算法实现,编程练习。一行有7个座位,要求必须找到靠边的座位或与已有人的座位保持一个以上间隔,求在给定作为情况下的解决方案数。

2014-06-23

poj第5小题

解决poj1005买地问题,涉及几何计算

2014-06-23

poj1004代码

poj1004题,解决一年账目高效求平均问题

2014-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除