码上的生活-CSDN博客

转载 Git 少用 Pull 多用 Fetch 和 Merge

参与翻译(5人)：Andy, 赵亮-碧海情天, _Raymond, super0555, 几点人原文链接本文有点长而且有点乱，但就像Mark Twain Blaise Pascal的笑话里说的那样：我没有时间让它更短些。在Git的邮件列表里有很多关于本文的讨论，我会尽量把其中相关的观点列在下面。我最常说的关于git使用的一个经验就是：不要用git pull，用git fetch和gi

2016-07-14 16:32:49 831

原创 Django1.9 加载通过ImageField上传的图片

这里假设你是通过models的ImageField上传图片，并期望在前台img标签中能显示。能否访问图片关键在于，是否能通过正确的路径访问。在models.py中有image如下image = models.ImageField(upload_to='images/%Y/%m', verbose_name='文件缩略图')在显示页面中如show.html中使用img标签显示 <img cla

2016-07-14 16:01:07 7287

原创如何通过Haystack建立pdf文档的全文索引

通过Haystack可以快速建立Django的全文检索。如果我们的模型里面models.py使用了文件上传(假设这里你上传的pdf)，并且你希望能够同时对这个pdf文件内容建立全文索引。那么应该怎么办？如果你还不了解Haystack，或者不知道怎么快速建立基于Django 的全文检索下面的内容会很有帮助：Github-Haystackhaystack-开源中国介绍Haystack官方文档H

2016-07-14 15:56:21 1630 1

转载 python django 数据库查询方法总结

一插入数据库用save方法实现如下二更新数据库也用save方法实现如下三检索对象四用Q对象实现复杂的查询五比较对象六删除七一次更新多个值原文地址：http://www.cnblogs.com/lhj588/archive/2012/02/17/2356478.html__exact 精确等于 like ‘aaa’__iexact 精确等于忽略大小写 ilike ‘aaa’__co

2016-07-14 15:51:54 36757 1

原创 python文本处理

基本的文本操作：解析数据并将数据放入程序内部的结构将数据以某种方式转化为另一种相似的形式，数据本身发生了改变生成全新的数据在python中，可以用下列方式表现一个文本字符串'',""：'this is a literal string'Out[1]: 'this is a literal string'"this is a literal string"Out[2]

2016-07-14 15:45:37 473

原创许可协议

经常看到各个地方的各种许可协议，这里简单收集了一些。什么是许可，当你为你的产品签发许可，你是在出让自己的权利，不过，你仍然拥有版权和专利（如果申请了的话），许可的目的是，向使用你产品的人提供一定的权限。许可协议：是指供方将其技术使用权在一定条件下让渡给受让方，而由受让方支付使用费的合同。不管产品是免费向公众分发，还是出售，制定一份许可协议非常有用，否则，对于前者，你相当于放弃了自己所有的权利

2016-04-21 20:27:00 859

原创重建二叉树

剑指offer 题目题目描述输入某二叉树的前序遍历和中序遍历的结果，请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6}，则重建二叉树并返回。//// Created by knight on 16-4-21.前序中的第一个数是根节点，找到中序中的这个节点划分左右子树。//

2016-04-21 17:05:40 398

原创 [leetcode] 9 Palindrome Number

https://leetcode.com/problems/palindrome-number/Determine whether an integer is a palindrome. Do this without extra space.click to show spoilers.Some hints: Could negative integers be palindromes? (ie

2016-04-21 16:57:44 395

原创 [leetcode] 8. String to Integer (atoi)

Implement atoi to convert a string to an integer.Hint: Carefully consider all possible input cases. If you want a challenge, please do not see below and ask yourself what are the possible input cases.N

2016-04-19 21:14:56 354

原创 Python风格规范

请务必保持代码的一致性如果你正在编辑代码, 花几分钟看一下周边代码, 然后决定风格. 如果它们在所有的算术操作符两边都使用空格, 那么你也应该这样做. 如果它们的注释都用标记包围起来, 那么你的注释也要这样.制定风格指南的目的在于让代码有规可循, 这样人们就可以专注于”你在说什么”, 而不是”你在怎么说”. 我们在这里给出的是全局的规范, 但是本地的规范同样重要. 如果你加到一个文件里的代码和原有代

2016-04-19 21:05:07 684

原创 [UFLDL-1] 监督学习和优化

线性回归问题简介　函数最小化逻辑回归线性回归问题简介　http://ufldl.stanford.edu/tutorial/supervised/LinearRegression/作为一个回顾，我们将学习怎样实现线性回归。主要的目的是学习目标函数，计算它们的梯度并且在参数集上优化。这些基本的工具之后将成为更加复杂算法的基础。读者希望了解更多细节可以参考讲义上面的监督学习。在线性回归中我们的目

2016-04-15 23:25:04 568

原创保留最后N个元素

问题在迭代操作或者其他操作的时候，怎样只保留最后有限几个元素的历史记录？解决方案保留有限历史记录正是 collections.deque大显身手的时候。比如，下面的代码在多行上面做简单的文本匹配，并返回匹配所在行的前N行：from collections import dequedef search(lines, pattern, history=5): previous_lines =

2016-04-12 15:21:06 999

原创 [leetcode]6. ZigZag Conversion

The string “PAYPALISHIRING” is written in a zigzag pattern on a given number of rows like this: (you may want to display this pattern in a fixed font for better legibility)P A H NA P L S I I GY

2016-03-15 21:36:29 495

转载 13 Machine Learning Data Set Collections(13个机器学习数据集)

Here are 13 resources on Machine Learning data sets.Landsat on AWSLandsat 8 data is available for anyone to use via Amazon S3. All Landsat 8 scenes from 2015 are available along with a sel

2015-10-26 09:11:09 3185

原创 git基础

分支管理git branch：查看分支，带*的是当前分支git branch Common：创建分支Commongit checkout Common：切换到分支Commongit checkout -b Common：创建并切换到分支Commongit merge dev：合并dev分支到当前分支Commongit branch -d dev：删除分支devgit branch -D dev：强制

2015-10-23 14:56:58 534

原创使用逻辑回归进行MNIST分类（Classifying MNIST using Logistic Regressing）

本节假定读者属性了下面的Theano概念：共享变量（shared variable）, 基本数学算子（basic arithmetic ops）, Theano的进阶（T.grad）, floatX(默认为float64)。假如你想要在你的GPU上跑你的代码，你也需要看GPU。本节的所有代码可以在这里下载。在这一节，我们将展示Theano如何实现最基本的分类器：逻辑回归分类器。我们以模型的快速入门开

2015-10-22 23:35:53 2603

原创 python文本处理

基本的文本操作：解析数据并将数据放入程序内部的结构将数据以某种方式转化为另一种相似的形式，数据本身发生了改变生成全新的数据在python中，可以用下列方式表现一个文本字符串'',""：'this is a literal string'Out[1]: 'this is a literal string'"this is a literal string"Out[2]: 'this is

2015-10-07 09:41:23 731

原创 Numpy中矩阵对象（matrix）

矩阵对象的属性： matrix.T transpose：返回矩阵的转置矩阵 matrix.H hermitian (conjugate) transpose：返回复数矩阵的共轭元素矩阵 matrix.I inverse：返回矩阵的逆矩阵 matrix.A base array：返回矩阵基于的数组矩阵对象的方法： all([axis, out]) :沿给定的轴判断矩阵所有元素是否为真(非

2015-09-14 17:36:54 2483

翻译从头开始实现一个神经网络

在这篇文章中，我们会从头开始实现一个简单的3层神经网络。我们不会去推导所需的数学公式，但是我会试着给一个直观的解释我们在做什么。我也会指出具体的阅读资源。在这里我假设您熟悉基本的微积分和机器学习的概念,例如:你知道什么是分类和正规化。理想情况下你也知道一点关于像梯度下降优化技术是如何工作的。但即使你不熟悉任何上面的这篇文章仍有可能是有趣的。但是为什么从头实现神经网络呢?即使你打算在将来使用像PyB

2015-09-06 17:07:26 4643 1

原创 [机器学习实战] -Logistic回归

根据现有数据对分类边界线建立回归模型，以此进行分类。在练习中会介绍有关梯度上升算法和随机梯度上升算法，最后应用Logistic回归，预测病马的死亡率。参考练习[Exercise 3] Logistic Regression and Newton’s Method。实验基础sigmod随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradien

2015-09-01 22:48:05 789

原创 [leetcode ][4] Median of Two Sorted Arrays

There are two sorted arrays nums1 and nums2 of size m and n respectively. Find the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)). https://leetcode.com/probl

2015-09-01 11:08:18 364

原创 [机器学习实战]--朴素贝叶斯过滤垃圾邮件

我们将充分利用python的文本处理能力将文档切分成词向量，然后利用词向量对文档进行分类。还将构造分类器观察其在真实的垃圾邮件数据集中的过滤效果。基于贝叶斯决策理论的分类方法假设现在我们有一个数据集,它由两类数据组成,数据分布如图4-1所示。我们现在用 p1(x,y) 表示数据点(x,y)属于类别1(图中用圆点表示的类别)的概率,用 p2(x,y) 表示数据点(x,y)属于类别2(图中用三角形表

2015-08-29 16:52:30 2636

原创绪论(0)--机器学习与模式识别 [PRML]

模式识别领域关注的是利用计算机算法自动发现数据中的规律,以及使用这些规律采取将数据分类等行动。手写数字识别的例子，因为手写体变化多端。这个问题可以使用人工编写的规则解决，但实际往往效果很差。使用机器学习的方法可以得到好得多的结果。全书贯穿3个重要工具：概率论、决策论、信息论。都将在后续内容一一介绍。机器学习的一些基本概念一个由 N 个数字 {x 1 , … , x N } 组成的大的集合被叫做训练

2015-08-29 16:20:37 950

原创 [机器学习实战]-决策树

有一个20个问题的游戏，参与有游戏的一方在脑海里想某个事物，其他参与者向他提问，只允许20个问题，答案只能回答对或错。问问题的人通过推断分解，逐步缩小范围。决策树的原理将和这个游戏类似。决策树处理数据时，先计算数据的不一致性，然后寻找最优方案划分数据集。直到数据集所有数据属于同一个分类。使用matplotlib注解功能，将存储树转化为容易理解的图形。信息增益和决策树基础熵的定义：H(p)=−

2015-08-28 15:20:27 506

原创 [MachineLearningInAction] - KNN

在有标签的数据中，输入没有标签的数据后，通过计算数据特征与样本数据进行比较，算法提取样本集中特征最相似的分类标签。一般取前K个最相似的数，这就是k-近邻算法。从K近邻算法、距离度量谈到KD树、SIFT+BBF算法实验基础python/numpy中会用到的函数： shape() shape是numpy函数库中的方法，用于查看矩阵或者数组的维素 >>>shape(arr

2015-08-26 21:51:13 1104

原创 [Exercise 4] Regularization

在这个练习中，会实现加入正则的线性回归和逻辑回归。数据：ex5Data.zip,数据拟合的过程中很容易出现的问题就是过拟合(over fitting),所以需要正则化来进行模型的选择。实验基础Regularized linear regression五阶多项式最小化的损失函数：回想一下我们前面的Normal equations： Regularized logistic reg

2015-07-20 10:23:52 751

转载奇异值分解（We Recommend a Singular Value Decomposition）

原文作者：David Austin原文链接： http://www.ams.org/samplings/feature-column/fcarc-svd译者：richardsun(孙振龙)在这篇文章中，我们以几何的视角去观察矩阵奇异值分解的过程，并且列举一些奇异值分解的应用。介绍矩阵奇异值分解是本科数学课程中的必学部分，但往往被大家忽略。这个分解除了很直观，更重要的是非常具有实

2015-07-16 10:50:34 625

转载爬虫框架Scrapy实战之批量抓取招聘信息

所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓取队列中，然后

2015-07-15 11:42:07 1013

原创 [Exercise 3] Logistic Regression and Newton's Method

这个练习将通过牛顿方法来实现逻辑回归分类。Dataex4Data.zip这里给出的训练样本的特征为80个学生的两门功课的分数.样本值为对应的同学是否允许被上大学，如果是允许的话则用’1’表示，否则不允许就用’0’表示。学生成绩由Test1的成绩和Test2 的成绩组成。我们关注的是 θ\theta怎样获得，多少次迭代后能收敛预测学生成绩是[20 80] 是否被允许可视化我们的初始数据

2015-07-15 11:30:04 1068

原创 [Exercise 2] 多元线性回归

上一节我们实现了二元线性回归。在这个练习中，会使用梯度下降和normal equations实现多元线性回归.同时也会检查损失函数，收敛梯度和学习率的关系。参考Exercise: Multivariate Linear Regression我们要预测的是1650，且有3个bedrooms的房子的价格。Data先看看数据集，训练集是Porland,Oregon地区的价格作为y(i)y^{(i)},输入

2015-07-14 10:05:21 521

原创 [Exercise 1] Linear Regression

数据描述这次练习是多元线性回归中最简单的二元线性回归，参考exericse1给出的题目，50个数据样本点，其中x为这50个小朋友到的年龄，年龄为2岁到8岁，年龄小数形式呈现。Y为这50个小朋友对应的身高，小数形式表示的。线性回归回想一下线性回归模型：hθ(x)=θTx=∑i=1nθixih_\theta(x) = \theta^Tx=\sum_{i=1}^n \theta_ix_i 梯度更新规则：

2015-07-10 15:41:23 738

原创 [leetcode] Longest Substring Without Repeating Characters

Q: Given a string, find the length of the longest substring without repeating characters. For example, the longest substring without repeating letters for “abcabcbb” is “abc”, which the length is 3. Fo

2015-07-06 21:02:34 441

原创 MNIST Dataset

准备做点实验，这里介绍一下需要用到的数据集。下载mnist.pkl.gz or git clone git://github.com/lisa-lab/DeepLearningTutorials.gitMNISTS数据集由手写数字图像组成。划分60，000样例作为训练数据集10，000样例作为测试集。在许多文章同时也在这个tutorial里面将60，000实际划分成50，000个测试集和10，

2015-06-24 14:41:03 4626

原创 ubuntu 挂载u盘

打开ubuntu无法读取U 盘，想必是没有自动挂载，那将手动挂载吧。查看U盘信息sudo fdisk -l 查看硬盘信息U 盘信息在/dev/sdd4Device Boot Start End Sectors Size Id Type /dev/sdd4 * 256 30736383 30736128 14.7G c W95 FAT32 (LBA)挂载

2015-06-13 13:53:26 748

转载常用资源整理

ufldl的2个教程(这个没得说，入门绝对的好教程，Ng的，逻辑清晰有练习)：一ufldl的2个教程(这个没得说，入门绝对的好教程，Ng的，逻辑清晰有练习)：二Bengio团队的deep learning教程，用的theano库，主要是rbm系列，搞python的可以参考，很不错。deeplearning.net主页，里面包含的信息量非常多，有software, reading lis

2015-06-10 16:19:45 740

转载 python数据挖掘领域工具包

原文：http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域，有两个重要的扩展模块：Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括：一个强大的N维数组对象Array；比较成熟的（广播）函数库；用于整合C/C++和Fortran代码的工具包；实用的线

2015-06-10 00:59:32 673

原创 MATLAB System Error

环境：ubuntu15.04+matlab2010b 终端运行：matlab 出现如下错误，不得其解。Google，百度，无果。现将错误贴出来，望有一天能明白。 Details内容如下：------------------------------------------------------------------------ Segmentation violation d

2015-06-09 16:31:12 6483 3

原创 MeTA is a modern C++ data sciences toolkit featuring

text tokenization, including deep semantic features like parse treesinverted and forward indexes with compression and various caching strategiesa collection of ranking functions for searching the ind

2015-06-08 23:19:25 660

转载多层感知机（Multilayer Perceptron）

在本节中，假设你已经了解了使用逻辑回归进行MNIST分类。同时本节的所有代码可以在这里下载.下一个我们将在Theano中使用的结构是单隐层的多层感知机（MLP）。MLP可以被看作一个逻辑回归分类器。这个中间层被称为隐藏层。一个单隐层对于MLP成为通用近似器是有效的。然而在后面，我们将讲述使用多个隐藏层的好处，例如深度学习的前提。这个课程介绍了MLP，反向误差传导，如何训练MLPs。模型一个多层感知机

2015-06-08 20:20:15 13961

转载 Deep Learning for NLP 文章列举 | 持之以恒

慢慢补充大部分文章来自:http://www.socher.org/http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial包括从他们里面的论文里找到的related work Word Embedding LearnigSENNA原始论文【ACL'07】Fast Semanti

2015-06-06 21:13:01 512

空空如也

空空如也