自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 关于表格型数据的数据挖掘(一)——爬虫

本篇主要承接上篇文章,介绍我们如何获取项目中的所需的数据。获取的方式很多,特别的,我们本次使用爬虫来尽可能方便地爬取我们的目标数据。文章末尾,我们将给出python代码供大家参考。目录需求分析技术路线具体实现1. 需求分析软件工程专业提到最多的就是“需求分析”,本次我们的项目主要针对中医妇科疾病,其目的在于分析出针对某些药方数据分布(例如某本药方古籍或者中医药方数据...

2018-07-04 21:50:05 1128

原创 关于表格型数据的数据挖掘(总)

从本篇开始,我将会开启个人在实习阶段所做的项目经验。以此做好个人笔记,作为以后知识点的汇总,也希望能给各位做个大致的数据挖掘的思路。文章系列分为4篇:数据的获得及处理、频繁项集、聚类和关联规则。顺序是按照项目逻辑进行排序的,本篇我们将对整体的思路进行个说明。目录数据的获得及处理频繁项集聚类关联规则1. 数据的获得及处理实践过程中,如何获得项目中所需的数...

2018-06-05 14:45:32 1778

原创 python中的可变、不可变对象

好久没来写blog,期间一直在忙论文和实习的事情。准备等适应了,好好写一些深度学习框架和实现的文章,作为研二收尾的成果。今天的motivation来自写python当中的一个问题,简化如下:(当我在做数据分析的时候,将数据存入列表或者字典中,传入函数后原来列表发生改变与否,关键字:in-place,原地操作)def fun(): data = ['我在fun()里,我是...

2018-04-11 10:05:22 2060

原创 数值分析和SVM讲解(上)

今天我们聊聊数值计算(优化)和SVM,首先本篇的数值计算我觉着更适合用“优化”来代替,因为我们将会以优化问题作为本篇数学部分主要的介绍内容,或者不够严谨的说法是,你也可以理解为对高数知识的巩固(比较前面的线性代数和概率论)。后半部分我们会将知识代入SVM中去进行介绍,需要说明的是,我们的介绍是提纲挈领式的,因为SVM足够成熟,并且细致下去,很多人已经做出了很多了解释,比我粗鄙的语言要丰富得多。对于全

2017-11-07 17:14:23 707

原创 利用微信监管MXNet训练

最近一直在跟沐神学习MXNet轮子。论坛的小伙伴很不错,gluon的特效也很简单实用(听说效率和显存的利用率都比其他的要高)。无聊在知乎看到有人用用微信可以监管TF的训练结果——利用微信监管你的TF训练。国庆既然没得地方玩,就试着仿照作者做了个MXNet的微信监管。功能主要有:设置参数,主要有learning_rate、training_iters、batch_size开始停止程序,反馈结果

2017-10-03 10:36:29 8580

原创 数值计算和SVM讲解(下)

2.2.1 Original SVM 终于把所有的铺垫介绍完毕,本节开始我们正式进入SVM。 首先我们简单介绍一下朴素SVM,这个“朴素”一词是本人自己加上的。其意旨脱去加上核函数和SMO算法等等其他知识,展现最为“原始”的SVM思想。根据2.1.2一节,我们知道SVM的基本架构(代价函数等等)与logistic回归统一,区别在于它的焦点在于支持向量这些点上。那么直观而言,我们希望最优超

2017-09-01 19:09:59 7003

原创 数值计算和SVM讲解(中)

2.1 SVM预备 这一部分紧接上一篇《数值计算和SVM讲解(上)》。 之前一直考虑如何写这部分,如果按部就班地和前面一样,很多大神其实很早就已经写出了关于SVM的优质详解blog。而且,本篇开头我的预想是想借由SVM和各位读者分享一下机器学习的思路,所以第二部分我们首先介绍几部分与SVM相关的预备知识,把学习的思路捋一捋。2.1.1 关于数据维度在《线代和PCA详解》一文中,我们介绍了降维的

2017-09-01 19:04:35 12104

原创 markdown转pdf

md文件转pdf现在markdown越来越成为IT行业的里面的主流,而不准备在code上多花功夫的我,自然希望借助其来多写点有用的文档。最近在学李沐大神的mxnet的框架时,作为学习资料,clone下来的都是md文件。在遇到打印的时候,发现各个md阅读器转换的编排方式大不相同(例如我用markdownpad转pdf的效果很不好,字体小很多)。所以希望能找一种通用的方式来解决转换的问题:这里提供两种方

2017-09-01 08:58:19 24768

原创 概率论及logistic回归讲解

概率论及logistic回归详解 上一篇我们介绍了线性代数的基本知识,并以PCA作为案例进行了讲解。在本篇中,我们依然按照相同的思路进行开展:首先复习一下概率的相关知识,最后以对率回归(对数几率回归)为案例进行讲解。1. 概率论AI圣经《deep learning》一书把线性代数、概率与信息论和数值计算三部分作为机器学习中基础的数学知识进行单独设置章节来讲解,可见这几部分对机器学习乃至深度学习

2017-08-17 16:29:30 27487 3

原创 菜鸟起飞——机器学习实战第一篇:总体介绍

前言终于开始了自己的csdn博客之旅。先自我介绍一下,我叫徐曦,目前是北京工业大学(北工大)软件工程的研究生新生,研究方向为数据分析。针对于此,我想通过这三年,充分学习有关机器学习的知识,目前的计划为:1.《机器学习实战》全书学习;2.python网络爬虫收集网络数据;3.深度学习;4.python进一步学习(小甲鱼视频)。本类文章主要针对第一部分,其他部分有时间我也会总结上传,有兴趣的童鞋可以相互

2017-08-14 19:54:29 32449 2

原创 PCA线性代数讲解

线性代数及PCA详解 本章对最近学习的线性代数知识进行总结,最后以PCA为例运用线代中的相关知识讨论其中的原理。才疏学浅,各位有什么意见可以讨论,一起查缺补漏。1. 线代基础对于深度学习,它需要一定的数学和机器学习基础,特别的,线性代数、概率与信息论和数值计算尤为重要(参见《deep learning》一书)所以我们本章主要对线代进行讨论,当然主要是为了针对PCA包含的知识点。如果有同学希望可

2017-08-07 10:33:11 26875 3

原创 菜鸟起飞——机器学习实战第二篇:k-近邻算法

本文是第二篇kNN算法篇,我将从原理、数学模型、代码实现到案例分析这四个步骤来依次展开这一章所有的内容。番外:首先,我们说一下python代码如何运行。我们保存以下代码为knn.pyfrom numpy import * #导入模块import operatordef createDataSet(): group = array([[1.0,1.1],[1.0,1.0],

2016-11-06 22:04:13 11454

原创 菜鸟起飞——机器学习实战第一篇:机器学习介绍

前言终于开始了自己的csdn博客之旅。先自我介绍一下,我叫徐曦,目前是北京工业大学软件工程的研究生新生,研究方向为数据分析。针对于此,我想通过这三年,充分学习有关机器学习的知识,目前的计划为:1.《机器学习实战》全书学习;2.python网络爬虫收集网络数据;3.深度学习;4.python进一步学习(小甲鱼视频)。本类文章主要针对第一部分,其他部分有时间我也会总结上传,有兴趣的童鞋可以相互交流

2016-11-06 16:20:40 1088

转载 机器学习数学基础

本章转自Mxnet文档,是当下机器学习必备的数学基础,可以供大家平时学习查阅。数学基础本节总结了本书中涉及到的有关线性代数、微分和概率的基础知识。为避免赘述本书未涉及的数学背景知识,本节中的少数定义稍有简化。线性代数以下分别概括了向量、矩阵、运算、范数、特征向量和特征值的概念。向量本书中的向量指的是列向量。一个nnn维向量xx\boldsymbol{x}的表...

2018-07-16 15:36:04 603

原创 复试计划篇(下)

复试计划篇之调剂篇研成绩下来,有人欢喜有人愁。进入复试的毕竟是占较少的一部分,其余人往往因为各种因素导致进不了自己理想学校的复试,但这不能影响你进入研究生。如果你并不想二战,又想读个研究生。那么调剂则是你这时候的选择。就像复试一样,研究生调剂对我们大多数人而言是比较陌生的。很多人不知道从何下手,也不知道调剂需要注意的事项是什么。在此,考验部落整理出调剂学长学姐的心得,供大家参考:调剂是什么?调剂就是

2017-08-21 16:13:32 3558

原创 复试计划(中)

复试计划篇之导师篇如果说初试最关键的因素就是尘埃落地的分数的话,那么复试最关键的因素是什么?就是我们即将选择的导师。复试中,很大程度上是导师来选择自己的学生,主观性很强。所以从一定程度上,复试比初试显得更难、更加捉摸不定。我也相信,很多童鞋面对复试,心里没有底气,毕竟不像一套卷子发下来那样,按部就班地做题即可。复试需要的,往往是你个人的临场发挥能力。那么,作为复试环节中最为重要的一环,我们可以和导师

2017-08-21 16:11:48 3373

原创 复试计划篇(上)

初试结束了,我相信广大考生都送了一口气,毕竟一年或者半年的努力也是画上了一个句点。但对于考研而言,这条路还没有结束。相比于初试而言,复试对大家来说更为陌生。亲临现场,英语听力、口语和面试,都是不一样的考核形式。那么,我们该怎么开始复试的准备?学长我觉着,第一步仍然是制定出切实可行的计划。诚然每个人复试的内容千差万别,有些只有面试,有些还有笔试,有些有英语听力,有些还有其他的七七八八。但总体来说,复试

2017-08-21 16:10:27 3464

原创 考前定位(下)

考前定位之专硕学硕接下来我们谈谈研究生的两种,专硕和学硕的问题。很多童鞋对这两种研究生分不清,也会问许多关于这方面的问题。学长把这些问题总结如下,供大家参考:学硕和专硕哪个好?总体说来,没有什么好坏之分,学硕学硕侧重于学术研究,专硕专硕侧重于专业实践。这是两者定义上的区别,实际上现在学硕和专硕的比重正在往持平的方向发展。两者的区别也正在缩小,总体说来,学硕的优势在于以后读博更有优势。而专硕则适合出来

2017-08-21 16:07:21 3286

原创 考前定位(中)

考前定位之院校选择前面我们说过,从2014年开始,推免的力度大大加强。自身经历来说,普通一本可以保送一般重点,而211院校保送985也比以前容易得多。这一切原因在于,现在的研究生招生更倾向于生源,它把招生的名额更多的分配到了推免生身上。据我们搜集的资料表明,一线城市的985院校,例如北京大学、复旦大学、武汉大学这一类性质的全国重点院校,普遍的推免在40%~50%,更有甚者,有些专业甚至一般以上都是推

2017-08-21 16:05:53 3249

原创 考前定位(上)

2017年的考研已经落下帷幕,对于很多参加这次考研的学子们来说,考完的感觉应该是身心俱疲。学长我也曾是这千军万马中的一员,也和很多正在或者准备考研之路的孩子们一样,能体会到这其中苦乐酸辣。当然,最为折磨的是,考研不同于高考。高考是一条已经铺好的道路,你只需和其他人一样,按部就班地走下去即可。而考研更需要的是,自己的个人能力和毅力。这条路必须从头到尾一个人去选择,去坚持。付出的时间虽然不及高考,但更加

2017-08-21 16:03:33 3204

原创 写在前面

这几日,有童鞋私信问了我一些关于考研的信息。这不禁让我想起以前,自己还想着能不能当个辅导班老师,为此还专门弄个公众号。想想,现在社会压力巨大,很多本科毕业的同学应该宛如当年的自己,还没准备好,就要着手踏上社会了。很多迷茫,很多不知所措。看过张雪峰老师怼马丁的一期节目,微博中很多年轻的同学都一致站在了张老师一边。的确,很多公司所谓的不看学历看能力,但在很多因素面前,这一条准则早就被打破了。 况且,“

2017-08-21 15:48:52 3177

原创 Excel13+那些酷炫的技能(二)

数据录入规范 本文主要介绍数据录入的基本准则,保证工作中的excel优良习惯。1.输入顺序一般来说,从左到右的顺序可以保证每条信息录入的完整性。这样便于和boss汇报自己的录入进度。 所以,输入的顺序是养成良好习惯的基础。Tab+Enter就派上用场了。 选定起点单元格后,输入完毕之后Tab换位,一行信息输入完毕,Enter换行。 2.原位填充场景:在指定单元格里填充相同内容 操作:

2017-05-21 09:11:31 6638

原创 Excel13+那些酷炫的技能(一)

发现master learning栏目的文章写得有点杂了,后期多了再分门别类吧。这几天闲来无聊,看了关于excel的视频,这对于我这种03版的死忠粉来说可以说是来了一击暴击。不多说,全部卸载然后下个16版的尝尝鲜。接下来几天我会好好写写关于13+版本的魔法功能,希望对大家有帮助。今天只介绍一个快捷键:Ctrl+E它的专业名为“快速填充“,是13版才有的功能。综合说来,作用是充当函数,学习用户操作规

2017-05-14 22:50:29 6784

原创 统计语言模型

好久没有写文章了,主要在忙老板关于电网方面的专利,侧重于数学建模。还是很头疼的。今天主要是《数学之美》系列中的第三章关于NLP的内容。主要侧重于对古德-图灵模型的讲解,主要网上的讲解实在不全,几波看下来,基本都是同一人文章的转载,这里我详细介绍下。肯定有不足,欢迎大家给出意见。如需转载,请标明转载出处北工大xuxi

2017-05-06 20:55:49 439

原创 3.文献检索

信息检索 是一名研究生必备的技能.本篇将在几款软件的基础之上介绍如何信息检索大学期间毕设随便查查,并没有对此下过苦功夫的我终于还是要还回时间和精力去深入学习了。导师的要求一般是查阅SCI,IEEE等大量具有“含金量”的外文文献。一方面,这考察每个人的英语阅读水平;另一方面,如何精准查找目标文献(核心文献,大牛文献?)因为个人可能还会继续深造,所以提早养好文献检索和管理的习惯,对后期的帮助

2017-02-23 22:01:01 6475 1

原创 2.ml learing routine

机器学习之路 上篇我叙述了自己的近期的学习历程,主要从时间顺序总结了一些随手获取的知识。 但是较为零散,今天主要把这些化整为零,总结一篇routine或者说plan,来给自己接下来做好铺垫。宏观上来说:首先ng的机器学习基础知识体还是需要重固和完善,配合zhang的笔记 —>接着攻克深度学习,配以神经网络在线书—>最后进行实践,按照wepon神的案例进行实践。本月目标:

2017-02-19 10:21:56 292

原创 Machine Learning

ml系列概述 本系列文章主要针对个人在现阶段的学习情况,因为目前研究生学习的是机器学习。最近在searching又翻阅了不少知名博主的博文,深受启发,尤其是wepon大神,博主是北大的,顺便参观了他(她)的其他主页,都很优秀。希望未来的日子能像w神一样,能够在互联网中拥有自己的知识库,点滴聚与江河,我将在本系列中把machine learning部分进行个人的知识曲线整理,这样不仅可以自我督促也

2017-02-18 21:17:04 6229

原创 新的任务

目前学习的是html5的相关知识,有一定的兴趣。学习渠道:极客学院在线视频  廖雪峰js教程  博客园博文目标:前端见习工程师

2016-05-11 17:10:31 378

原创 python web开发 之 flask教程(四)

今天的任务是对数据库的各种操作。流程很多,这里不赘述。主要记录自己在测试时所经历的错误:一、运行“db_create.py”报错,升级SQLAlchemy就好了。二、运行"db_migrate.py"报错,原因是python2与3之间版本不同造成。主要是两个函数exec和print2.7:exec old_model in tmp_module.__dict__

2016-04-05 10:06:37 530

原创 python web开发 之 flask教程(三)

都知道python是对格式要求很严格的,写了一些python但是也没发现他严格在哪里,今天遇到了IndentationError: unexpected indent错误我才知道他是多么的严格。     以后遇到了IndentationError: unexpected indent你就要知道python编译器是在告诉你“Hi,老兄,你的文件里格式不对了,可能是tab和空格没对齐的问题,你

2016-03-30 10:54:20 12239

原创 python web开发 之 flask教程(二)

16/3/29今天进行了flask第二部分的学习,主要有render_template这个新函数和Jinja2组件的使用和模块的继承。render_template render_template 的新函数,并用这个函数来渲染模板。并给这个函数赋予了模板文件名和一些变量作为参数。它将导入的变量替换掉模板中的变量占位符,并返回渲染后的模板。Jinja2在 Flask

2016-03-29 14:44:00 542

原创 python web开发 之 flask教程

2016/3/29昨天的学习过程中,因为对廖雪峰的教程网站基本run了一遍,对于基本的数据库和web框架、模板的运用了入门级的了解。近期的目标是想做出这样一个功能模块:登陆注册功能:注册的信息可以录入到本地数据库,同时我们可以调用数据库的用户来验证登陆信息。不过通过学习中发现,这里面需要一步步加强,首先是flask这个框架,自己对它还是一无所知;同时,注册登陆功能不是自己想的如此简单,正常

2016-03-29 09:16:21 2789

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除