嘚嘚鸟-CSDN博客

转载百面机器学习2---模型评估

1 评估指标的局限性引例:Hulu的奢侈品广告主们希望把广告定向投放给奢侈品用户。Hulu拿到了一部分奢侈品用户的数据，并以此为训练集和测试集，训练和测试奢侈品用户的分类模型。该模型的分类准确率超过了95%，但在实际广告投放过程中，该模型还是把大部分广告投给了非奢侈品用户，这可能是什么原因造成的？1.1准确率的局限性准确率是指分类正确的样本占总样本个数的比例准确率是分类问题中最简单也是最直观的评价指标，但存在明显的缺陷。比如，样本类别不平衡.当负样本占99%时，分类器把所有样本都预测为负样本也可以获

2021-07-14 15:03:55 618

原创百面机器学习1---特征工程

第三次的人工智能浪潮就是基于另外两个技术领域的大发展，一个是巨大的计算能力，一个是海量的数据。最近这次人工智能浪潮和前两次最基本的不同是它的普遍应用和对普通人生活的影响。也就是说，人工智能离开了学术实验室，真正走进大众的视野。人工智能技术现在发展到什么阶段？历史上第一次，计算机在很多复杂任务的执行上超过人类或者即将超过人类，比如图像识别、视频理解、机器翻译、汽车驾驶、下围棋，等等。这些都是人们容易理解的，一直由人类完成的任务。人工智能和机器学习的应用场景非常宽广1.特征工程没有充足的数据、合适的特征

2021-07-13 15:32:07 153

原创 python中的私有方法

1. 理论Python中不存在真正的私有方法。为了实现类似于c++中私有方法，可以在类的方法或属性前加一个“_”单下划线，意味着该方法或属性不应该去调用，它并不属于API。但是，这只是一个形式上的约定，python并不阻止调用。双下划线的作用是避免覆盖其内容，实现的机制是在带有双下划线的方法或属性前加上类名的标识。由于，python自动对方法和属性进行了改写，所以直接调用带有双下划线的方法是调用不到的。“xx”经常是操作符或本地函数调用的magic methods。在上面的例子中，提供了一种重写类的

2021-07-09 21:06:00 3988

原创二叉堆(没学会)

1.二叉堆概念我们知道，树有很多种，最常用的就是二叉树了。二叉树又有满二叉树和完全二叉树(完全二叉树，叶节点最多只出现在最底层和次底层，而且最底层的叶节点都连续集中在最左边，每个内部节点都有两个子节点，最多可有1 个节点例外;完全二叉树可以用非嵌套列表表示,如果节点的下标为p ，那么其左子节点下标为2p ，右子节点为2p+1 ，其父节点下标为p//2)。而二叉堆，就是基于完全二叉树的一种数据结构。它有以下两个特性。首先它是一个完全二叉树其次，堆中的任意一个父节点的值都大于等于（或小于）它的左右

2021-07-08 22:22:47 156 1

原创查找和排序

1. 二分查找# 704. 二分查找def search( nums, target): if len(nums) == 0: return -1 def help(left,right): if left<=right: m=int((left+right)/2) while target<nums[m]: return help(left,m-1)

2021-07-06 21:39:19 40

原创 BFS(广度优先搜索)

DFS（Depth-First-Search,深度优先搜索）和 BFS（Breadth-First Search,广度优先搜索）就像孪生兄弟，提到一个总是想起另一个。然而在实际使用中，我们用 DFS 的时候远远多于 BFS。那么，是不是 BFS 就没有什么用呢？如果我们使用 DFS/BFS 只是为了遍历一棵树、一张图上的所有结点的话，那么 DFS 和 BFS 的能力没什么差别，我们当然更倾向于更方便写、空间复杂度更低的 DFS 遍历。不过，某些使用场景是 DFS 做不到的，只能使用 BFS 遍历。这就是本

2021-07-05 17:03:48 253

原创 python队列queue

FIFO:先进先出# 采用list来容纳queue的数据项class queue:'定义queue类' def __init__(self): self.items = [] def isempty(self): return self.items == [] def enqueue(self, item): self.items.insert(0, item) def dequeue(self):

2021-07-05 15:27:52 52

原创模型可解释性

原网址好长的文章模型可解释性的提高,有助于模型和特征的优化，更能够帮助更好的理解模型本身和提升模型服务质量.机器学习业务应用以输出决策判断为目标。可解释性是指人类能够理解决策原因的程度。机器学习模型的可解释性越高，人们就越容易理解为什么做出某些决定或预测。其重要性体现在：建模阶段，辅助开发人员理解模型，进行模型的对比选择，必要时优化调整模型；在投入运行阶段，向业务方解释模型的内部机制，对模型结果进行解释。比如基金推荐模型，需要解释：为何为这个用户推荐某支基金。事实上，每个分类问题的机器学习流程中都应该

2021-06-29 15:42:11 1769

原创 C-index Bootstrap

什么是一致性指数？C-index，英文名全称concordance index，中文里有人翻译成一致性指数，最早是由范德堡大学（Vanderbilt University）生物统计教教授Frank E Harrell Jr 1996年提出，主要用于计算生存分析中的COX模型预测值与真实之间的区分度（discrimination），和大家熟悉的AUC其实是差不多的；在评价肿瘤患者预后模型的预测精度中用的比较多。一般评价模型的好坏主要有两个方面，一是模型的拟合优度(Goodness of Fit),常见的评

2021-06-28 21:16:56 1485

原创英语写作逗号怎么用

逗号可以直接连接两个完整句子吗?例如:I came, I saw, I conquered. ——Julius CaesarWe do the best, god does the rest.Science without religion is lame, religion without science is blind.解答:This is called a comma splice.A comma splice is when independent clauses are join

2021-06-28 20:15:47 669

原创排序算法总结

动画图解:十大经典排序算法冒泡排序快速排序代码框架void sort(nums, lo,hi) { /****** 前序遍历位置 ******/ // 通过交换元素构建分界点 p p = partition(nums, lo, hi); /************************/ sort(nums, lo, p - 1); sort(nums, p + 1, hi);}...

2021-06-26 18:51:39 37

原创递归回溯备忘录动态规划迭代贪心深度优先搜索DFS辨析

1.回溯法有通用解题法之称，它可以系统的搜索一个问题的所有解或者任意解。它在问题的解空间树中，按深度优先策略从根节点出发搜索解空间树，算法搜索至解空间树的任意一个结点时，先判断该节点（如子树）是否包含问题的解，如果肯定不包含，则跳过对其子树的搜索，逐层向其根节点回溯。否则，则按照深度优先的策略搜索子树。当回溯到根，且根节点的所有子树都已被搜索遍才结束。这种以深度优先方式系统搜索问题解的算法称为回溯法，适用于解决组合数较大的问题。回溯法搜索解空间树时，通常采用两种策略避免无效搜索，一种是用约束函数法在节点

2021-06-13 21:04:43 308

原创训练集,验证集,测试集,交叉验证

交叉验证交叉验证算法的具体步骤如下：随机将训练数据等分成k份，S1, S2, …, Sk。对于每一个模型**Mi**，算法执行k次，每次选择一个**Sj**作为验证集，而其它作为训练集来训练模型**Mi**，把训练得到的模型在**Sj**上进行测试，这样一来，每次都会得到一个误差E，最后对k次得到的误差求平均，就可以得到模型Mi的泛化误差。算法选择具有最小泛化误差的模型作为最终模型，并且在整个训练集上再次训练该模型，从而得到最终的模型。K折交叉验证，其主要的目的是为了模

2021-06-03 16:26:12 332

原创 Python链表二叉树

一、链表简介链表是一种在存储单元上非连续、非顺序的存储结构。数据元素的逻辑顺序是通过链表中的指针链接次序实现。链表是由一系列的结点组成，结点可以在运行时动态生成。每个结点包含两部分：数据域与指针域。数据域存储数据元素，指针域存储下一结点的指针。二、单向链表单向链表也叫单链表，是链表中最简单的形式，它的每个节点包含两个域，一个信息域（元素域）和一个链接域。这个链接指向链表中的下一个节点，而最后一个节点的链接域则指向一个空值。head 保存首地址，item 存储数据，next 指向下一结点地址。链表

2021-05-31 14:38:35 1878 2

原创毕业论文积累词句

特征基因筛选然后做分类的本质 Data analysis usually involves the extraction of patterns that can be useful for classifying a given tissue sample based on its gene expression profile. This procedure consists of identifying the genes that contribute most to successful cla.

2021-05-29 15:17:34 139

原创前瞻性研究(Prospective study)

前瞻性研究(Prospective study)In this study, the authors have evaluated whether an artificial neural network (ANN) trained on a large prospectively collected dataset(前瞻性数据集) of consecutive mammography findings can discriminate between benign and malignant dise

2021-05-27 15:32:49 9443

原创排序算法总结,递归,动态规划

这或许是东半球讲十大排序算法最好的一篇文章

2021-05-17 10:16:17 640

原创林垚,

是男性，是父亲，也是女权主义者林垚：司法种族主义与警察暴力的政治学法律是统治阶级的武器,把黑人困在阶层里.1926年Village of Euclid, Ohio 诉 Ambler Realty Co.的标志性案件被最高法院判为合宪后，北方城市也开始通过划区制将黑人排斥在交通便捷、公共设施较好的社区之外。“红线标记政策”（Redlining1971年，尼克松将毒品滥用称为“第一公敌”，他与后来的里根总统都曾以毒品战争的名义实行严刑峻法。90年代，克林顿政府由于共和党人的压力，进一步强化“法

2021-05-08 16:18:19 193

原创数据治理,逻辑回归,python代码

美团酒旅数据治理实践看不懂,真的看不懂.数据治理和平台治理,不懂.逻辑回归模型简介李宏毅课程讲解逻辑回归文字版李宏毅逻辑回归视频课

2021-05-07 22:07:14 116

原创 python数据结构与算法--双指针

当涉及到两个值都要移动的时候,考虑双指针例题一 :盛最多水的容器例题一 :盛最多水的容器给你 n 个非负整数 a1，a2，…，an，每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线，垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0) 。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水.示例一:输入：[1,8,6,2,5,4,8,3,7]输出：49解释：图中垂直线代表输入数组 [1,8,6,2,5,4,8,3,7]。在此情况下，容器能够容纳水（表示为

2021-05-04 11:15:31 224

原创 pandas concat()

concat()函数可以在行和列两个水平上灵活的合并多个数据框，基本用法如下：def concat( objs, axis=0, join="outer", join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True,): '''

2021-03-12 15:59:15 298

原创 pandas merge()

DataFrame.merge(right, how='inner', on=None,left_on=None,right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)'''Parameters:right:DataFrame or named SeriesObject to

2021-03-11 22:13:26 85

原创 python读取文本文件

#read_csv和read_table的区别:#read_csv默认读取用逗号分隔符的文件，不需要用sep来指定分隔符import pandas as pdpd.read_csv('filename.txt')#read_csv如果读的是用非逗号分隔符的文件，必须要用sep指定分割符，不然读出来的是原文件的样子pd.read_csv('filename.txt',sep='\t')#read_table读取文件时必须要用sep来指定分隔符，否则读出来的数据是原始文件，没有分割开pd.read

2021-03-09 11:23:55 406

原创统计学习——最小二乘法

最小二乘法最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。法国数学家，阿德里安-马里·勒让德（1752-1833）提出让总的误差的平方最小的y就是真值，这是基于，如果误差是随机的，应该围绕真值上下波动（关于这点可以看“如何理解无偏估计？"）。现在有多组观测值((x1,y1),(x2,y2),(x3,y3),…,(xn,yn)),可以带入上式，通过计算误差平方的

2020-12-24 12:07:31 11001

原创李宏毅机器学习——误差从哪来

Error的来源Average ErrorAverage Error 随着模型复杂增加呈指数上升趋势。更复杂的模型并不能给测试集带来更好的效果，而这些 ErrorError 的主要有两个来源，分别是 bias 和 variance然而 bias 和 variance是什么：Error由bias和variance组成。Error反映的是整个模型的准确度，Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型

2020-12-23 12:02:23 232

原创 python数据结构——动态规划

在计算机科学中，许多程序是为使一些问题得到最优解而写；例如，找到两点间的最短路径，找到最匹配一组点的线，或找到满足某些条件的最小对象集。计算机学家有许多策略来解决这些问题。动态规划是这类求最优解问题的解决策略之一。优化问题的一个典型例子就是用最少的硬币来找零。假设你是一家自动售货机制造商的程序员。你的公司正设法在每一笔交易找零时都能提供最少数目的硬币以便工作能更加简单。假设一个顾客投了1美元来购买37美分的物品。你用来找零的硬币的最小数量是多少？答案是六枚硬币：两个25 美分，一个10美分，三个1美分

2020-12-19 15:22:11 176 1

原创李宏毅梯度下降

扩展资料

2020-12-12 20:28:17 139

原创用Python链表实现有序表与无序表（未完成）

参考别人的一篇文章引自《数据结构与算法》MOOC（北大地空）

2020-12-12 20:25:35 103

原创 python数据结构——递归recursion

什么是递归递归是一种解决问题的方法，它把一个问题分解为越来越小的子问题，直到问题的规模小到可以被很简单直接解决。通常为了达到分解问题的效果，递归过程中要引入一个调用自身的函数。乍一看，递归算法并没有什么特别的地方，但是，利用递归我们能够写出极为简明的解决问题的方法，而且如果不用递归，这些问题将具有很大的编程难度。计算数字列表的和我们先从一个简单的问题开始我们的探究，这个问题不需要递归也可以解决。假如你想对一个数字列表进行求和（例如[1,3,5,7,9]），代码所示的是一个通过迭代函数（for 循环）求

2020-12-12 19:12:09 891

原创李宏毅机器学习——回归定义和应用例子

回归定义Regression 就是找到一个函数 function，通过输入特征 x，输出一个数值Scalar。应用举例股市预测（Stock market forecast）输入：过去10年股票的变动、新闻咨询、公司并购咨询等输出：预测股市明天的平均值自动驾驶（Self-driving Car）输入：无人车上的各个sensor的数据，例如路况、测出的车距等输出：方向盘的角度商品推荐（Recommendation）输入：商品A的特性，商品B的特性输出：购买商品B的可能性Pokemon精

2020-12-10 21:37:54 517

原创机器学习相关技术

迁移学习(transfer learning)减少data用量迁移学习的意思是：假设我们要做猫和狗的分类问题，只有少量的有label的data。但是我们现在有大量的data，这些大量的data中可能有label也可能没有label。但是他跟我们现在要考虑的问题是没有什么特别的关系的，我们要分辨的是猫和狗的不同，但是这边有一大堆其他动物的图片还是动画图片（凉宫春日，御坂美琴）你有这一大堆不相干的图片，它到底可以带来什么帮助。这个就是迁移学习要讲的问题。结构化学习(structured learning

2020-12-10 11:20:29 575

原创统计学习方法——感知机

基本模型感知机1957年由Rosenblatt提出，是神经网络与SVM的基础。它是一个二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。线性方程w⋅x+b=0对应于特征空间Rn中的一个超平面S，其中w是超平面的法向量，b是超平面的截距。超平面将特征空间划分为两个部分。位于两个部分的点（特征向量）分别被分为正负两类。数据集的线性可分性如果存在某个超平面w⋅x+b=0能将数据集的正实例点和负实例点完全正确地划分到超平面两侧，称数据集T为线性可分数据集。损失函数的选择

2020-12-08 16:02:58 491

原创 python数据结构类

类的定义类封装了对应现实实体的性质和行为，实例对象式是类的具体化封装、继承、多态类名和函数调用相同：类名用大写字母开头，函数用小写字母开头#定义类class <类名>: <一系列方法的调用>#类的初始化class <类名>： def_init_(self,<参数表>): def <方法名>(self,<参数表>):#_init_()是一个特殊的函数名，用于根据类的定义创建实例对象，第一个参数必须为self

2020-11-26 22:39:58 132

原创 Python数据结构queue:热土豆问题和打印机模拟问题

问题描述热土豆传递问题：假设有N个人，有一个热土豆在这N个人中传递，每经过一个人称为传递一次，假设传递m次，最后在哪个人的手中，该人就出去，然后自动落到下一个人手中。如此往复下去，求最后剩下的那个人（因为只有一个人了，所以不可能再传递下去）？问题实现利用队列实现热土豆问题:参加游戏的人名列表name_list，每一次传递土豆的次数num，返回最后剩下的人名即可.这里换个角度思考一下，因为土豆是传递的，所以它的位置是不断变化的，而人的位置是固定的，但是如果去掉第m个人后，余下的人的位置就要改变，复杂度

2020-11-26 16:32:00 795 1

原创列表推导和生成器表达式

列表推导和生成器表达式1.列表推导(list comprehension)和可读性2.列表推导同filter和map的比较3.列表推导与笛卡尔积生成器表达式列表推导唯一的作用:生成列表,如果想生成其他类型的序列，生成器表达式就派上了用场。ASCII编码:ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码，使用7 位二进制数（剩下的1位二进制为0）来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控

2020-11-26 16:10:35 170

经典面试题：最长公共子序列.html

空空如也