flare zhao-CSDN博客

原创人工智能开发各类问题汇总及解决办法（不定期更新）

人工智能机器学习深度学习 python anaconda jupyter 配置与开发问题汇总及解决办法（不定期更新）–created by flare zhao操作系统 建议对使用的操作系统进行更新，如果系统版本过旧，可能导致Ananconda软件安装失败Python 安装3.7版本，版本并不是越高越高，使用3.8版本在深度学习部分可能存在安装包不兼容问题Anaconda ...

2020-03-01 11:04:50 1463 1

原创 41.7%年化收益率人工智能买股可以如此简单

学一门知识，充实自我掌握一项工具，让生活更美好~今天flare老师教大家AI选股，轻松搭建一个年化收益40%的机器学习选股策略—by flare zhao,转载请注明出处，原创不易，谢谢支持话不多说，先看策略的最终表现：2017年12月到2019年12月期间为了让大家有个更直观的感受，我们来看看K线图及策略的净值曲线：接下来，我们再来看看策略的具体交易情况：考虑到文章篇幅限制，...

2020-02-23 15:38:02 3725 5

原创人工智能入门利器介绍及基本环境搭建常用代码

pythonPython是一种解释型的、面向对象的、移植性强的高级程序设计语言。开发者：吉多·范罗苏姆（Guide van Rossum）解释性：不需要编译成二进制代码，可以直接从源代码运行面向对象：Python既支持面向过程的编程也支持面向对象的编程可移植性：由于它的开源本质，可在不同平台进行开发高层语言：无须考虑诸如如何管理程序使用的内存一类的底层细节官网:www.python...

2020-02-17 19:51:34 2463

原创机器学习工具包sklearn环境部署：python、anaconda、jupyter notebook

目标：从零部署机器学习开发环境，包括python3.7安装、anaconda安装、虚拟环境部署、jupyter notebook界面优化、简单程序运行1、python安装https://www.python.org/2、anaconda安装https://www.anaconda.com/3、虚拟环境部署为方便后续开发，使用anaconda部署新的开发环境3.1、env...

2019-06-20 10:48:34 1570

原创人工智能：第四章机器学习之聚类

目标本次主要介绍机器学习之聚类，主要解决分类的问题。通过KMean算法、KNN算法、MeanShift算法这三个算法的实战，通过对比，来了解和掌握各个算法的特点。机器学习之聚类介绍无监督学习聚类聚类分析常用的聚类算法K均值聚类K近邻分析模型（KNN）均值漂移聚类实战准备任务介绍实战一：采用Kmeans算法实现2D数据类...

2022-04-27 18:21:21 3756 5

目标这次学习的目标是：机器学习之逻辑回归，并用逻辑回归实现二分类的问题。将通过三个实战项目理解和熟练掌握机器学习的逻辑回归模型逻辑回归介绍什么是逻辑回归逻辑回归是用于解决分类问题的一种模型，根据数据特征或属性，计算其归属于某一类别的概率，根据概率值判断其所属类别。主要应用的场景：二分类问题下面介绍下flare老师对逻辑回归讲解的课件逻辑回归求解求解出损失函数的最小值，即可得到最优的逻辑回归模型分类任务与回归任务的区...

2022-04-27 18:07:26 2834

原创人工智能：第二章机器学习之线性回归

目标这次学习：机器学习的线性回归模型，先了解下机器学习和线性回归的介绍，然后通过三个案例实战来进行理解和熟练掌握机器学习的线性回归模型。机器学习介绍下面大概介绍下什么是机器学习，机器学习的应用场景，机器学习的基本原理框架和机器学习的类别。什么是机器学习可以先思考下图的问题机器学习的应用场景实现机器学习的基本框架机器学习的类别回归分析介绍什么是回归分析可以先思考下图的问题线性回归...

2022-04-27 17:31:49 3145 3

原创人工智能入门：第一章人工智能课程介绍及环境配置

学习内容今天主要介绍人工智能，让大家对人工智能有个很好的认识。并做好环境配置，为后面的人工智能学习做准备。关键词人工智能，监督式，非监督式，强化学习，迁移学习，机器学习，深度学习，python，anaconda，Ju peter Notebook，numpy，pandas，matplotlib。具体内容人工智能介绍什么是人工智能人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新

2022-04-22 12:35:32 3867

原创机器学习之模型评估

整体思路：先获取数据，把数据分为训练数据和测试数据，然后在不同k值的模型下分别训练和测试，得出不同k值情况下的模型预测准确性，最后把准确性可视化输出进行整体评估。1.获取数据from sklearn import datasetsiris=datasets.load_iris()x=iris.datay=iris.target2.分离数据from sklearn.model_selection import train_test_splitx_train,x_test,y_t

2022-04-08 09:53:46 2279 1

原创机器学习之实现、建模、训练、预测

首先获取训练的数据，参考iris数据加载from sklearn import datasetsiris = datasets.load_iris()x=iris.datay=iris.target使用k近邻算法（knn）先调用knn算法模块from sklearn.neighbors import KNeighborsClassifier创建一个模型实例，先命名为knn，先设k为3knn=KNeighborsClassifier(n_neighbors=3)让knn

2022-04-07 18:24:41 1903

原创机器学习入门iris数据加载

调用sklearn模块里的datasetsfrom sklearn import datasetsiris=datasets.load_iris()把iris的参数数据赋值给x把iris的结果数据值赋值给yx=iris.datay=iris.target验证下x,y的数据类型print(x[0])[5.1 3.5 1.4 0.2]print(type(x))print(type(y))<class 'numpy.ndarray'><class

2022-04-07 17:53:28 4364

转载样本不均衡及其解决办法

1 什么是类别不均衡类别不平衡（class-imbalance），也叫数据倾斜，数据不平衡，是指分类任务中不同类别的训练样例数目差别很大的情况。在现实的分类学习任务中，我们经常会遇到类别不平衡，例如广告点击率预测、故障分析、异常检测等；或者在通过拆分法解决多分类问题时，即使原始问题中不同类别的训练样例数目相当，在使用OvR（One vs. Rest）、MvM（Many vs. Many）策略后产生的二分类任务仍然可能出现类别不平衡现象。而标准机器学习算法通常假设不同类别的样本数量大致相似，所以类别不

2022-02-26 17:29:00 8129 1

转载炼丹笔记：样本不平衡问题

大家好，今天给大家带来的分享是关于“深度学习中的样本不平衡问题”。深度学习算法工程师，也被戏称为“炼丹师”，而样本，就是所谓的药材。最后训练出来的模型，就是丹药。当然，药材成色好，年分足，自然更容易炼出好的丹药。难得是，在药材劣质的情况下，如何也能够保证得到一炉仙丹呢？这个就要看丹师的药材配方和炼丹技术了。今天，我们给大家介绍的样本不平衡问题，就是为了帮助丹师们解决药材不好的难题，进而来提高炼丹技术。1. 什么是样本不平衡问题？所谓的类别不平衡问题指的是数据集中各个类别的样本数量极不均衡。以二分

2022-02-26 17:19:38 707

转载一文解决样本不均衡

1.1 样本不均衡现象样本（类别）样本不平衡（class-imbalance）指的是分类任务中不同类别的训练样例数目差别很大的情况，一般地，样本类别比例（Imbalance Ratio）（多数类vs少数类）明显大于1:1（如4：1）就可以归为样本不均衡的问题。现实中，样本不平衡是一种常见的现象，如：金融欺诈交易检测，欺诈交易的订单样本通常是占总交易数量的极少部分，而且对于有些任务而言少数样本更为重要。注：本文主要探讨分类任务的类别不均衡，回归任务的样本不均衡详见《Delving into De

2022-02-26 17:17:45 795

转载一文学习模型融合

模型融合：通过融合多个不同的模型，可能提升机器学习的性能。这一方法在各种机器学习比赛中广泛应用，也是在比赛的攻坚时刻冲刺Top的关键。而融合模型往往又可以从模型结果，模型自身，样本集等不同的角度进行融合。数据及背景https://tianchi.aliyun.com/competition/entrance/231784/information（阿里天池-零基础入门数据挖掘）模型融合如果你打算买一辆车，你会直接走进第一家4S店，然后在店员的推销下直接把车买了吗？大概率不会，你会先去

2022-02-26 17:11:14 617

转载精确率与召回率，RoC曲线与PR曲线

在机器学习的算法评估中，尤其是分类算法评估中，我们经常听到精确率(precision)与召回率(recall)，RoC曲线与PR曲线这些概念，那这些概念到底有什么用处呢？　　　　首先，我们需要搞清楚几个拗口的概念：1. TP, FP, TN, FN 　　True Positives,TP：预测为正样本，实际也为正样本的特征数　　False Positives,FP：预测为正样本，实际为负样本的特征数　　True Negatives,TN：预测为负样本，实际也为负样本的特征数　

2022-02-26 16:37:24 696

转载分类算法评价指标详解

一、基本概念评价指标是针对模型性能优劣的一个定量指标。一种评价指标只能反映模型一部分性能，如果选择的评价指标不合理，那么可能会得出错误的结论，故而应该针对具体的数据、模型选取不同的的评价指标。本文将详细介绍机器学习分类任务的常用评价指标：混淆矩阵（Confuse Matrix）、准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 Score、P-R曲线（Precision-Recall Curve）、ROC、AUC。二、混淆矩阵（Confuse Matri

2022-02-26 16:34:27 1816

转载 scikit-learn 梯度提升树(GBDT)调参小结

在梯度提升树(GBDT)原理小结中，我们对GBDT的原理做了总结，本文我们就从scikit-learn里GBDT的类库使用方法作一个总结，主要会关注调参中的一些要点。1.scikit-learn GBDT类库概述　　　　在sacikit-learn中，GradientBoostingClassifier为GBDT的分类类，而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同，当然有些参数比如损失函数loss的可选择项并不相同。这些参数中，类似于Ada...

2022-02-26 15:53:51 1124

转载人工智能技术专家系统

什么是专家系统？专家系统被定义为一种交互式可靠的基于计算机的决策系统，它使用事实和启发式方法来解决复杂的决策问题。它被认为是人类智慧和专业知识的最高水平。它是一个计算机应用程序，可以解决特定域中最复杂的问题。专家系统可以解决通常需要人类专家的许多问题。它基于从专家那里获得的知识。它还能够表达和推理某些知识领域。专家系统是当今人工智能，深度学习和机器学习系统的前身。专家系统的例子以下是专家系统的示例MYCIN：它基于反向链接，可以识别可能导致急性感染的各种细菌。它还可以根据患者的体重推荐药物。.

2022-02-26 15:10:20 2669

转载人工智能(ai)和专家系统(expert system)的区别

专家系统是人工智能领域的重要研究领域之一。事实上，专家系统代表了人工智能能力的最成功的证明，它们是人工智能领域工作的第一个真正的商业应用。专家系统是模拟人类专家的思维过程来解决特定领域复杂决策问题的计算机程序。专家系统是人工智能领域的重要研究领域之一。事实上，专家系统代表了人工智能能力的最成功的证明，它们是人工智能领域工作的第一个真正的商业应用。专家系统是模拟人类专家的思维过程来解决特定领域复杂决策问题的计算机程序。什么是人工智能(artificial intelligence)？人工智

2022-02-26 15:08:21 8386

转载特征工程在实际业务中的应用

导读：大概知道特征工程，但是不清楚特征工程在实际业务中怎样应用，怎么和业务知识结合？本文将结合作者实际经历尝试回答。首先明确一下问题，“特征工程在实际业务中的应用”，也就是领域业务知识和机器学习建模的相互结合。下面会对特征工程简单介绍，并且用自己工作中实际参与的项目给大家分享在银行贷款申请反欺诈场景&零售线上APP推荐场景的机器学习建模里，业务知识是如何帮助特征工程的。01 简单介绍特征工程是什么？特征工程是工业界建模中最最最重要的一个模块。模型效果的好坏，一部分是由数据质量决定...

2022-02-26 14:51:08 300

转载 python逻辑控制语句

if语句基本格式如果if语句判断是True，就把缩进的两行print语句执行了，否则，什么也不做。if...else...语句 if 条件：条件为真（True）执行的操作else：条件为假（False）执行的操作if....

2022-02-26 14:41:23 160

转载完整版：资深程序员都了解的代码复用法则

编写代码最重要一条，是怎样复用其他程序员的代码和思路来解决问题。通过修改他人的代码来解决复杂问题是种错误的做法，不仅成功的机率很低，就算成功也不会提供什么经验。按照这种方式进行编程，无法成长为一名真正的程序员，在软件开发领域，前景也是非常有限。一旦问题达到了一定规模，期望程序员从头开发一个解决方案不太现实，这会导致程序员大量时间浪费在低效率工作中，并且极大地依赖程序员精通各个方面的知识。另外，这种做法也容易导致程序充满缺陷或难以维护。良好的复用和不良的复用良好的复用帮助我们编写更好的程序，并

2022-02-26 00:05:00 2318

转载 Python 数据可视化？

pyecharts是一个用于生成Echarts图表的类库。实际上就是 Echarts 和 Python 的对接。 Echarts 是百度开源的一个数据可视化 JS 库。主要用于数据可视化。安装pyecharts 兼容 Python2 和 Python3。目前版本为 0.1.6pip install pyecharts入门首先开始来绘制你的第一个图表from pyecharts import Barbar = Bar("我的第一个图表", "这里是副标题")bar.ad...

2022-02-26 00:00:10 419

转载 Python可视化笔记43篇合集

各篇简介Python可视化43|「plotnine≈Python版ggplot2」plotnine是图层图形语法（The Grammar of Graphics）在python中的实现，是ggplot2的python版，使用方法和ggplot2几乎一样。ggplot2的强大可参考：R基础及可视化教程全集Python可视化|Matplotlib40-「LaTeX」 in Matplotlib和python多种方式实现在图形中添加latex字符、数学公式等。Python

2022-02-25 23:52:55 236

转载 Python可视化库

现如今大数据已人尽皆知，但在这个信息大爆炸的时代里，空有海量数据是无实际使用价值，更不要说帮助管理者进行业务决策。那么数据有什么价值呢？用什么样的手段才能把数据的价值直观而清晰的表达出来？答案是要提供像人眼一样的直觉的、交互的和反应灵敏的可视化环境。数据可视化将技术与艺术完美结合，借助图形化的手段，清晰有效地传达与沟通信息，直观、形象地显示海量的数据和信息，并进行交互处理。数据可视化的应用十分广泛,几乎可以应用于自然科学、工程技术、金融、通信和商业等各种领域。下面我们基于Python，简单地介绍一下适用于

2022-02-25 23:48:38 6085

转载如何理解精准营销中的机器学习技术？

一个问题你觉得厄瓜多尔产的苹果能吃吗？也许你一看到这个问题的时候有点摸不着头脑，但倘若暂不去究根问底，而只是集中回答题干本身的话，相信很多人都会不假思索地反应出“能吃”这个答案。好了，那我们的问题就是，你是如何判断出厄瓜多尔的苹果能吃的呢？在你短暂的思考过程中，你经过了怎样的逻辑推断呢？事实上，有这样两个思考过程是必经之路：1、判断苹果一般都能吃；2、确认厄瓜多尔的苹果也属于苹果的一种。由于以上这两个条件的支撑，很多人都会产生“厄瓜多尔产的苹果能吃”这样的结论，这很正常。不仅如此

2022-02-25 23:39:47 415

转载怎样用数据分析方法应用KANO模型？

一、 kano模型简介KANO 模型是东京理工大学教授狩野纪昭（Noriaki Kano）发明的对用户需求分类和优先排序的工具，以分析用户需求对用户满意度的影响为基础，体现了产品性能和用户满意度之间的非线性关系。KANO模型将需求分为五种类型，下图展示了不同类型的需求对用户满意度的影响。图中的横坐标代表一个需求的实现程度高低，越往右越高。纵坐标代表用户的满意度，越往上越高。这里的满意度从低到高就是从不满意一直到满意，在中间是没有不满意和没有满意的中间状态，也就是用户觉得理所当然的状态。图

2022-02-25 23:33:42 1211

转载机器学习中调参的基本思想

机器学习调参经验分享我发现大多数的机器学习相关的书都是遍历各种算法和案例，为大家讲解各种各样算法的原理和用途，但却对调参探究甚少。这中间有许多原因，其一是因为，调参的方式总是根据数据的状况而定，所以没有办法一概而论；其二是因为，其实大家也都没有特别好的办法。通过画学习曲线，或者网格搜索，我们能够探索到调参边缘（代价可能是训练一次模型要跑三天三夜），但是在现实中，高手调参恐怕还是多依赖于经验，而这些经验，来源于：1）非常正确的调参思路和方法2）对模型评估指标的理解3）对数据的感觉和经验

2022-02-25 23:29:03 261

转载机器学习模型的超参数优化

引言模型优化是机器学习算法实现中最困难的挑战之一。机器学习和深度学习理论的所有分支都致力于模型的优化。机器学习中的超参数优化旨在寻找使得机器学习算法在验证数据集上表现性能最佳的超参数。超参数与一般模型参数不同，超参数是在训练前提前设置的。举例来说，随机森林算法中树的数量就是一个超参数，而神经网络中的权值则不是超参数。其它超参数有：神经网络训练中的学习率支持向量机中的参数和参数k 近邻算法中的参数……超参数优化找到一组超参数，这些超参数返回一个优化模型，该模型减少了预定义的损失函数，进而

2022-02-25 23:27:29 1184

转载机器学习模型调参指南（附代码）

导读ML工作流中最困难的部分之一是为模型找到最好的超参数。ML模型的性能与超参数直接相关。介绍维基百科上说，“Hyperparameter optimization或tuning是为学习算法选择一组最优的hyperparameters的问题”。ML工作流中最困难的部分之一是为模型找到最好的超参数。ML模型的性能与超参数直接相关。超参数调优的越好，得到的模型就越好。调优超参数可能是非常乏味和困难的，更像是一门艺术而不是科学。超参数超参数是在建立模型时用于控制算法行为的.

2022-02-25 23:26:12 308

转载调试机器学习模型的六种方法

在传统的软件开发中，一个 bug 通常会导致程序崩溃。这对用户来说是很烦人的，因此解决这些问题对开发人员来说很重要——当程序失败时，开发人员可以检查错误以了解原因。在机器学习模型中，开发人员有时会遇到错误，但经常会在没有明确原因的情况下导致程序崩溃。虽然这些问题可以手动调试，但机器学习模型通常由于输出预测不佳而失败。更糟糕的是，当模型失败时，通常没有信号显示模型失败的原因或时间。而使情况更为复杂的是，这可能是由于一些因素造成的，包括糟糕的训练数据、高损失误差或缺乏收敛速度。在这篇博客文章中，我们

2022-02-25 23:20:35 616

转载机器学习模型应该如何调优？这里有三大改进策略

无论是 Kaggle 竞赛还是工业部署，机器学习模型在搭建起来之后都面临着无尽的调优需求。在这个过程中我们要遵循怎样的思路呢？如果准确性不够，机器学习模型在真实世界就没有什么实用性了。对于开发者们来说，如何提高性能是非常重要的工作，本文将介绍一些常用策略，包括选择最佳算法、调整模型设置和特征工程。如果你学习过正确的教程，很快就能训练起自己的第一个机器学习模型。然而想要在第一个模型上跑出很好的效果是极难的。在模型训练完后，我们需要花费大量时间进行调整以提高性能。不同类型的模型有不同的调优策略，在本文中

2022-02-25 23:19:01 1284

转载机器学习模型评估指标汇总

在使用机器学习算法过程中，针对不同的问题需要不用的模型评估标准，这里统一汇总。主要以两大类分类与回归分别阐述。一、分类问题1、混淆矩阵混淆矩阵是监督学习中的一种可视化工具，主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别，每一列代表实例的真实类别。　　　　　　真正(True Positive , TP)：被模型预测为正的正样本。假正(False Positive , FP)：被模型预测为正的负样本。假负(False Negative , FN)：被模型预

2022-02-25 23:17:33 2133

转载机器学习中常用的模型性能指标

引例一个测试样本集S总共有100张照片，其中，电动车的照片有60张，摩托车的照片有40张。给模型（二分类模型）输入这100张照片进行分类识别，我们的目标是：要找出这100张照片中的所有电动车。在100张照片中，模型识别给出了50个电动车目标，剩下50个则是摩托车。这与实际的情况有出入（实际是：电动车60个，摩托车40个）。正例与负例正例：Positives，即你所关注的类别，本次问题在与找出电动车的照片，那么电动车的照片自然就是正例。负例：Negatives, 二分类问题中，正例之外即负例，本问

2022-02-25 23:14:12 645

转载机器学习模型评估指标

在机器学习建模过程中，针对不同的问题，需采用不同的模型评估指标。主要分为两大类：分类、回归。一、分类1、混淆矩阵2、准确率（Accuracy）3、错误率（Error rate）4、精确率（Precision）5、召回率（Recall）6、F1 score7、ROC曲线8、AUC9、PR曲线10、对数损失（log_loss）11、分类指标的文本报告（classification_report）二、回归1、平均绝对误差（MAE）2、均方误差（MSE）3、均方根误差（RMS

2022-02-25 23:11:37 6678 1

转载机器学习图像分割

Before going to the coding part, we must be knowing that why is there a need tosplita single data into 2 subsets i.e. training data and test data.在进行编码之前，我们必须知道为什么需要将单个数据分为2个子集，即训练数据和测试数据。So, at first, we would be discussing the training data. We u...

2022-02-25 23:08:51 1135

空空如也

空空如也