Artoria____-CSDN博客

原创记录

为了1024勋章哈哈哈哈哈，划个水

2021-10-24 22:45:51 367

对视频中线性回归算法的相关内容进行总结与记录文章目录一、理论基础二、实例2.1 一元线性回归2.1.1 推导过程2.1.2 代码实现（基于numpy）2.1.3 代码实现（基于sklearn）2.2 多元线性回归2.2.1 代码实现（基于numpy）2.2.2 代码实现（基于sklearn）一、理论基础回归通常是指利用某个函数，尽可能把数据样本点“串”在一起，用于描述输入变量和输出变量间的变化关系线性回归特点：用来把数据“串”起来的那个函数是线性的（一元线性回归（一个自变量） &a.

2021-08-16 15:38:38 555

原创 MySQL基础操作

基于虚拟机执行ipconfig查看ip信息mysql -uroot -proot登录，u为user，p为password也可mysql -uroot -p，可隐藏输入密码\q退出也可通过win+r，输入sevices.msc进入服务，找到MySQL结束。show databases;可查看mysql服务器管理多少个数据库use db;选择数据库show tables;可查看当前数据库下有多少表此处需要注意，要先选择数据库，才能show tablessel.

2021-01-08 17:32:43 486

原创 SQL查询语句练习（二）

1. 找出供应商名称，所在城市SELECT 公司名称 AS 供应商名称, 城市 AS 所在城市FROM 供应商2. 找出华北地区能够供应海鲜的所有供应商列表。SELECT 公司名称 AS 供应商列表FROM 产品LEFT JOIN 供应商 ON 供应商.`供应商ID` = 产品.`供应商ID`LEFT JOIN 类别 ON 类别.`类别ID` = 产品.`类别ID`WHERE 类别.类别ID = 8AND 地区 = '华北'3. 找出订单销售额前五的订单是经由哪家运货商运送的

2021-01-04 11:44:29 5202 2

原创 SQL查询语句练习（一）

一、单表查询1. 查询订购日期在1996年7月1日至1996年7月15日之间的订单的订购日期、订单ID、客户ID和雇员ID等字段的值SELECT 订购日期,订单ID,客户ID,雇员ID FROM `订单` WHERE 订购日期 BETWEEN '1996-07-01' AND '1996-07-15'2.查询供应商的ID、公司名称、地区、城市和电话字段的值。条件是“地区等于华北”并且“联系人头衔等于销售代表”SELECT 供应商ID,公司名称,地区,城市,电话 FROM `供应商`WHER

2021-01-03 12:28:37 11891 7

转载 Keras知识结构

文章目录1. Keras网络结构2. Keras网络配置3. Keras预处理功能1. Keras网络结构2. Keras网络配置3. Keras预处理功能更多详情见这一篇博文。

2020-05-14 16:57:32 229

转载常用三角公式、变形及图形

文章目录1. 公式2. 图形1. 公式2. 图形

2020-04-27 16:53:19 696

转载知网查重原理以及降重举例

现在高校对于硕士和博士论文采用的检测系统，是由知网开发的。但该软件的具体算法，判定标准，以前一直不清楚，本文是从知网内部工作人员哪里拿到的，揭示了知网反抄袭检测系统的算法，如何判定论文是抄袭，以及如何修改来通过的秘籍。发出来造福大家。引用：1、对格式的要求知网学位论文检测为整篇上传，格式对检测结果可能会造成影响，需要将最终交稿格式提交检测，将影响降到最小，此影响为几十字的小段可能检测不出。...

2020-04-26 12:24:59 1935

原创 EM算法推导详解

文章目录一、EM算法推导最近在看贝叶斯相关的论文，里面讲到了EM算法，就把李航的统计学习方法这本书里的有关EM算法的详细推导过程仔细研读一遍，收获颇丰！数理统计的基本问题就是根据样本所提供的信息，对总体的分布或者分布的数字特征作出统计推断。所谓总体，就是一个具有确定分布的随机变量，来自总体的每一个iid样本都是一个与总体有相同分布的随机变量。EM算法是一种迭代算法，用于含有隐变量的概率模型参...

2020-03-07 15:36:57 695

原创基于RNN的MNIST实例

文章目录一、数据准备二、定义模型三、模型训练四、模型评估与预测MNIST 数据集来自美国国家标准与技术研究所，National Institute of Standards and Technology (NIST)。训练集 (training set) 由来自 250 个不同人手写的数字构成，其中 50% 是高中学生，50% 来自人口普查局 (the Census Bureau) 的工作人员。...

2020-02-27 14:39:23 327

原创关于校外访问湖北经济学院校内图书馆资源的具体步骤

对于http://tsg.hbue.edu.cn/xwfw/list.htm中提到的远程访问的步骤，存在一定的变化，于是将现在可成功的完整步骤分享出来。首先还是进入该网站。出现以下界面。...

2020-02-23 18:54:56 3709

原创基于CNN的CIFAR10实例

文章目录一、导入数据二、数据预处理三、模型的建立与编译四、模型的训练与预测一、导入数据首先先导入CIFAR10数据集from keras.datasets import cifar10(X_train, y_train), (X_test, y_test) = cifar10.load_data()print('图像数据格式：', X_train.shape)print("训练集：...

2020-02-23 16:05:54 582

原创基于Keras Sequential模型的iris实例

文章目录一、导入数据二、预处理三、建立网络并训练模型四、模型评估以及效果评价五、模型的预测六、模型拟合过程的可视化一、导入数据以iris数据集为例，导入并切分数据。# 导入数据并拆分数据from sklearn import datasetsfrom sklearn.model_selection import train_test_splitiris = datasets.load...

2020-02-21 22:50:01 936 6

原创简单的softmax函数实现

在机器学习尤其是深度学习中，softmax是个非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。softmax的公式为：Softmax(zj)=ezj∑ezjSoftmax(z_j) = \frac{e^{z_j}}{\sum {e^{z_j}}}Softmax(zj)=∑ezjezj...

2020-02-20 22:13:16 1109

原创深度学习常见专业名词

输入层Input layer。即输入x的那一层。输出层Output layer。即输出y的那一层。隐含层Hidden layer。输入层和输出层之间不管隔了多少层都叫隐层。卷积Convolution。其实是一种特征提取的过程，通常会降低维度池化Pooling。是一种数据采样操作，有均值池化（Average Pooling），最大值池化（Max Pooling）...

2020-02-16 23:21:23 1028

原创数据可视化各种图表对比总结

在对收集到的数据进行可视化的过程中，盲目的选择图表不仅仅图表的效果不好，甚至会产生误导。因此对在数据可视化的过程中常用的一些图表进行下总结柱状图适用场景：适用场合是二维数据集（每个数据点包括两个值x和y），但只有一个维度需要比较，用于显示一段时间内的数据变化或显示各项之间的比较情况。优势：柱状图利用柱子的高度，反映数据的差异，肉眼对高度差异很敏感。劣势：柱状图的局限在于只适用中小规模...

2020-01-14 18:38:44 9086 1

转载 CountVectorizer & Tf-idfVectorizer & word2vec

CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式，比如在情感分析问题中，我需要把每一个句子（评论）转化为词向量，这两种方法是如何构建的呢？拿CountVectorizer来说，首先构建出一个字典，字典包含了所有样本出现的词汇，每一个词汇对应着它出现的顺序和频率。对于每一个句子来说，构建出来的词向量的长度就是整个词典的长度，词向量的每一维上都代表这一维...

2019-12-03 19:28:51 312

原创情感分类实例——基于Logistics回归以及SVC

本篇博客分别将用三种模型分别进行情感分析目录一、朴素贝叶斯二、Logistics回归三、SVC在训练模型之前，先看下数据集的样子：正向评价和负向评价在两个sheet中。因此首先要将两个sheet合并并分别标注为1和0# 导入数据集import pandas as pd# 定义正向为1，负向为0dfpos = pd.read_excel('./购物评论.xlsx', sheet...

2019-12-03 19:22:11 1129 1

转载 Latex各种箭头符号总结

字符含义\uparrow↑\downarrow↓\Uparrow⇑\Downarrow⇓\updownarrow↕\Updownarrow⇕\rightarrow→\leftarrow←\Rightarrow⇒\Leftarrow⇐\leftrightarrow↔\Leftrightarro...

2019-11-29 15:00:24 94029 3

转载 120G+训练好的word2vec模型（中文词向量）

多人缺少大语料训练的word2vec模型，在此分享下使用268G+语料训练好的word2vec模型。训练语料：百度百科800w+条，26G+搜狐新闻400w+条，13G+小说：229G+模型参数：window=5min_count=10size=128hs=1negative=0iter=5其它参数见gensim库，执行代码为：gensim.models.Word2Ve...

2019-11-28 18:56:05 4505 2

原创 jieba + wordcloud + word2vec实例

word2vec是google的一个开源工具，能够根据输入的词的集合计算出词与词之间的距离。它将term转换成向量形式，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。需要注意的是，word2vec计算的是余弦值，距离范围为0-1之间，值越大代表两个词关联度越高。下面通过一个完整的实例来看看word2vec是如何使用的。一、jieba分词...

2019-11-28 18:47:52 1343

原创通过opencv获取图片轮廓

在做wordcloud时，有一个让人非常非常非常头疼的问题，就是想做那种带轮廓的wordcloud却找不到满意的轮廓图。本篇博客利用opencv中的前景提取函数grabCut()，来制作背景为白色的前景轮廓提取图。啥也不多说了，直接上代码和过程吧。方法一：# 利用矩形框来选中前景区，矩形外部为背景区域import numpy as npimport cv2from matplotl...

2019-11-28 16:13:31 1611

原创敲可爱的手绘风可视化库——cutecharts

作者：陈键冬，Python中文社区专栏作者，开源项目pyecharts核心开发者。pyecharts项目曾上榜 Github Trending in Open Source，目前star数量超过7100。GitHub：https://github.com/chenjiandongx项目地址：https://github.com/chenjiandongx/cutecharts初衷在闲...

2019-11-28 11:49:47 635

原创 One-Hot编码

目录一、什么是One-Hot二、One-Hot的优缺点三、什么情况下适合用One-Hot四、One-Hot在提取文本特征上的应用五、通过sklearn实现One-Hot参考一、什么是One-HotOne-Hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。将类别变量转换为机器学习算法易于利用的一...

2019-11-26 21:28:23 664

原创 Pandas常用方法及实例

最近不管是在学习可视化还是NLP的时候，对于一些csv文件的处理显得很生疏。于是根据课上学到的内容，以及查询了一些博客文章，整理出了以下一些Pandas中十分常用的方法。目录一、数据导入读取Excel文件读取csv文件二、数据信息查看df.head(n)df.tail(n)df.shapedf.info()df.describe()s.value_counts()df.valuesdf.va...

2019-11-26 10:49:40 887 1

原创超详细Seaborn绘图 ——（五）pointplot

pointplot，如其名，就是点图。点图代表散点图位置的数值变量的中心趋势估计，并使用误差线提供关于该估计的不确定性的一些指示。点图比条形图在聚焦一个或多个分类变量的不同级别之间的比较时更为有用。点图尤其善于表现交互作用：一个分类变量的层次之间的关系如何在第二个分类变量的层次之间变化。重要的一点是点图仅显示平均值（或其他估计值），但在许多情况下，显示分类变量的每个级别的值的分布可能会带有更多...

2019-11-23 21:42:38 14265 3

原创超详细Seaborn绘图 ——（四）stripplot

stripplot是seaborn中的散点图。由于散点图在概念本身上没什么好多说的，就直接进入正题。目录一、语法二、参数详解三、实例一、语法seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, jitter=True, dodge=False...

2019-11-23 19:07:16 9927

原创超详细Seaborn绘图 ——（三）violinplot

目录一、基础概念二、语法三、参数详解四、实例一、基础概念小提琴图是箱线图与核密度图的结合，箱线图展示了分位数的位置，核密度图则展示了任意位置的密度，通过小提琴图可以知道哪些位置的数据点聚集的较多，因其形似小提琴而得名。其外围的曲线宽度代表数据点分布的密度，中间的箱线图则和普通箱线图表征的意义是一样的，代表着中位数、上下分位数、极差等。二、语法seaborn.violinplot(x=N...

2019-11-15 16:16:22 32646

原创 Pyecharts ——（一）bar

Echarts 是一个由百度开源的数据可视化，凭借着良好的交互性，精巧的图表设计，得到了众多开发者的认可。而 Python 是一门富有表达力的语言，很适合用于数据处理。当数据分析遇上数据可视化时，pyecharts 诞生了。pyecharts包含的图表：Bar（柱状图/条形图）Bar3D（3D 柱状图）Boxplot（箱形图）EffectScatter（带有涟漪特效动画的散点图）...

2019-11-02 11:04:18 7161

原创超详细Seaborn绘图 ——（二）boxplot & boxenplot

箱形图（Box-plot）又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图。它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。箱形图最大的优点就是不受异常值的影响（异常值也称为离群值），可以以一种相对稳定的方式描述数据的离散分布情况。目录一、基础概念二、boxplot（一）语法（二）参数详解（三）实例一、基础概念一个boxplot主要包含六个数...

2019-11-01 13:40:31 31688 14

原创超详细Seaborn绘图 ——（一）barplot

Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。Seaborn是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充，而不是替...

2019-10-28 23:06:28 49070 6

转载从新手到高手的100个模块

在知乎和CSDN的圈子里，经常看到、听到一些 python 初学者说，学完基础语法后，不知道该学什么，学了也不知道怎么用，一脸的茫然。近日，CSDN的公众号推送了一篇博客，题目叫做《迷思：Python 学到什么程度可以面试工作？》，真实反映了 python 程序员在成长过程中的一些困惑。英汉小词典pythoneer - 指所有用python语言开发程序的人pythonista - 意...

2019-10-26 09:57:45 256

原创 Pandas ——（一）Pandas中的数据对象

Series和DataFrame是Pandas中最常用的两个对象。目录一、Series对象二、DataFrame对象一、Series对象Series是Pandas中最基本的对象。实际上每个Series都由两个数组组成：index它是从ndarray数组继承的Index索引对象，保存标签信息。若创建Series对象时不指定index，将自动创建一个表示位置下标的索引values保...

2019-10-23 21:56:42 1718

原创 SciPy —— （一）func & optimize

Scipy在NumPy的基础上增加了众多的数学计算、科学计算以及工程计算中常用的模块。接下来会对其慢慢介绍目录一、常数和函数（一）常数（二）函数二、optimize（一）非线性方程组求解（二）最小二乘拟合一、常数和函数（一）常数Scipy的constants模块包含了众多的物理常数from scipy import constants as Cprint(C.c) ...

2019-10-10 14:57:03 349

转载数据可视化常见误区

之前在一个视频中看到了有一篇对数据可视化一些误区的讲解，觉得十分有道理。当时没有及时找到原文，经过反反复复的寻找（其实也没找多久hhh）终于找到，现分享于此。一、饼图顺序不当数据的展示顺序最好将份额最大的那部分放在12点方向，顺时针放置第二大份额的部分，以此类推。二、在线状图中使用虚线虚线会让人分心，用实线搭配合适的颜色更容易区分。三、数据被遮盖确保数据不会因为设计而丢失...

2019-10-05 09:21:12 394

原创 NumPy ——（三）庞大的数据库

除了前面提到的，NumPy还提供了大量对数组进行处理的函数。接下来会对一些常用的函数进行介绍。目录一、随机数二、求和 & 平均值 & 方差一、随机数函数名功能函数名功能rand0到1之间的随机数randn标准正态分布的随机数randint指定范围内的随机数normal正态分布uniform均匀分布poisson泊松分布...

2019-10-04 13:45:48 383

原创 NumPy ——（二）ufunc函数

ufunc是universal function的缩写，它是一种能对数组的每个元素进行运算的函数。NumPy提供了许多ufunc函数，本篇博文主要介绍一些常见的ufunc目录一、四则运算比较运算和布尔运算一、四则运算表达式对应的ufunc函数y = x1 + x2add(x1, x2[,y])y = x1 - x2subtract(x1, x2[,y])...

2019-10-01 19:47:02 528

原创 Numpy ——（一）ndarray对象

ndarray英文全称：n-dimensional array object，它是存储单一数据类型的多维数组目录一、创建二、元素类型三、自动生成数组一、创建通过给array()函数传递Python的序列对象来创建数组，如果传递的是多层嵌套的序列，将创建多维数组a = np.array([1, 2, 3, 4])b = np.array((5, 6, 7, 8))c = np.arr...

2019-09-28 13:32:46 1245

原创 Tableau（一）

Tableau Desktop 是基于斯坦福大学突破性技术的软件应用程序。它帮助您生动地分析实际存在的任何结构化数据，以在几分钟内生成美观的图表、坐标图、仪表盘与报告。利用 Tableau 简便的拖放式界面，您可以自定义视图、布局、形状、颜色等等，帮助您展现自己的数据视角。目录一、下载 & 安装 & 破解二、创建图表（一）单变量图形1. 条形图2. 饼图3. 直方图4.折线图...

2019-09-27 18:03:49 552

原创 Python爬虫初接触（六）

这篇博客做一个爬虫的实例今天刚看到一个新闻，在7月26日上映的《哪吒之魔童降世》，密钥第二次延期至10月26日。截止至9月17日，《哪吒之魔童降世》票房已超49亿票房，在豆瓣上对该电影的评价有好有坏。说实话，博主看了这个电影真的觉得蛮不错的，因此把短评中的差评爬取下来，看下差评包括哪些方面首先需要了解下差评文字内容在哪些标签下：进入豆瓣该电影短评界面，检查元素：可以看出，每一...

2019-09-17 23:34:32 298 1

空空如也

空空如也