开开_王子-CSDN博客

原创 docker常用命令

1、docker 的启动与停止systemctl命令是系统服务管理器指令启动docker: systemctl start docker停止docker: systemctl stop docker重启docker: systemctl restart docker查看docker 状态 : systemctl status docker开机启动：systemctl enable docker查看docker概要信息：docker info查看docker 帮助文档：docker --hel

2020-05-09 23:32:42 420

原创 R语言简单绘图（二）

1、条形图—barplot()barplot(c(1,2,4,2,6,4,3,5))barplot(c(1,2,4,2,6,4,3,5), horiz = TRUE)counts = table(Arthritis$Improved)barplot(counts, horiz = TRUE)counts = table(Arthritis$Improved, Arthritis$Tr...

2020-05-05 21:11:43 706

原创字符串/数值处理常用函数

1、字符串处理nchar("abcde") # 字符串长度substr("abcdef", 3, 5) #按索引取出子串grep("a", c("a", "b", "a", "c")) # 得到"a"所在索引sub("a", "A", "abcde") # 将字符串中“a”替换成"A"strsplit("abcde", "c") # 按“c”将字符串分割paste("Today is"...

2020-05-05 17:29:37 382

原创 R语言简单绘图（一）

dose <- c(20,30,40,45,60)dragA <- c(16,20,27,40,60)dragB <- c(15,18,25,31,40)plot(dose,dragA,type="b")plot(dose,dragB,type="b") opar <- par(no.readonly = TRUE)par(lty=2, pch=17)p...

2020-04-28 22:49:55 602

原创 R语言数据源导入

R语言导入数据，有键盘手动输入，读取文件方式，数据库导入方式。1、键盘输入mydata <- data.frame(age=numeric(0),weight=numeric(0), gender=character(0))fix(mydata)2、读取文件# 读取txt文件，文件编码格式为ANSI格式data <- read.table(路径， header=TRUE,...

2020-04-23 08:40:21 495

原创 python opencv获取视频基本信息

video_path = "./test0.mp4"video_capture = cv2.VideoCapture(video_path)video_FourCC = int(video_capture.get(cv2.CAP_PROP_FOURCC)) # 视频编码video_width = int(video_capture.get(3))video_height = int(vi...

2020-04-02 11:58:24 1876

原创 sklearn中模型构建、参数调优、模型验证等的使用

1、参数选择from sklearn.linear_model import LinearRegression, LogisticRegression # 线性模型from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier # 集成学习模型from sklearn.model_selection import...

2020-03-30 17:47:07 1876

原创基于yolov3的口罩检测

1、数据集准备假设已经有了标注好的一分部数据，（1）运行voc2yolo3.py生成txt文件，保存在ImageSets/Main目录下（2）修改voc_annotation.py中的classesclasses = ["mask", "unmask"]运行后，生成三个txt文件，每一行对应的是一张图片的位置，标注的真实框位置以及label:2、修改先验框中的值根据训练集中标注框...

2020-03-08 22:52:58 8397 10

原创利用bert进行文本分类

1、任务及数据集描述实现利用bert预训练模型进行中文新闻分类，使用的数据集情况：其中，train.txt, dev.txt, test.txt内容格式为每一行为“内容 Tab 标签”：class.txt内容为10类的新闻标签，如上面的0就代表finance这一类。2、bert模型准备（1）下载bert中文预训练模型chinese_L-12_H-768_A-12，解压后里面包含5个...

2020-01-13 17:51:11 6673 7

原创利用sklearn 计算 precision、recall、F1 score

精确度：precision，正确预测为正的，占全部预测为正的比例，TP / (TP+FP)召回率：recall，正确预测为正的，占全部实际为正的比例，TP / (TP+FN)F1-score：精确率和召回率的调和平均数，2 * precision*recall / (precision+recall)from sklearn.metrics import confusion_matrixf...

2019-11-25 14:54:52 11101

原创利用yolov3 进行目标检测（可自定义检测的类别）

1、修改yolo.cfg文件将其中的classes修改为1，所有的filters=255的值修改为filters=18（计算方式为(classes+5)*3），filters仅仅是Yolo层前的filters修改为182、将coco_class.txt和voc_class.txt文件中的类别全部修改成‘car’（该目录下新建object_classes.txt文件，写入car）3、运行vo...

2019-07-09 23:28:33 10931 5

原创 Windows 10系统在Anaconda下安装GPU版Pytorch

在此之前默认Anaconda，CUDA, cuDNN 已安装好了。CUDA, cuDNN 下载对应版本安装。我的环境为：win10+Anaconda+python3.6+cuda10.01、打开anaconda prompt命令行输入：conda create --name pytorch_gpu python=3.6python_gpu为anaconda下虚拟环境名称，可自定义，pyt...

2019-06-26 23:22:46 28887 22

原创 csv文件导入到neo4j数据库

1、停止neo4j服务：neo4j stop2、导入csv数据使用的数据如http://neo4j.com/docs/stable/re03.html，包含节点文件movies、actors和关系文件roles，创建三个excel文件，分别命名为movies.xlsx、actors.xlsx、roles.xlsx，然后另存为.csv文件，注意：要修改文件的编码格式为utf-8，要不然会乱码。为...

2019-01-02 22:46:31 11843 6

原创利用vgg预训练模型提取图像特征

VGG卷积神经网络是牛津大学在2014年提出来的模型。当这个模型被提出时，由于它的简洁性和实用性，马上成为了当时最流行的卷积神经网络模型。它在图像分类和目标检测任务中都表现出非常好的结果。在2014年的ILSVRC比赛中，VGG 在Top-5中取得了92.3%的正确率。有VGG16和VGG19，模型的权重由ImageNet训练而来1、VGG结构下面以VGG16为例来说明：看出VGG16由...

2018-10-28 14:30:02 41845 55

原创往github上push源码出错：! [rejected]... error: failed to push some ref to 'https://...'

在往github上push代码时，步骤：(1) git init(2) git add .(3) git commit -m “first commit” （“git commit -m “提交信息””）(4) git remote add origin https://github.com/2281123066/doc2vec.git(5) git push -u origin ma...

2018-10-28 13:14:33 352

原创利用英文wiki数据训练Doc2vec模型

1、语料库准备从此处下载英文维基百科数据，是xml压缩包的形式，下载文件，以enwiki-latest-pages-articles1.xml-p10p30302.bz2为例：由于是压缩包，所以需要进行预处理，变成文本的形式。在cmd下切换到这个压缩包文件存放的目录下，运行命令：python process_wiki.py enwiki-latest-pages-articles1.xml-...

2018-10-28 00:35:19 4305 13

原创 python2.x代码转化为python3.x

python官方提供了python2自动转化为python3的方法，利用2to3.py文件，位置为python安装目录下的Tools\scripts文件夹下，我安装的是anaconda ,所以我的目录是Anaconda3\Tools\scripts，具体操作如下：（1）在Windows 的cmd下cd 到 2to3.py 脚本所在位置，cd D:\setup\Anaconda3\Tools\...

2018-10-26 23:50:07 1666

原创日常代码报错：python KeyError：b'Variable'

import scipy.io as siodata = scipy.io.loadmat('D:/myproject/flickr8k/flickr8k/vgg_feats.mat')print(data)

2018-10-26 23:37:26 6098

原创使用tensorflow构建电影推荐系统

1、搜集数据集 https://grouplens.org/datasets/movielens/ 2、准备数据import pandas as pdimport numpy as npimport tensorflow as tfratings_df = pd.read_csv('ml-latest-small/ratings.csv')ratings_df.tail() #...

2018-08-08 15:36:30 4385

原创推荐系统的性能评估

1、线下评估均方分误差 ( RMSE, Root Mean Square Error ) RMSE越小，表示误差越小，推荐系统的性能越好。平均绝对误差（MAE，Mean Absolute Error） recall recall = 0.6 F1 score F的值越大，说明推荐系统的性能越好。2、线上评估（A/B test）CTR ...

2018-08-08 14:40:32 2151

原创推荐系统的基本原理

基于内容的推荐系统根据每部电影的内容以及用户已经评过分的电影来判断每个用户对每部电影的喜好程度，从而预测每个用户对没有看过的电影的评分。电影内容矩阵X * 用户喜好矩阵θ = 电影评分表那么，用户喜好矩阵θ（用户对于每种不同类型电影的喜好程度）如何求解呢？用户喜好矩阵θ的代价函数：其中，正则化项为防止过拟合。优点：（1）不存在商品冷启动问题（2）可...

2018-08-08 10:09:24 2959 1

原创 Python数据操作—词干与词形化

1、词干化在自然语言处理领域，我们i经常会遇到两个或两个以上单词具有共同根源的情况。例如，agreed, agreeing 和 agreeable这三个词具有相同的词根。涉及任何这些词的搜索应该把它们当作是根词的同一个词。因此将所有单词链接到它们的词根变得非常重要。在NLTK库中有一些方法来完成这个链接，并给出显示根词的输出。以下程序使用Porter Stemming算法进行词干分析...

2018-08-06 22:44:10 3638

原创 Python数据操作—单词标记化

单词标记是将大量文本样本分解为单词的过程。这是自然语言处理任务中的一项要求，每个单词需要被捕获并进行进一步的分析，如对特定情感进行分类和计数等。自然语言工具包(NLTK)是用于实现这一目的的库。在继续使用python程序进行字词标记之前，先安装NLTK。命令：conda install -c anaconda nltk 下面，使用word_tokenize方法将段落拆分为单个单词。...

2018-07-30 22:51:29 833

原创 Python数据操作—处理非结构数据

已经以行和列格式存在的数据或者可以很容易地转换为行和列的数据，以便之后它可以很好地适合数据库，这被称为结构化数据。例如CSV，TXT，XLS文件等。这些文件有一个分隔符，固定宽度或可变宽度，其中缺失值在分隔符之间表示为空白。但有时候我们会得到一些行不是固定宽度的数据，或者它们只是HTML，图像或pdf文件。这些数据被称为非结构化数据。尽管可以通过处理HTML标签来处理HTML文件，但是来自...

2018-07-30 22:21:03 2177

原创 Python数据操作—处理Excel数据

Microsoft Excel是一个使用非常广泛的电子表格程序。它的用户友好性和吸引人的功能使其成为数据科学中常用的工具。 Pandas库提供了一些功能，我们可以使用该功能完整地读取Excel文件，也可以只读取选定的一组数据。还可以读取其中包含多个工作表的Excel文件。这里主要使用read_excel函数从中读取数据。输入Excel文件我们创建一个包含多个工作表的excel文件inp...

2018-07-29 23:43:19 9742

原创 Python数据操作—处理Json数据

JSON文件以可读的格式将数据存储为文本。 JSON代表JavaScript Object Notation。使用read_json函数，Pandas可以读取JSON文件。输入数据通过将以下数据复制到文本编辑器(如记事本)来创建JSON文件。选择文件类型作为所有文件(.)，使用.json扩展名保存文件，假设保存的文件名称为:input.json。{ "ID":["1","...

2018-07-29 22:30:34 3615

原创 Python数据操作—处理CSV数据

从CSV读取数据(逗号分隔值)是数据科学的基本需求。通常，我们从各种来源获取数据，这些数据可以导出为CSV格式，以便其他系统可以使用这些数据。 Pandas库提供了一些功能函数，我们可以使用该功能完整地读取CSV文件，也可以只读取选定的一组列和行。CSV文件作为输入 csv文件是一个文本文件，其中，列中的值由逗号分隔。假设有一个名称为 input.csv 的文件中的具有以下数据。i...

2018-07-29 21:30:21 14690

原创 Python数据操作—数据清理

数据丢失在现实生活中是一个问题。机器学习和数据挖掘等领域由于数据缺失导致数据质量差，因此在模型预测的准确性方面面临严峻的问题。在这些领域，缺失值处理是使模型更加准确和有效的关键。什么情况下，以及什么时候数据会丢失？让我们考虑一个产品的在线调查。很多时候，人们不会分享与他们有关的所有信息。很少有人分享他们的经验，但他们没有多久使用该产品; 很少有人分享他们使用产品的时间，他们的经验，...

2018-07-29 19:58:47 2199

原创 docker学习系列—windows下安装docker

一、windows安装docker的基本要求 (1) 64为操作系统，win7或者更高 (2) 支持“ Hardware Virtualization Technology”，并且，“virtualization ”可用二、安装步骤 1、进入Docker Toolbox的下载网页，选择windows版本下载。 2、下载完成后，双击安装文件，一路Next，接受所有默认安装。...

2018-07-28 23:22:25 712

原创大数据学习框架及指南

Hadoop生态圈一，采集，数据从哪里来？主要包括flume等；一，存储，海量的数据怎样有效的存储？主要包括hdfs、Kafka；二，计算，海量的数据怎样快速计算？主要包括MapReduce、Spark、storm等；三，查询，海量数据怎样快速查询？主要为Nosql和Olap，Nosql主要包括Hbase、 Cassandra 等，其中olap包括kylin、impla等，...

2018-07-28 14:40:40 5215 2

原创特征缩减技术(shrinkage): lasso和岭回归

1、概述通过对损失函数(即优化目标)加入惩罚项，使得训练求解参数过程中会考虑到系数的大小，通过设置缩减系数(惩罚系数)，会使得影响较小的特征的系数衰减到0，只保留重要的特征。常用的缩减系数方法有lasso(L1正则化)，岭回归(L2正则化)。关于L1,L2正则化讲解：http://blog.csdn.net/wsj998689aa/article/details/395477712、正则化的目的

2017-12-08 21:44:56 10440 1

原创梯度下降算法与随机梯度下降

1、相关符号M 训练样本的数量 x 输入变量，又称特征 y 输出变量，又称目标 (x, y) 训练样本，对应监督学习的输入和输出表示第i组的x 表示第i组的y h(x)表示对应算法的函数 θ是算法中的重要参数（向量）表示参数为的函数，以下考虑线性回归，所以表述为：2、梯度下降算法用表示函数计算输出的结果，用y表示期望的输出值则-y表示误差，若我们有m组训练样本，在训练过程中，

2017-11-26 13:10:48 440

原创 Oracle之复杂查询

实例1：列出薪资高于在部门30工作的所有员工的薪资的员工姓名和薪资，部门名称，部门人数。 -emp 表：姓名，薪资，部门人数； -dept 表：部门名称；第一步：找出30部门的所有雇员的工资，返回多行单列； select sal from emp where deptno=30；第二步：返回多行单列，只能在where子句里面使用子查询（in，any, all），应该使用>all ，找到员

2017-10-29 19:00:31 605

原创 Oracle分组统计查询-分组查询

【⑤确定要使用的数据列】SELECT [DISTINCT] 字段 [别名] 【①确定要查询的数据来源】FROM 【②针对数据进行的筛选】WHERE 过滤条件【③针对数据实现分组】GROUP BY 分组字段，分组字段，… 【④针对分组后的数据进行筛选】HAVING 分组后的过滤条件【⑥针对返回结果进行排序】ORDER BY 字段 [ASC | DESC]示例1：要求按照职位分组，统计出每

2017-10-29 15:37:12 6047

原创 Oracle分组统计查询-统计函数

统计函数：统计个数count(*|[distinct]字段)； max(字段), min(字段)； sum(数字字段), avg(数字字段)；示例1：查询所有雇员的最高工资和最低工资。 select max(sal),min(sal) from emp; max(),min() 的操作除了可以使用数字之外，也可以使用日期。如：查询最晚雇佣和最早雇佣的雇员信息。 select max

2017-10-29 14:46:30 1462

原创 Oracle多表查询-数据集合操作

1、UION操作 select empno, ename, job, deptno from emp where deptno=10 union select empno, ename, job, deptno from emp; 将两个查询结果合并在了一起，相同的结果不重复显示。2、UION ALL操作 select empno, ename, job, deptno from emp

2017-10-29 14:18:28 1689

原创 Oracle多表查询-基本概念

select * from emp,dept where emp.deptno=dept.deptno; 以上代码只是消除了显示的笛卡尔积，而在数据库的多表查询中，笛卡尔积就一直存在，

2017-10-22 22:58:45 227

原创 Spark实现WordCount单词计数

spark连接到master：bin/spark-shell –master spark://master:7077连接成功。scala>sc.textFile(“hdfs://master:9000/root/data/input/data.txt”).flatMap(.split(” “)).map((,1)).reduceByKey(+).collect刷新 http://192.168.22

2017-10-22 16:02:02 1941

原创机器学习算法-k-means聚类算法

一、k-means原理 k-means也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集(x,y,z)。聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。比如上面的星星，聚

2017-10-21 21:05:53 304

原创机器学习算法-SVM

1、SVM原理 http://blog.csdn.net/alvine008/article/details/90971052、python实现#coding:gbk#coding:utf-8'''Created on 2016年6月5日@author: Administrator'''import numpy as npimport pylab as plfrom sklearn

2017-10-21 14:07:41 245

空空如也

空空如也