WxyangID-CSDN博客

原创 xshell以及xftp免费版

https://www.netsarang.com/zh/free-for-home-school/

2019-12-20 18:46:16 397

原创 jupyter notebook中的code字体修改

参考链接：https://blog.csdn.net/qq_29386129/article/details/79312516我也是这么修改的找到文件夹：C:\Users\SunnyYang\Anaconda3\Lib\site-packages\notebook\static\custom然后用写字板打开 cumstom.css之后，将下面的内容复制下，粘贴到最后保存，然后重新刷新...

2019-11-22 16:18:54 1157

原创 opencv3.4.0+python3.6.5+win10

python上的包，尤其要注意版本。之前安装的下载的是这个版本，opencv_python-4.1.2-cp36-cp36m-win_amd64.whl，结果与numpy最新的1.14版本不兼容，然后又重新下载了3.4.0版本的。下载地址（百度云盘免费的）：https://pan.baidu.com/s/1bqP8c0Z错误：重新安装了3.4.0的opencv之后就可以了。...

2019-11-21 18:36:52 545

转载 pytorch torch.backends.cudnn设置作用

主要是为了优化运行效率的cuDNN使用非确定性算法，并且可以使用torch.backends.cudnn.enabled = False来进行禁用如果设置为torch.backends.cudnn.enabled =True，说明设置为使用使用非确定性算法然后再设置：torch.backends.cudnn.benchmark = true那么cuDNN使用的非确定性算法就会自动寻...

2019-11-09 16:41:24 5870 1

原创 pip install opencv问题ImportError: OpenCV loader: missing configuration file: ['config-3.6.py', 'conf

Traceback (most recent call last): File "train.py", line 1, in <module> from data import * File "/home/hadoop-aipnlp/cephfs/data/wangxiaoyang03/ssd.pytorch/data/__init__.py", line 1, in...

2019-09-18 14:19:43 6025 1

原创数据结构排序算法Java实现

数据结构算法总结--排序package com.company.sort;import java.util.Arrays;import java.util.Stack;public class MaoPao { public static void main(String[] args) { int[] data = { 15, 13, 1, 5, 20, 1...

2019-08-12 19:45:47 160

原创 import cv2出现“ImportError: DLL load failed: 找不到指定的模块”

2 1。将cv2.cp36-win_amd64.pyd 文件复制一份(防止一会儿改完不行，又不知道原来是什么了) 更改内容如下“import importlibfrom cv2 import * #前面去掉点之后变成这样from .data import *# wildcard import above does not import "private" variabl...

2018-11-24 12:02:30 2914 1

原创 ValueError: setting an array element with a sequence.

pandas中dataframe拼接了一列是list类型，然后传进去lightgbm模型中进行训练，报错： ValueError: setting an array element with a sequence.最终把list类型的列，转成dataframe然后concat到原有的df中就可以了。确保list的shape没问题，他能够有正常的shape表示，也就是是一个矩阵而不是一个...

2018-10-28 18:14:24 2931

原创快排java

package leetcode;public class quikSort { public static int[] quickSort(int[] list1,int left,int right){ if(left>right){ return null; } int i = left; ...

2018-10-27 19:45:25 278

原创 java二叉树构建-遍历

package leetcode;import sun.reflect.generics.tree.Tree;import java.util.List;import java.util.Stack;class TreeNode { int val; TreeNode left; TreeNode right; public TreeNode(int...

2018-10-27 15:22:41 278

原创两数之和01

给定两个非空链表来表示两个非负整数。位数按照逆序方式存储，它们的每个节点只存储单个数字。将两数相加返回一个新的链表。你可以假设除了数字 0 之外，这两个数字都不会以零开头。示例：输入：(2 -> 4 -> 3) + (5 -> 6 -> 4)输出：7 -> 0 -> 8原因：342 + 465 = 807/** * Definitio...

2018-10-26 20:12:32 254

原创 python-Levenshtein的安装 window7

Levenshtein：用来计算两个字符之间的编辑距离。个字符串转化成另一个字符串最少的操作次数，在其中的操作包括插入、删除、替换。>>>distance('abc','ac')>1 由abc删除b得到ac操作一次>distance('kitten','sitting')>3 ...

2018-10-21 22:25:50 1045

一旦分布式数据集（distData）被创建好，它们将可以被并行操作。例如，我们可以调用distData.reduce(lambda a, b: a + b)来将数组的元素相加。我们会在后续的分布式数据集运算中进一步描述。并行集合的一个重要参数是slices，表示数据集切分的份数。Spark将会在集群上为每一份数据起一个任务。典型地，你可以在集群的每个CPU上分布2-4个slices. 一般来说，...

2018-07-31 19:21:26 7171

转载 sql 优化方式

在sql查询中为了提高查询效率，我们常常会采取一些措施对查询语句进行sql优化，下面总结的一些方法，有需要的可以参考参考。1.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where...

2018-07-22 00:02:17 916 1

原创删除IntelliJ Idea中自己添加的Maven Archetype

windows下面的：C:\Users\wang\.IntelliJIdea2018.1\system\Maven\Indices\UserArchetypes.xml Linux和mac的可以参见：https://blog.csdn.net/yirentianran/article/details/52232523

2018-06-14 20:07:05 2286

原创 idea中操作meaven

file--->setting--> Appearance&Behavior --->Appearance--> show tool window bars 就可以显示右面的meaven project窗口了。使用右面的 clean ---> compile--->package对整个项目进行打包。...

2018-06-13 17:21:08 2284

原创 python脚本实现定时发送邮件

# -*-encoding: utf-8 -*-"""@version: 3.6@time: 2018/6/9 10:16@author: SunnyYang"""import os,sysimport datetimeimport smtplibimport tracebackfrom email.header import Headerfrom email.utils ...

2018-06-09 15:55:25 3888

转载 shell中if命令中的参数-f -d 等

shell中条件判断if中的-z到-d的意思 [ -a FILE ] 如果 FILE 存在则为真。 [ -b FILE ] 如果 FILE 存在且是一个块特殊文件则为真。[ -c FILE ] 如果 FILE 存在且是一个字特殊文件则为真。 [ -d FILE ] 如果 FILE 存在且是一个目录则为真。 [ -e FILE ] 如果 FILE 存在则为真。[ -f FILE ] 如果 FILE ...

2018-06-08 11:53:11 3684

原创 idea中配置tomcat

idea中创建javaweb项目的时候需要配置tomcat 具体操作参见：https://www.cnblogs.com/Miracle-Maker/articles/6476687.html其中在配置的时候发现一个叫artifact的，为了弄明白这个是干什么的，参照：https://blog.csdn.net/qq_27093465/article/details/76091287...

2018-06-01 16:03:55 452 1

原创 git使用

今天使用idea 然后为了克隆github上的代码到本地，所以又安装了git工具，以下是我作为一个小白安装的步骤供大家参考；1.下载git工具 https://gitforwindows.org/ ，我一路都是按照默认选项进行安装的，最后安装成功即可。2. 在idea工具中添加git插件。具体操作步骤可以参考这篇博文。https://blog.csdn.net/milsevol/article/...

2018-06-01 12:09:28 168

原创 GridSearchCV参数

GridSearchCV()是sklearn中的一个函数，专门调试参数的函数grid_search.各个参数的含义：class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, ver...

2018-05-21 20:23:39 24024 2

原创 sklearn.pipeline包

一：pipeline流水线的功能： 1.跟踪记录各步骤的操作（以方便地重现实验结果） 2.对各步骤进行一个封装，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。 3.可以把grid search 用在pipeline中所有的estimators参数的参数组合上面二：pipeline使用的一个实例from sklearn import svmfrom sk...

2018-05-19 12:10:34 1179

原创机器学习---SGDClassifier梯度下降分类方法

1..SGD主要应用在大规模稀疏数据问题上，经常用在文本分类及自然语言处理。假如数据是稀疏的，该模块的分类器可轻松解决如下问题：超过10^5的训练样本、超过10^5的features。2.损失函数loss=”hinge”: (soft-margin) 线性SVM.loss=”modified_huber”: 带平滑的hinge loss.loss=”log”: logistic 回归3.通过pen...

2018-05-18 18:00:17 14489

原创 sklearn 中的类别特征转数值类型

-------------------------类别数据转换成数值特征-------------------------------------------------------------------------------import numpy as npimport pandas as pddf = pd.DataFrame([['green', 'M', 10.1, 'cla...

2018-05-18 14:40:04 5424

原创 dataframe创建

dataframe的创建方式:第一种：直接传入一个等长列表，或Numpy数组组成的字典。参数columns = [],index=[]data = {'name':['zhang','wang','li'],'age':[1,2,3],'sex':['m','f','m']}第二种：通过类似标记的方式或属性的方式，获取dataFrame的列为一个series。返回的series与原来的data...

2018-05-18 11:18:59 661

原创 Python中关于时间的处理

一：Python中有日期（date）和时间(time)数据类型，常用模块：datetime,time,calendar等1.time模块：import timeprint(time.time()) # 1526604527.9218225 生成当前的时间戳1970年之前不可以print(time.localtime(time.time())) #time.struct_time(tm_year...

2018-05-18 10:05:26 344

原创 Python图表绘制|seaborn

matplotlib虽然画图挺好的，但是seaborn 更方便一些。参考该篇文章：https://blog.csdn.net/qq_34264472/article/details/53814653

2018-05-17 20:25:16 620

原创 Python中各个数据类型常见方法总结---实时性更新

总结：1.Python中的主要数据类型：Numbers（数字）String（字符串）List（列表）Tuple（元组）Dictionary（字典）2.numpy中常见函数numpy.linspace()函数：numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)在指定的间隔内返回均匀间隔的数字。返回...

2018-05-17 19:15:22 374

转载 [Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated c

在navicat for mysql中的查询编辑器中执行sql语句总是提示下面的错误，虽然也可以正确的执行，但是看着总有些不对劲，所以就在csdn上查找了解决方案：已验证此解法可以有效。解决方法：主要是因为sql_mode设置导致的这个错误。在新建查询中执行如下命令：-- 查看sql_mode设置 show variables like "sql_mode"; -- 设置sql_mode ...

2018-05-11 19:11:43 3227 1

原创总结——pandas/numpy处理数据中文手册速查

之前对pandas一直模棱两可。今天在这里做个总结，算是帮助理解记忆吧。list是Python中的数据类型，其中的元素数据类型可以不同。array是numpy中的数据类型，其中的元素数据类型必须相同。numpy 参考手册：http://old.sebug.net/paper/books/scipydoc/numpy_intro.htmlpandas参考：https://www.cnblogs.co...

2018-05-07 16:36:18 1402

原创 sklearn_onehot编码与pandas中的onehot编码处理方式

一、One-Hot Encoding One-Hot编码，又称为一位有效编码，主要是采用位状态寄存器来对个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。离散特征的编码分为两种情况：1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的...

2018-05-05 20:40:26 7470

原创 ensamble之stacking详介以及Python代码实现

ensamble中涉及到的模型融合有： 1.Voting 2.Averaging 3 Ranking 4 Binning 5 Bagging 6 Boosting 7 Stacking 8 Blendingstacking详解：参考：https://blog.csdn.net/wstcjf/article/details/77989963stacking的过程有一张图非常经典，如下：上半部分...

2018-05-05 14:28:58 10481 6

原创 pandas中的apply函数对dataFrame操作

apply函数可以对dataFrame中的数据进行操作原始数据data：为了区分是对行操作的还是对列操作的，所以将index设置成了字母，将column是设置成了数字reshape（4,4）重新构造成4*4的矩阵对指定列元素进行操作：对指定行元素进行操作：对所有列进行操作：对所有行进行操作：...

2018-05-04 21:57:41 5130

原创 pycharm中pandas读取的CSV列多的情况，设置不换行

pandas 读取csv文件之后总是自动就换行了，看着很不舒服解决方法：可以在.py 文件中加入如下代码：import pandas as pdpd.set_option('display.width',1000) #当consel中输出的列书超过1000的时候才会换行...

2018-05-04 16:19:14 3992

原创 xgboost/lightgbm安装 Windows7 anaconda Python3.6

先在这个网站https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 上下载xgboost 的whl文件，https://pypi.org/project/lightgbm/2.0.3/#files 这个网站上下载 lightgbm的whl文件。然后cd 到这两个文件所在的目录下，直接用pip直接安装即可。测试可用。...

2018-05-03 21:51:24 572

原创特征工程

数据采集、数据格式化、数据清洗、数据采样数据格式化：确定数据的存储格式数据清洗：去掉一些脏数据，补充缺省值。数据采样：样本的正负样本比例是不均衡的，大多数模型对样本的正负比例是敏感的（例如LR），随机采样和分层采样正负样本不均衡时的处理情况：正样本》》负样本且量都很大，如5亿个正样本 2万负样本。则采用下采样。从5亿正样本中抽取1/25的量，能达到1:1的效果正样本》》负样本量都...

2018-05-03 20:50:20 201

原创 Python3.6中urllib

Python 3.* 用urllib.request来代替原来的urllib2，因此调用的时候改为：>>> import urllib.request >>> urllib.request.urlopen('http://www.baidu.com')如 https://www.python.org/dev/peps/pep-3108/#urllib-packa...

2018-04-26 21:08:17 701

转载 SVM面试常考知识点

SVM的原理是什么？SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。（间隔最大是它有别于感知机）（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机；（2）当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机；（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性...

2018-04-23 23:20:04 439

原创 logistics regression

逻辑回归就是这样的一个过程：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别）回归模型中，y是一个定性变量，比如y=0或1，logistic方法主要应用于研究某些事件发生的概率（可以想下好坏...

2018-04-18 20:14:21 182

JRE-8U151-macosx-x64.dmg

空空如也