- 博客(62)
- 收藏
- 关注
原创 mmcv官网往期版本以及配套cuda和pytorch版本
mmcv官网往期版本以及配套cuda和pytorch版本为 MMCV-FULL 构建的其他 PYTORCH 版本我们不再提供mmcv-full在较低版本下编译的包PyTorch,但为了您的方便,您可以在下面找到它们。OTHER VERSIONS OF PYTORCH BUILT FOR MMCV-FULLWe no longer provide mmcv-full packages compiled under lower versions of PyTorch, but for your conven
2022-06-23 10:41:49 3455 3
原创 特征工程策略
文章目录常见做法特征交叉。类别特征常见做法单一变量的基础转换:x, x^2,sqrt x ,log x, 缩放如果变量的分布是长尾的,应用Box-Cox转换(用log转换虽然快但不一定是一个好的选择)你也可以检查残差(Residuals)或是log-odds(针对线性模型),分析是否是强非线性。对于基数比较大的数据,对于分类变量,创造一个表示每种类别发生频率的特征是很有用的。当然,也可以用占总量的比率或是百分比来表示这些类别。对变量的每一个可能取值,估计目标变量的平均数,用结
2021-02-26 09:35:29 177
原创 数据挖掘总结+探索性分析总结
文章目录1. 数据探索2. 数据探索模板3.数据挖掘4.数据建模1. 数据探索核心:1、质量分析2、特征分析(分布、对比、周期性、相关性、常见统计量)数据清洗:1、缺失值处理(通过describe与len直接发现,通过0数据发现)2、异常值处理(通过散点图发现)一般遇到缺失值,处理方式为(删除、插补、不处理)插补的主要方式有:均值插补、中位数、众数、固定值、最近数据、回归插补、拉格朗日插补、牛顿插补、分段插补等异常值一般视为缺失值、删除、修补、不处理等数据集成:把不同来源的数据放在一
2021-02-23 16:12:52 572
原创 读json文件注意事项
各种报错:data1 = json.load(f)json.decoder.JSONDecodeError: Extra data: line 2 column 1 (char 858)data1 = json.loads(f)File “C:\Anaconda3\envs\KG_py3.6\lib\json_init_.py”, line 348, in loads‘not {!r}...
2020-05-06 11:20:28 472
原创 BERT运行错误汇总
BERT运行错误汇总:1.默认使用的是第0个GPU,使用时需要重新设置下,以防第0个GPU被人占用,导致无法启动GPU2.
2020-04-14 19:00:46 1604
原创 BERT的tensorflow运行报错:resource exhaustederror(see about for traceback) OOM when
三个原因导致的:(1)batchsize太大,这种只需要将batchsize减小就行了(2)GPU的显存太小,或者剩余的显存太少了(3)有其他程序在运行,有的程序用nvidia-smi可以查看的到,有的查看不到,这篇文章就是查看不到的:https://blog.csdn.net/skj1995/article/details/82828753参考:https://blog.csdn.n...
2020-04-13 15:08:14 287
原创 GRU
参考:重点:https://blog.csdn.net/jerr__y/article/details/58598296https://zhuanlan.zhihu.com/p/28054589https://blog.csdn.net/study_deep/article/details/96155867https://blog.csdn.net/ding_xiaofei/articl...
2019-12-23 18:37:42 204
原创 BERT详解
参考:https://blog.csdn.net/hemengge/article/details/89481732https://blog.csdn.net/cpluss/article/details/88418176https://blog.csdn.net/cpluss/article/details/88418353https://blog.csdn.net/kyle131460...
2019-12-23 16:07:43 161
原创 LeetCode—Python练习高级编程
1.两数之和:class Solution(object): def sum_two(self,list_,targets): """ :type nums: List[int] :type target: int :rtype: List[int] """ d={} f...
2019-11-06 11:59:15 364
原创 word2vec/LDA
用gensim做LDA实践之文本分类https://blog.csdn.net/tianbwin2995/article/details/51768574使用中文维基百科语料库训练一个word2vec模型https://blog.csdn.net/sinat_29957455/article/details/81432846对电影评论进行情感分析之文本数据的准备(一)https://bl...
2019-11-05 11:56:21 423
原创 Python进度条tqdm详细介绍
https://blog.csdn.net/sinat_29957455/article/details/97558787
2019-11-05 11:12:03 343
原创 机器学习算法--KNN最近邻算法
机器学习算法:第二章 knn算法2.1knn.pyfrom numpy import *import operator## def classify0(inX, dataSet, labels, k):# dataSet_Size = dataSet.shape[0]# diffMat = tile(inX, (dataSet_Size,1)) - dataS...
2019-09-11 13:35:27 190
原创 词向量
DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)https://blog.csdn.net/scotfield_msn/article/details/69075227
2019-09-04 13:55:41 110
原创 Pycharm中快捷键
1,撤销与反撤销:Ctrl + z,Ctrl + Shift + z2,缩进、不缩进:Tab、Shift + tab3,运行:Shift + F104,批量注释,取消注释:Ctrl + /5,快速查看文档:Ctrl + q6,当光标在代码中间,如何回车到下一行:Shift + 回车7,当鼠标在代码下一行非开头位置,如何跳转到上一行末尾:Ctrl + backspace(退格键)8,当...
2019-08-08 16:12:17 335
原创 python SyntaxError: 'break' outside loop
break、continue 只能在for while中使用,如果非要在if判断下退出程序可以使用: import sys,os if text is not None: return st else: # sys.exit(0) os._exit(0)sys.exit(0) os._exit(0)都可以但:os._e...
2019-08-06 11:29:15 4403
原创 数据分析08章-dataframe第3-4节
03dataFrame的索引pandas取行或者列的注意点:方括号里写数组,表示取行,对行进行操作方括号里写字符串,表示取列的索引,对列进行操作pandas取行:df[:2]pandas取列:df[“age”]pandas排序:df.sort_values(by=‘tel’)对于一些同时取多行多列的操作,采用*loc和ilocdf.loc与df.iloc的区别:loc通过标签获取行...
2019-06-09 15:41:23 204
原创 数据分析08章-dataframe第1-2节
01pandas的dataFrame的创建02Dataframe的描述信息03dataFrame的索引04bool索引和缺失数据的处理import pandas as pdimport numpy as npt1 = pd.DataFrame(np.array(range(12)).reshape(3,4))t1t1 = pd.DataFrame(np.arange(12...
2019-06-06 09:59:33 148
原创 数据分析07章-series和读取外部数据---第1-2节
第1节、pandas的series的了解import pandas as pdt = pd.Series([21,1,3,4,5,6,7])print(t)0 211 12 33 44 55 66 7dtype: int64print(type(t))<class ‘pandas.core.series....
2019-06-05 15:11:08 245
原创 信用智能评分2--对数据做特征工程并实现
消费者人群画像——信用智能评分(Group Image of Consumers-----Intelligent Scoring of Credits)大赛地址:https://www.datafountain.cn/competitions/337/datasets大赛介绍2019数字中国创新大赛(Digital China Innovation Contest, DCIC 2019)由...
2019-06-01 15:58:44 843 2
原创 信用智能评分1--初步实现
信用智能评分程序:#coding:utf-8import pandas as pdimport matplotlib.pyplot as pltimport numpy as np#导入数据data = pd.read_csv("train_dataset.csv",header = 0,error_bad_lines=False,encoding="gbk")# data = ...
2019-05-28 10:50:56 452
原创 数据挖掘流程总结及案例2
Kaggle泰坦尼克特征工程和模型融合:https://blog.csdn.net/a5139515/article/details/79714111
2019-05-26 20:31:45 503
原创 数据挖掘流程总结及案例分析
数据采用:Kaggle上有这样一个比赛:城市自行车共享系统使用状况。https://www.kaggle.com/c/bike-sharing-demand可以下载#coding=utf-8import pandas as pddata = pd.read_csv("train.csv", header = 0,error_bad_lines=False)print(data.head(...
2019-05-25 21:11:13 3009
原创 决策树-sklearn实现--基于IRIS(鸢尾花)数据集和泰坦尼克号数据集
一.本文首先采用基于IRIS(鸢尾花)数据集实现决策树:#coding:utf-8from sklearn import datasetsimport matplotlib.pyplot as pltimport numpy as npfrom sklearn import treefrom sklearn.cross_validation import train_test_spli...
2019-05-24 15:27:52 4111
原创 将Pandas中的DataFrame转换成Numpy中数组
将Pandas中的DataFrame转换成Numpy中数组三种方法:T.valuesT.as_matrix()np.array(T)三种方法都可以:np.array(T)print(y_test.head())print('y_test:',type(y_test))d = np.array(y_test)print('y_test:',d[0:3,:])T.valuesp...
2019-05-23 20:34:23 52473 5
原创 多维线性回归sklearn实现-用UCI大学公开的机器学习数据来跑线性回归
1.获取数据对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了。获取数据,定义问题 这里我们用UCI大学公开的机器学习数据来跑线性回归。数据的介绍在这: http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant数据的下载...
2019-05-23 19:54:47 1879
原创 多维线性回归sklearn实现-练习用sklearn.datasets数据
采用sklearn.datasets 中的 load_diabetes数据实现线性回归,并比较不同算法间的效果x_train,是375X10,y_train是375X1----注意#coding:utf-8import numpy as npfrom sklearn.datasets import load_diabetesfrom sklearn.utils import shuffl...
2019-05-23 17:22:28 1104
原创 Python 100例练手小程序--python快速上手的捷径
地址:https://www.runoob.com/python/python-100-examples.htmlT1:题目:有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少?程序分析:可填在百位、十位、个位的数字都是1、2、3、4。组成所有的排列后再去 掉不满足条件的排列。import numpy as npdata = np.array(range(1,5...
2019-05-22 19:49:35 817
原创 数据分析学习-第06课(3-4节)-numpy中的nan和常用方法(有相应课件视频下载链接在文末)--特征工程缺省值补均值
第3节 numpy中的nan和常用统计方法import numpy as npa = np.nanb = np.infprint(type(a))print(type(b))<class ‘float’><class ‘float’>第4节 numpy中填充nan和youtube数据的练习链接:https://pan.baidu.com/s/1...
2019-05-21 15:02:05 268
原创 数据分析学习-第06节-numpy中的nan和常用方法(有相应课件视频下载链接在文中)
第六课–numpy中的nan和常用方法第1节 数据的拼接np.vstack((t1,t2))—>竖直拼接np.hstack((t1,t2))----->水平拼接t[ [1,2],:]=t[ [2,1],:]----->行交换t[:,[0,2] ] = t[:,[2,0] ]----->列交换第2节 numpy中的随机方法1.拼接的实践由于我没下到数据,...
2019-05-21 12:07:14 132
原创 特征工程
特征工程的基础知识:https://www.zhihu.com/question/28641663/answer/41653367这篇文章讲的很好,可以借鉴,讲了上述的大部分方法还有程序。
2019-05-20 15:43:06 120
原创 数据分析学习-第06课(第1-2节)-numpy中的nan和常用方法(有相应课件视频下载链接在文末)
第六课–numpy中的nan和常用方法01数据的拼接02numpy中的随机方法03numpy中的nan和常用统计方法04numpy中填充nan和youtube数据的练习链接:https://pan.baidu.com/s/1d-_QhcV8ZyTnayDigBpT7A提取码:0vbq复制这段内容后打开百度网盘手机App,操作更方便哦...
2019-05-20 11:23:40 215
原创 朴素贝叶斯sklearn实现
朴素贝叶斯是一类比较简单的算法,scikit-learn中朴素贝叶斯类库的使用也比较简单。相对于决策树,KNN之类的算法,朴素贝叶斯需要关注的参数是比较少的,这样也比较容易掌握。在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB,MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯,Multinomia...
2019-05-19 19:51:01 1088
原创 数据分析学习-第五课 numpy读取本地数据和索引(第2-3节)(有相应课件视频下载链接在文末)
第五课第2节 numpy中的索引和切片这一节是重点内容,用的特别多第3节 numpy中更多的索引方式链接:https://pan.baidu.com/s/1EvfAJ9UttzlfgdlrbJlfQQ提取码:qf3c...
2019-05-19 15:25:43 151
transformers-4.28.0.dev0-py3-none-any.whl
2023-07-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人