apple-nul-CSDN博客

转载 xgboost特征重要性

from sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sklearn.datasets import make_hastie_10_2from xgboost.sklearn import XGBClassifierfrom xgboost import plot_impo...

2019-02-16 21:56:58 1883 1

import gensiminputs = open('C:\\Users\\NAU\\Desktop\\neg_tag_del.txt', 'r', encoding='utf8')outputs = open('C:\\Users\\NAU\\Desktop\\neg_feature.txt', 'w', encoding='utf8')sentence = inputs.readlin...

2019-05-12 12:52:09 297

原创 python读取mat文件

代码如下：import scipy.io as siomatfn = '/Users/wang/Desktop/read-paper/outlier/github-outlier/pyod-master/notebooks/data/letter.mat'data = sio.loadmat(matfn)print(data.keys())#查看变量名...

2019-02-14 15:36:44 647

转载 word2vec 的相关参数

sentences：可以是一个 list sg：用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。 size：是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。 window：表示当前词与预测词在一个句子中的最大距离是多少 alpha: 是学习速率 seed：用于随机数发生器。与初始化词向量有关 ...

2019-02-13 18:09:21 728

原创 sklearn之kmeans文本聚类主题输出

from sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.cluster import KMeanscorpu...

2018-12-31 14:49:34 2096

原创 sklearn/naive_bayes/训练/分类

# -*- coding: utf-8 -*-"""Created on Mon Apr 23 10:39:20 2018@author: NAU"""# -*- coding: utf-8 -*-"""Created on Sun Apr 22 19:29:14 2018@author: NAU"""#导入包from sklearn.feature_extracti

2018-09-14 20:31:08 493

原创 tfidf/kmeans/pca/sklearn

# -*- coding: utf-8 -*-"""Created on Wed Apr 18 11:56:02 2018@author: NAU"""#导入包import randomimport sysfrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfT...

2018-09-14 20:30:32 512 1

原创阐述分类算法评价标准-以网络借贷平台为例

背景：互联网金融虽然给投资者提供了新的理财形式，但跑路经营不善等问题同样会带来风险。以小贷的问题平台和正常平台来阐述运用二分类逻辑回归算法的评价标准描述。常见的评价指标：混淆矩阵、Accuray、Precision、Recall、Roc、Sensitive、Error Rate1.混淆矩阵也成误差矩阵，以N行N列的形式表示。预测类 ...

2018-08-29 17:38:27 483

原创 SQL(刷题）

查找时间最晚人的信息方法1：select * from table where time = (select max(time) from table方法2：select * from table order by time desc limit 1LIMIT m,n : 表示从第m+1条开始，取n条数据；LIMIT n ：表示从第0条开始，取n条数据，是limit(0,n)的缩...

2018-08-29 16:49:39 1503

转载 python chatterbot(案例)

from chatterbot import ChatBotfrom chatterbot.trainers import ListTrainerconversation = [ "Hello", "Hi there!", "How are you doing?", "I'm doing great.", "That is good to hear"...

2018-07-17 21:17:12 1409

原创 python wordcloud matplotlib(绘图)

##############matplotlib################import maplotlib.pyplot as pltimport numpy as np # 绘制曲线x = linspace(0, 10, 100)ps = plot(x, sin(x), x, cos(x))# 加文字t1 = text(1, -0.5, "hello")# 文字坐标改变...

2018-07-17 21:12:05 1057

转载 python sklearn 案例

#导入模块from sklearn import datasetsfrom sklearn.cross_validation import train_test_split,cross_val_scorefrom sklearn.neighbors import KNeighborsClassifier#创建数据iris = datasets.load_iris()iris_X =...

2018-07-17 20:51:43 615

转载正则表达式

Python strip() 方法用于移除字符串头尾指定的字符，括号内为移除的字符。（默认为空格）.（点）：匹配任何字符，除了新的一行。如“ATT.T”将匹配“ATTCT”，“ATTFT”，而不匹配“ATTTCT”。^（异或）：匹配字符链的开头。“^AUG”将匹配“AUGAGC”, 但不是“AAUGC”。它用在一个字符集内使用的意思是“相反”的意思。$（美元）：匹配链的末端，或者只是在新行...

2018-07-17 20:48:59 149

原创散点图、残差、对数图

散点图噪声：平滑（样条、LOSSE局部线性回归）残差（均匀分布、不应该具有某种趋势、有正有负）对数图（控制数据中的幅度、乘法转换加法、指数及幂律行为）...

2018-07-17 20:44:01 4325

转载分类与标注词汇

将词汇按它们的词性（parts-of-speech, pos）分类以及相应的标注它们的过程被成为词性标注（part-of-speech tagging, pos tagging）或简称标注。词性标注也成为词性或词汇范畴。用于特定任务的标记的集合被称为一个标记集。5.1 使用词性标注器一个词性标注器（pos tagger）处理一个词序列，为每个词加一个词性标记text = nltk.wo...

2018-07-17 20:43:29 717

原创数据分析师要求

数据总监（上海）四川享宇金信金融服务外包有限公司职位月薪：20000-40000元/月岗位职责1. 负责构建公司征信大数据体系和评分模型体系的顶层设计；、2. 负责数据源接入管理体系搭建、运营，负责多数据源的管理；3. 负责数据模型管理，包括数据模型运营、数据模型修正、数据模型能力封装；4. 负责项目管理：负责与运营商体系内各部门的对接，确保模型量化策略的准确实施和上线后的监控优化；...

2018-07-17 20:36:53 916

原创 conda和pip安装包方法

conda安装：打开Anaconda Prompt，安装包 conda install package，检查安装包 conda listpip安装：第一步：cmd；第二步：pip；第三部：pip install xx.whl(位置）lxml安装：第一步：cmd 第二步：cd F:\WANPI931014\我的经验（文件所在文件夹） ...

2018-07-17 20:33:21 9046

原创 R语言实现ochiia系数

#读取数据mydata #查看数据类型mode(mydata)#数据格式转换列表（list）转换矩阵（matrix）mydata=as.matrix(mydata)#计算公式> m > n > for(i in 1:72){+ for(j in 1:72){+ n[i,j]=m[i,j]/(m[i,i]*m[j,j])^(

2018-06-24 16:08:26 1264

原创数据集成、数据变换、维度归约、属性子集选择

1、数据集成：将多个数据源中的数据合并并存放在一个一致的数据仓库中。数值属性数据判断重复：计算属性A和属性B的相关系数。其中相关系数在[-1,1]之间，若相关系数大于0且值越大说明相关性越强，若相关系数等于0说明相互独立不存在相关性，若小于0说明负相关。离散属性A和B之间的相关关系可以通过卡方检验，自由度为（r-1）（c-1）,其中A的c个值构成列，B的r个值构成行。属性冗余还可能是因

2018-06-06 14:57:40 4977

翻译 Deriving the Pricing Power of Product Features by Mining Consumer Reviews

过去几年在文本研究中引入了许多用于识别消费者评论中提及的产品特征的技术（Hu and Liu 2004，Ghani et al.2006）。一种流行的技术是使用词性（POS）标注器在评论中使用其词性标注每个词并标记该词是否是名词，形容词，动词等。名词和名词短语是产品功能的常用候选语言，尽管其他结构（如动词短语）也被使用。替代技术涉及在文本中搜索统计模式，例如在评论中经常出现的单词和短语。混合方法结...

2018-05-21 11:43:55 437 5

原创数据清理

数据清理试图填充缺失值，光滑噪声并识别离群点，纠正数据中的不一致。1、缺失值的处理（1）忽略元祖：有些数据挖掘算法可以自动忽略缺失数据（2）人工填写缺失值：很费时，特别是缺失数据集较多时，不可实现（3）使用一个全局常量填充缺失值：如Unknown（4）使用属性的均值填充缺失值：平均工资（5）使用与给定元祖属同一类的所有样本的属性均值：不同性别的平均工资（6）使用最可能的

2018-05-16 15:49:00 992

转载数据挖掘导论

第一章数据挖掘的简介

2018-04-27 18:18:47 1289

原创 citespace

1、确定关键词和专业术语2、收集数据3、提取研究前沿术语4、时区分割5、阈值选择6、精简和合并7、显示8、可视检查9、验证关键点

2018-04-21 19:25:00 3182 2

原创 wos区块链

BRIGHT: A Concept for a Decentralized Rights Management System Based on BlockchainBlockchain Contract: Securing a Blockchain Applied to Smart ContractsThe Blockchain-based Digital Content

2018-04-21 19:21:52 292 1

转载数据源选择-科赛

数据源的选择如何选择优质、充分的公开数据来源，能够有效反映P2P行业的整体发展状态与各企业的发展状态。爬虫方法与工具应用如何通过数据爬虫技术，在合理合法的条件下，获取有价值的公开数据源。数据清洗方法对于获取的数据，通过合适的方法进行结构化处理，便于后续的数据分析。文本分析与数据分析通过语义分析、情感分析、知识图谱等文本分析的方法，结合与P2P行业

2018-04-21 19:20:22 793

原创 python 3.5 SyntaxError: invalid character in identifier

一般情况下是编码中出现的了中文的标点符号，将其改为英文标点符号即可。

2018-04-17 10:10:38 243

wanpi931014的博客