自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lcwy220的博客

人生天地间,忽如远行客

  • 博客(29)
  • 收藏
  • 关注

原创 Librec 获得训练集的prediction value

Librec对训练集和测试集有过滤设置。数据读取地址:https://github.com/guoguibing/librec/blob/3.0.0/core/src/main/java/net/librec/data/splitter/GivenTestSetDataSplitter.java第98行 // remove test elements from trainMatrix for (MatrixEntry me : testMatrix) {

2021-06-02 23:16:57 143

原创 Python绘图

Python绘图代码from matplotlib.pyplot import MultipleLocatordef exteact_ad_pv(product_code, ad_pv): impression_list, click_list, prodcollection_list, shopcollection_list, shoppingcart_list = [],[],[],[],[] for date_id in ts_list: ad_pv_data

2021-01-28 20:02:42 250

原创 tsfresh安装中pandas问题,如Panel、name等AttributeError

实际上是pandas版本问题,即使官方说pandas版本要>0.25.0,但是实际上使用低版本才是。pandas>=0.20.3,<=0.23.4 # pandas dropna is buggy in 0.24.0, see https://github.com/blue-yonder/tsfresh/issues/485 and https://github.com/pandas-dev/pandas/issues/25087...

2020-12-27 18:58:05 502

原创 Ubuntu 18.04NVIDIA GPU在服务器重启后nvidia-smi命令失效问题

1. 问题Linux Ubuntu 18.04,断电重启后nvidia-smi命令不可执行,具体显示什么无法建立和驱动器的通信之类的2. 可能原因重启过程导致内核更新,所以也有更新NVIDIA相关驱动3. 解决方法3.1 卸载原有驱动Ubuntu命令:nvidia-uninstall卸载过程中,有些没有卸载干净,会问你是否保留,选择continue(不保留)3.2 确保禁用了n...

2020-05-07 12:01:53 3318

原创 Conda install package遇到CondaHTTPError: HTTP 000 Connection Failed问题

新安装的anaconda,在使用conda install时候会遇到错误信息:SSLError(MaxRetryError('HTTPSConnectionPool(host='repo.anaconda.com', port=443): Max retries exceeded with url: /pkgs/main/win-64/repodata.json.bz2 (Caused by S...

2019-05-09 10:29:33 1154

原创 python csv error: line contains null byte

Python的csv包固有问题实践证明,当使用csv读取文件时,一旦文件里包含了’\0’或则’\x00’这种字符串时,会报错显示‘line contains null byte’。一部分原因是文件中本身就存在这样的字符串,另一可能原因是该csv文件是从excel文件转换而来的,那么简单的处理的方式就是重新保存成csv。如果不想该文件,就需要将这些可能的null byte抽取掉。以下代码:w...

2019-01-25 12:37:28 7064 1

原创 Elasticsearch Failure to recover shards after the disk was full

1. 错误起因服务器集群,某个节点因为没关注硬盘空间问题,导致满了后不能写出数据,重新配置disk的标准后重启,发生某几个shards一直不能恢复。2. 错误日志[[flow_text_2018-08-01][4]] marking and sending shard failed due to [failed recovery] org.elasticsearch.index....

2018-09-10 22:55:17 1083

原创 Pytorch 常用函数汇总

lstm = nn.LSTM(input_size = input_size, hidden_size = hidden_size, num_layers = num_layers, batch_first = True, ...

2018-09-10 22:35:47 1500

原创 selenium爬虫

借助selenium爬取数据selenium本来说是用于测试的工具,但是因为可以自动化登录以及操作的情形,可以用于一些动态页面加载的爬虫情况,这里主要记录一些简单使用技巧和注意的事,具体内容可以参考Python模块的中文文档:http://selenium-python-zh.readthedocs.io/en/latest/index.html安装Python包的安装很简单,pi...

2018-07-03 05:25:01 828

转载 关于半马尔可夫的一个形象解释

青蛙在荷叶上跳动,在每个不同的荷叶上表示不同的状态,从一个荷叶跳到另一个荷叶表示状态的转移,该转移过程只依赖于现在所处荷叶,而与以前呆过的荷叶无关,如果只考虑青蛙跳跃的时刻序列,这个过程就是离散时间的马氏过程,如果考虑青蛙在荷叶上呆了一段时间,且这段时间是服从指数分布的,那这个过程是连续时间马氏过程,如果时间是非指数分布的,那这个过程是半马氏分布。

2018-01-03 01:51:03 4393

原创 Python中scipy中weibull分布的计算

scipy.stats.exponweib:scipy包中计算weibull分布的函数。密度函数的格式:exponweib.pdf(x, a, c) = a * c * (1-exp(-x**c))**(a-1) * exp(-x**c)*x**(c-1),这个形式很奇怪在官方文档说a和c是shape parameter,扩展的loc和scale参数,exponweib.p

2017-08-25 10:24:00 11779 1

原创 CART与C4.5的区别

虽然两者都是决策树,但CART既可以做分类,又可以做回归,而C4.5只是用于分类。C4.5说到底是构造决策树来发现数据中蕴涵的分类规则,是一种通过划分特征空间逼近离散函数值的方法。C4.5是基于ID3的改进算法,使用信息增益率作为划分依据。分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。

2017-08-24 14:30:49 4467

原创 Elasticsearch生产环境中的一些问题

1. low water disk某个节点的硬盘空间超过85%时,es将不会再往该节点分配replica。这在重启后时,会发现集群状态始终是yellow,有一些unassigned shards。此时可以不停机的进行集群配置。PUT _cluster/settings{  "transient": {    "cluster.routing.allocation.disk.wa

2017-07-18 21:50:57 3504

转载 Kmeans缺点分析

K均值聚类是一种应用广泛的聚类技术,特别是它不依赖于任何对数据所做的假设,比如说,给定一个数据集合及对应的类数目,就可以运用K均值方法,通过最小化均方误差,来进行聚类分析。因此,K均值实际上是一个最优化问题。在一些已知的文献中论述了K均值聚类的一下一些缺点:K均值假设每个变量的分布是球形的;所有的变量具有相同的方差;类具有相同的先验概率,要求每个类拥有相同数量的观测以上任一

2017-07-17 22:47:47 4051

原创 Opencc简体、繁体转换

除了写代码进行简体、繁体转换外,opencc也支持命令行进行转换。opencc --help可以看到具体信息。参数: -i [file], --input=[file]   从 [file] 读取原始文本。 -o [file], --output=[file]  将转换后的文本写入 [file]. -c [file], --config=[file]  从 [f

2017-07-02 17:24:40 3588

原创 E.S. 清退节点和再加回策略

1. 有时候需要将某个节点上的es数据清理出来,需要相关命令。网址:https://www.elastic.co/guide/en/elasticsearch/reference/current/allocation-filtering.html_ip/_host/_name都可以。PUT _cluster/settings{  "transient" : {

2017-04-24 22:25:02 419

原创 Ubuntu中java版本切换

Ubuntu中不同Java版本切换问题。

2017-04-09 17:22:47 311

原创 import redis MARKER_EXPR = originalTextFor(MARKER_EXPR())("marker")

如题,import redis时出现以上的错误,出现以下错误:MARKER_EXPR = originalTextFor(MARKER_EXPR())("marker")TypeError: __call__() takes exactly 2 arguments (1 given)解决方案:打开 python底下的那个requirement.py 文件,把第59行

2017-02-27 10:02:54 514

翻译 Cleaning up A Git Repository After Failed Push With Large File

git 中有时候会放入大文件而不知道,需要清空git。remote: error: GH001: Large files detected. You may want to try Git Large File Storage - https://git-lfs.github.com.remote: error: Trace: 896267811e10b405cdba193b1

2017-02-24 11:05:56 367

原创 SVM-SVR

使用Python 的sklearn包来训练svm,当然也可以使用libsvm。主要想用svr做预测,我们知道svm是做分类的,同样基于svm的改进版svr也同样和可以做预测。from sklearn import svm.SVR()svr的初始化:    clf=svm.SVR(        C=c_value,        cache_si

2017-01-12 10:39:46 1815

原创 Linux scipy安装

某些情况下,Linux会缺少scipy的一些基础包,如lapack/blas等。网上搜到的一下教程颇为麻烦,在折腾一番之后,找到简易命令行。只需要几个命令即可完成:sudo apt-get install libblas-devsudo apt-get install liblapack-devsudo apt-get install gfortransudo

2017-01-03 15:27:11 10256 5

原创 elasticsearch的unassigned shards的处理(续)

所用elasticsearch版本为1.6.0。有时候单机上的es会出现unassigned shards的情况,原因不明,但还是可以做数据恢复的。想要恢复数据分片,主要是关注es存储数据的路径。在1.6.0的版本中,es的数据是存在elasticsearch-1.6.0/data目录下,该目录的子文件即是各个不同es集群的数据,如果开启过多个es服务时,会留下以es集群名

2016-10-28 21:42:59 8897

原创 tmux在Centos上安装

主要是两个:libevent 和 tmux。1、安装libevent下载libevent的源码并解码;./configure && make;make install.2、安装tmux下载tmux源码并解压缩;./configure && makemake install可能在最后遇到错误:tmux: error while loadin

2016-10-20 23:11:31 334

原创 networkx中关于图的wiener_index的计算函数

在最新的networkx1.11的版本中,其官方文档和github的源代码中其实已经嵌入的wiener index的计算函数,就在references/Algorithms/wiener_index的目录下,并且也给出了其示例。但在真正下载或安装networkx过程中却没有这个函数,如今根据github的代码将其补全。1. 将github中的networkx/Algorithms下的w

2016-10-10 21:13:57 1012

原创 随机森林模型保存-python

训练完的随机森林模型需要保存下来,目前给出python的方案。import picklewith open("model.pkl", "wb") as f:pickle.dump(model, f)# 如果需要再取出来with open("data.pkl", "rb") as f:model = pickle.load(f)据说对于sklear

2016-10-08 13:13:10 14065 2

翻译 using pip behind a proxy

经常用到pip代理安装一些包,mark一下。源地址:http://stackoverflow.com/questions/14149422/using-pip-behind-a-proxy在ubuntu下可以这么用proxy来装包:sudo pip --proxy=“http://127.0.0.1:3128” install somepackage

2016-05-04 00:24:36 438

原创 crontab 日志

需要在crontab里自启动一些程序,除了必要的crontab语法外,一个关键的问题在于crontab里执行错误的信息不知道在哪里能看到的。为此,搜集了一些解决方案,借助ubuntu的邮箱功能收集错误信息。1. 检查/var/log下有没有cron日志如果没有的话,需要启动一下,命令如下:修改rsyslog: sudo vim /etc/rsyslog.d/50-default

2016-04-17 13:01:55 796

原创 Elasticsearch关于unassigned shards的查看

使用ES时经常会在索引上出问题,总结一些小tips,以后遇到什么问题,以及相应的解决方案,都会慢慢增加。关于unassigned shards的问题,一般遇到这种情况都是——重启试试。不行的话,只能强制删除。那么,首先得看集群状态:curl -XGET 'http://localhost:9200/_cluster/health'第二,看

2016-04-12 14:53:51 13917

原创 ubuntu上安装opencc时总会报distribute的错误

我的版本是distribute-0.6.28,将目录下的distribute_setup.py拷贝到ubuntu的python包的目录下,默认/usr/local/lib/python2.7/dist-packages。再安装python-opencc-0.1,ok。

2016-03-23 22:38:36 532

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除