自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(99)
  • 资源 (7)
  • 问答 (3)
  • 收藏
  • 关注

原创 nuxt创建VUE项目提示cb() never called!

如果没有NVM可以先安装https://github.com/coreybutler/nvm-windows/releases。nuxt创建项目提示cb() never called!错误原因可能为 node 版本和nuxt创建的项目部匹配。nuxt1对应VUE2 ,nuxt2对应VUE3。升级NODE可使用NVM版本管理软件。查看可以使用的NODE版本列表。在创建项目时指定,VUE的版本。解决办法1:升级node。

2024-04-17 09:10:15 83 1

原创 npm镜像代理等配置的终极修改方法

通过创建或编辑.npmrc文件,可以自定义npm的一些行为和设置。通常包含一些键值对来对应配置项。比如,可以设置registry来更换npm镜像源,也可以设置proxy和https-proxy来配置代理服务器用于网络请求等。在命令行中可以输入:npm config get userconfig。npm的镜像相关是存储在.npmrc文件的。查看.npmrc文件所在的位置。

2024-04-17 09:00:14 209

原创 ERESOLVE overriding peer dependency npm install错误

legacy-peer-deps命令用于绕过peerDependency里依赖的自动安装;它告诉npm忽略项目中引入的各个依赖模块之间依赖相同但版本不同的问题,以npm v3-v6的方式去继续执行安装操作。该命令不是真的解决冲突,而是忽略了冲突。错误提示 npm ERR!根据提示解决办法之一 npm i --legacy-peer-deps。

2024-04-16 06:27:37 305

原创 PHP 转换HTML 为节点数组 ,可用于uni-app的rich-text渲染

PHP DOMDocument类是一个强大的工具,可以将HTML转换为可操作的对象结构,本文将介绍一下使用PHP的DOMDocument类将HTML转换为节点数组的过程。htmlToNodes函数将HTML字符串作为输入,并返回一个包含HTML文档结构的嵌套数组。通过这个函数,可以便捷地处理HTML内容,无论是进行网页爬虫、内容管理还是构建复杂的Web应用程序,都能大大提高开发效率和灵活性。通过将HTML转换为节点数组,可以轻松地遍历这些内容,对其进行定制化的渲染和处理。

2024-04-11 20:36:51 244

原创 CSS简单给表格加上细边框

只需要在css 中加上以下CSS。或者只针对某个CSS。

2024-04-05 07:33:58 357

原创 解决采集时使用selenium被屏蔽的办法

UC模式是基于undetected-chromedriver 但做了一些优化更新,使用起来更方便。关于seleniumbase 更多,请参考官方文档。解决采集时使用selenium被屏蔽的办法。实用seleniumbase uc模式。

2024-02-21 12:41:11 452 1

原创 python读取并解析邮件

很久以前写的还是 python2.7的。

2024-01-24 14:00:39 378

原创 python logging 使用kafka进行日志收集

kafka日志处理类。

2024-01-24 12:08:34 322

原创 MinHashLSH使用redis存储

也可以将datasketch中的lsh.py和storage.py复制到自己程序目录下 修改,避免影响其他程序。datasketch自带的redis存储是没有设置有效期的,如果需要添加有效期,需要修改它的源代码。修改storage.py文件中_insert 函数 ,有两处,大于在1039和1084行左右。

2024-01-24 10:29:37 480

原创 selenium采集后Win平台下结束chrome进程的方法

【代码】selenium采集后Win平台下结束chrome进程的方法。

2024-01-24 09:44:48 322

原创 python笔记

2.正则特殊符号转义函数re.escape。1.采集函数:根据前后字符串从内容中截取。

2024-01-24 09:19:55 319

原创 selenium的Chrome116版驱动下载

选择chromedriver 对应的平台和版本https://download.csdn.net/download/dongtest/88314387为帮助您在CSDN创作的文章获得更多曝光和关注,我们为您提供了专属福利:已注册且未在CSDN平台发布过文章的用户,9月1日—9月30日期间发布首篇文章可享大额首篇流量券扶持,且发布首篇文章后30日内,享连续每日流量券扶持;已注册且未在CSDN平台发布过文章的用户,在8月1日—8月30日期间发布过首篇,可自9月1日起,享连续30天每日流量券扶持;更多福利介

2023-09-08 17:35:09 623

原创 tf.compat.v1.estimator.tpu.TPUEstimator参数说明

tf.compat.v1.estimator.tpu.TPUEstimator 参数

2022-09-20 11:45:44 1088

原创 spark-submit的一些参数

–master spark://masterhost:7077 #指定主服务器名称和端口–executor-memory 6G executor内存 相当于Xmx=6G–executor-cores 4 启动4个核–driver-memory 1G 每个driver1G内存 ,因为有4个core,所以总使用就是1*4G存–conf spark.default.parallelism=10...

2019-11-19 15:00:58 302

原创 spark集群在windows下搭建

我用三台windows电脑,主机名 和 ip对应如下:(右键我的计算机 属性 修改计算机名分别为:win-master,win-salver1,win-salver2)win-master 192.168.0.1win-salve1 192.168.0.2win-salve2 192.168.0.3每台电脑安装好对应的软件,建议安装目录保持一致1.下载java:https://www....

2019-11-18 15:11:04 2289 2

原创 python 转换中文为json时 ensure_ascii设置为False

因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=Falseimport jsonprint json.dumps(‘中文’,ensure_ascii=False)

2019-09-17 18:01:40 2593

原创 pyspark使用指定版本的python

系统中同时装了python2 和python3,如何让spark使用指定的python?只要在系统中设定一个环境变量PYSPARK_PYTHON 把该环境变量指向对应的python即可。比如我在windows中添加一个系统环境变量PYSPARK_PYTHON 然后把值指向d:\python3...

2019-07-12 10:47:27 3994 1

原创 sklearn聚类之kmeans以及增量聚类

使用kmeans聚类时,计算量往往都比较大,当有新的数据要添加到现有类别时,怎么做呢使用sklearn简单做法就是训练时把模型保存,增量时加载模型,用predict预测就好了。前提条件是新数据和训练时的特征要一致,比如在训练时使用的分词idf,把所有分词idf的词典保存下来,对于新的增量数据,调用该词典。#聚类类别数 k_num = 50 mydatas = [] #加载数据,每一条...

2019-07-12 10:33:40 4352 1

原创 spark进行svd降维和kmeans聚类

import jieba import jieba.analyse import jieba.posseg as pseg from pyspark import SparkConf, SparkContext,SQLContext from pyspark.ml.feature import Word2Vec,CountVectorizer import pandas as pd ...

2019-07-12 10:32:06 713

原创 卡方检验提取特征来对文本分类

count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform(corpus) tfidf_transformer = TfidfTransformer() X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts) X_ch2...

2019-07-12 10:31:07 1354 4

原创 计算文本词频tf-idf然后进行聚类

import jieba import jieba.analyse import math import operator from sklearn.cluster import KMeans, MiniBatchKMeans, AffinityPropagation, DBSCAN from sklearn.cluster import MeanShift, estimate...

2019-07-12 10:30:03 2206

原创 spark之word2vec使用(python)

[code="python"]from pyspark import SparkConf, SparkContext,SQLContextfrom pyspark.sql import SparkSession from pyspark.ml.feature import Word2Vec,CountVectorizerconf = SparkConf().setAppName("...

2018-08-15 09:57:59 1824

原创 spark2.3聚类算法lda代码(python)

spark的lda有两个一个是mllib下 一个是ml下的,下面代码是使用ml的from pyspark import SparkConf, SparkContext,SQLContextfrom pyspark.sql import SparkSession from pyspark.ml.feature import Word2Vec,CountVectorizerfrom p...

2018-08-15 09:49:01 916 1

原创 (转)PHP词库树,用来判断敏感词

[code="php"][/code]

2018-03-29 15:17:13 598 1

原创 preg_quote — 转义正则表达式字符

说明 string preg_quote ( string $str [, string $delimiter = NULL ] )preg_quote()需要参数 str 并向其中 每个正则表达式语法中的字符前增加一个反斜线。 这通常用于你有一些运行时字符串 需要作为正则表达式进行匹配的时候。 正则表达式特殊字符有: . \ + * ? [ ^ ] $ ( ) { } =...

2018-03-16 10:34:37 177

原创 加速Mysql repair table的方法(转)

SET SESSION myisam_sort_buffer_size = 256*1024*1024;SET SESSION read_buffer_size = 64*1024*1024;SET GLOBAL myisam_max_sort_file_size = 100*1024*1024*1024;SET GLOBAL repair_cache.key_buffer_size ...

2017-11-23 10:13:13 811

原创 (转)jquery的base64

https://github.com/yckart/jquery.base64.jsvar a="123";var b=$.base64.btoa(a);console.log(a===$.base64.atob(b))

2017-10-19 14:54:32 1122

原创 (转)SQL复制数据表 (select * into 与 insert into)

select * into 目标表名 from 源表名insert into 目标表名(fld1, fld2) select fld1, 5 from 源表名以上两句都是将 源表 的数据插入到 目标表,但两句又有区别的:第一句(select into from)要求目标表不存在,因为在插入时会自动创建。 第二句(insert into select from)要求目标表...

2017-08-25 13:48:24 228

原创 linux 编译安装 Python3.6 (保留自带Python2)

yum install wgetyum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-develcd /usr/local/srcwget https://www.python.org/ftp/python/3.6.0/Python-3.6.0....

2017-07-21 15:55:20 125

原创 中文字符串转数组

[code="java"]function ch2arr($str){ $length = mb_strlen($str, 'UTF-8'); $array = array(); for ($i=0; $i

2017-06-27 14:28:13 717

原创 TensorFlow 的SSE avx fma安装

W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE3 instructions, but these are available on your machine and could speed up CPU computations.W ten...

2017-05-06 19:22:09 374

原创 (转载)Seq2SeqModel参数

训练数据和预处理数据集是电影剧本中的对话,我们首先需要做一些预处理以获得正确的数据格式。切字分词 使用结巴分词。移除低频词 代码中,用vocabulary_size 限制词表的大小。用UNK代替不包括在词表中的单词。例如,单词“非线性”不在词表中,则句子“非线性在神经网络中是重要的”变成“UNK在神经网络中是重要的”。准备开始和结束标签以及填充标签 在decod...

2017-05-05 16:15:24 1595

原创 (转载)基于CRF的中文分词

CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)本...

2017-04-28 17:27:33 364

原创 (转载)汉语词性对照表[北大标准/中科院标准]

  词性编码词性名称注 解Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。an名形词具有名词功能的...

2017-03-22 09:15:06 172

原创 (转载)jieba全应用入门

# coding: utf-8# ###jieba特性介绍# 支持三种分词模式:# 精确模式,试图将句子最精确地切开,适合文本分析;# 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;# 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。# 支持繁体分词。# 支持自定义词典。# MIT 授权协议。...

2017-03-22 09:14:20 138

原创 (转)python的nltk中文使用和学习资料汇总帮你入门提高

转自:http://blog.csdn.net/huyoo/article/details/12188573nltk是一个Python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnb...

2017-03-06 10:19:19 253

原创 windows下python中运用libsvm的配置(转载)

转载 http://blog.sina.com.cn/s/blog_132a9d5010102wsov.html先说明一下我的各个版本,电脑win7 64位,Python 2.7版本32位,已安装的各种python库都是32位。所以我这篇文章针对的是以上配置的情况,如果你是64位系统,64位python,请参考 http://blog.csdn.net/lj695242104/ar...

2016-12-13 14:03:29 199

原创 pyspark在windows下java.net.SocketException: Connection reset by peer 错误

pyspark在windows加载数据集 训练模型出现 以下错误java.net.SocketException: Connection reset by peer: socket write error at java.net.SocketOutputStream.socketWrite0(Native Method) at java.net.Socket...

2016-12-05 16:12:51 1388 1

原创 在eclipse上搭建spark的java开发环境

首先安装好spark后 设置环境变量SPARK_HOME=d:\spark,在环境变量path后面添加%SPARK_HOME%bin;启动Eclipse建立Java项目,建立一个测试的类 比如WordCount 用来统计文件中的字数添加需要的jar库,选择菜单project=>properties,然后在左侧选择java build path 右侧选择libraries,然后选...

2016-12-05 09:52:27 423

原创 用Spark ALS通过预测推荐电影(python)

[code="java"]#!/usr/bin/env python# coding=utf-8'''运行命令/yourpath/spark/bin/spark-submit --driver-memory 1g MovieLensALS.py movieLensDataDir personalRatingsFilemovieLensDataDir 电影评分数据集目录 比如 m...

2016-12-02 11:34:09 1164

selenium的Chrome116版驱动下载

selenium的Chrome116版驱动下载

2023-09-08

SPARK_MLLIB机器学习.zip

SPARK_MLLIB机器学习资料 PDF 详细介绍了spark MLLIB机器学习模块

2019-07-01

hadoop2.7.3 在windows下需要的hadoop.dll winutils.exe等文件

hadoop2.7.3 在windows下需要的hadoop.dll winutils.exe等文件 拷贝到bin目录下覆盖

2016-12-05

中文Mastering Machine Learning With scikit-learn

Mastering Machine Learning With scikit-learn 中文版

2016-09-06

PornDetector

判断是否色情图片

2016-08-09

PHP5.2、5.3、5.4、5.5、5.6的php memcache dll扩展

PHP5.2,5.3,5.4,5.5,5.6的php memcache dll扩展

2015-11-12

myeclipse 5.5.1 注册机

myeclipse 5.5.1 注册机

2015-11-12

oembios 升级到sp3时验证需要的5个文件

oembios.bin,oembios.cat,oembios.dat,oembios.sig,oeminfo.ini 升级到sp3时验证需要的5个文件 从安全模式下登录,将5个文件复制到system32目录下即可

2015-11-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除