自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(130)
  • 收藏
  • 关注

转载 unity手机端手势基本操作

主要有单指移动3D物体、单指旋转3D物体、双指缩放3D物体。基类using UnityEngine;using System.Collections;/// <summary>/// 手势操作父类,并用于互斥三种手势/// </summary>public class GestureControl : MonoBehaviour{ //记录手势状态: //-1——没有任何手势在操作 //0——移动手势正在操作 //1——旋转手势正在操作

2021-01-26 16:46:06 1825 1

原创 win10 pip安装dlib cmake错误

直接pip install dlib==19.6.1 安装这个版本 其他什么cmake boost都是扯淡

2021-01-06 12:57:36 1480 1

原创 让python提高运行速度

目前有cpython,numba,pythran等等一堆工具,思路都是把Python编译成机器码,先记录一下,日后更新。

2020-12-04 09:33:45 602

原创 后台启动服务

# 带日志输出nohup XXX &> /xxx/xxx.log &# 不带日志输出nohup XXX &> /dev/null &

2020-11-26 11:12:24 393

原创 语义去重、去包含关系、去相似

MySimHash:import com.hankcs.hanlp.seg.common.Term;import com.hankcs.hanlp.tokenizer.StandardTokenizer;import org.apache.commons.lang3.StringUtils;import org.jsoup.Jsoup;import org.jsoup.safety.Whitelist;import java.math.BigInteger;import java.util.

2020-11-24 16:50:20 365

原创 sklearn DBSCAN调参

参考:https://www.cnblogs.com/pinard/p/6217852.html1)eps: DBSCAN算法参数,即我们的ϵ-邻域的距离阈值,和样本距离超过ϵ的样本点不在ϵ-邻域内。默认值是0.5.一般需要通过在多组值里面选择一个合适的阈值。eps过大,则更多的点会落在核心对象的ϵ-邻域,此时我们的类别数可能会减少, 本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大,本来是一类的样本却被划分开。2)min_samples: DBSCAN算法参数,即样本点要成为核心对象所需要

2020-11-23 17:38:23 2505

原创 对长文本的聚类

需求:长文本的实时聚类\离线聚类,聚类新闻中重复或相似的文章BERT取句首[CLS]向量做聚类效果并不好,取出所有向量做处理做聚类据 说效果提升,没试,而且位置编码时速度太慢,弃用。SBERT没试。HashTrick+DBSCAN,效果不错,采用Single-Pass Clustering,效果应该也可以,没试。参考知乎Single-Pass Clustering...

2020-11-19 20:14:15 692

原创 使用单例模式只加载一次模型

模型预测时使用单例模式避免重复加载def singleton(cls): # 单下划线的作用是这个变量只能在当前模块里访问,仅仅是一种提示作用 # 创建一个字典用来保存类的实例对象 _instance = {} def _singleton(*args, **kwargs): # 先判断这个类有没有对象 if cls not in _instance: _instance[cls] = cls(*args, **kw

2020-11-17 20:33:23 827

原创 plotly画图不显示的问题

使用离线模式3D图不显示加上import cufflinks as cfcf.go_offline()###这两句是离线生成图片的设置cf.set_config_file(offline=True, world_readable=True)# 导入依赖库import numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport mathimport plotly.graph_objs as gofrom pl

2020-11-12 17:45:56 7075 2

原创 python logging写入日志文件

import loggingimport os.pathimport timelogger = logging.getLogger()logger.setLevel(logging.INFO)rq = time.strftime('%Y%m%d%H%M', time.localtime(time.time()))log_path = os.path.dirname(os.getcwd()+'/Logs/')log_name = log_path+'/' + rq + '.log'lo

2020-11-05 18:27:20 348

原创 pymysql数据插入不报错但数据库没报错

记住在excute后家connention.commit()才能插入数据try: if add_time2 < add_time1: # 更新FINANCIAL_FEATURE cursor1.execute("select * from FINANCIAL_FEATURE where add_time like \"{}\"".format('%' + add_time1 + '%')) data = cursor1.fetchall()

2020-10-19 14:43:37 289

原创 pymysql中文乱码问题

test_conn = pymysql.connect(host=test_conf['intranetIP'], user=test_conf['user'], password=test_conf['password'], port=3306, db=test_conf['db'], charset='utf8')

2020-10-16 17:06:36 200

原创 mysql只取出日期字段的年月日

SELECT distinct DATE_FORMAT(add_time,'%Y-%m-%d') FROM FINANCIAL_FEATURE

2020-10-16 15:46:10 2075

原创 解决语义重复,语义包含关系

生成的文本会出现语义包含现象,现在有过滤掉出现语义包含的语句import com.hankcs.hanlp.seg.common.Term;import com.hankcs.hanlp.tokenizer.StandardTokenizer;import java.util.ArrayList;import java.util.List;/** * created by liangpengfei on 2020/10/15 */public class FilterInclusion

2020-10-15 17:30:45 993

原创 利用hanlp比较文本相似度

import com.hankcs.hanlp.seg.common.Term;import com.hankcs.hanlp.tokenizer.StandardTokenizer;import org.apache.commons.lang3.StringUtils;import org.jsoup.Jsoup;import org.jsoup.safety.Whitelist;import java.math.BigInteger;import java.util.ArrayList;

2020-10-15 17:28:15 2500 1

原创 conda 段错误解决办法

因为网络问题中断导致,要么找到未下完的包删掉,要么运行 conda clean -a

2020-10-14 09:18:34 229

原创 python连接远程服务器执行shell脚本并传输文件

需要对数据进行维护,每次复制粘贴太麻烦,同事已经在本地实现了大部分功能,现在在已有的代码上添加自动更新数据的脚本import paramikoimport loggingimport timeimport osfile_path1 = "aaaaaaaaaaa"file_path2 = "aaaaaaaaaa"target_path1 = "xxxxxxxxxxxx"target_path2 = "ccccccccccccccccc"file_list = [xxxxxxxxxxxx

2020-10-12 18:15:38 1534

原创 tensorflow2 搭建神经网络六步法

import tensorflow as tfimport osimport numpy as npfrom matplotlib import pyplot as pltnp.set_printoptions(threshold=np.inf)mnist = tf.keras.datasets.mnist(x_train, y_train), (x_test, y_test) = mnist.load_data()x_train, x_test = x_train / 255.0, x_

2020-09-21 15:21:49 732

原创 一文搞懂马尔可夫模型和条件随机场

马尔科夫链隐马尔科夫条件随机场

2020-09-01 10:26:30 522

原创 pandas读取大数据

comments = pd.read_csv('xxx.csv',iterator=True)loop = Truedf = comments.get_chunk(1)while loop: try: tmp = None tmp=comments.get_chunk(500) df = df.append(tmp) except StopIteration: loop = False print("It

2020-08-10 09:42:23 294

转载 python pandas使用chunksize异步拆分固定行数的文件

添加链接描述import pandas as pdimport asynciofrom collections import defaultdict collect = defaultdict(list) #######创建处理一个对象的方法,并返回期物async def dealone(chunk,sas): path='/data/chaifen/testphone_%d.txt'%sas chunk.to_csv(path,index=False) retu

2020-08-10 09:24:12 531

原创 mysql常用命令(总结)

环境:windows10 mysql5.6启动停止mysqlnet start mysqlnet stop mysql修改mysql提示符连接客户端是通过参数指定shell>mysql -uroot -proot --prompt 提示符连接上客户端后,通过promptmysql>prompt 提示符mysql>prompt \u@...

2020-08-07 16:28:00 541

原创 git开发中的常用操作

git几乎天天用,但是各种教程介绍的非常繁琐,所以来总结一下,以github为例参考github界面变动过,但基本结构就这样了,其他版本库都差不多Used by: 展示了这个项目被 github 上其他项目使用的次数,例如图中的 React 是个知名的前端库,所以使用者众多;Watch: 点击 Watch 后,相当于你就关注了这个项目,那么以后要是这个项目有更新,你就会收到提醒;Star: 类似朋友圈点赞功能,你觉得这个项目不错,就可以给它点赞;Fork: 拷贝一份项目到你自己的仓库,不过如

2020-08-07 16:22:31 197

原创 hadoop无法开启namenode和secondarynamenode

在安装hadoop时一直无法开启namenode和secondarynode,主机名ip映射也排查过,还是无法解决,查看日志一直报The value of property bind.address must not be null 可以看出是ip和端口号的问题,排查端口号发现没有被占用。试了无数次还是无法开启,最后在hdfs-site.xml中添加dfs.http.address属性,发现可以开启namenode但无法开启secondarynamenode。由此可确定是端口号的问题。需要在hdfs-

2020-07-30 16:51:29 1825

转载 各种转码(bytes、string、base64、numpy array、io、BufferedReader )

# 将字节流转ndarrayimport ioimport structimport cv2import numpy as npa = b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\xa0\x00\x00\x00\xa0\x08\x02\x00\x00\x00\x04\xad\xf0z\x00\x00\x91[IDATx\x9cd\xfdi\x93,K\x93\x1e\x86\xf9\x16\x91YKw\x9fs\xee\xfen\x98\x

2020-07-11 18:21:21 18986

原创 训练神经网络的建议与参数设置

训练神经网络的建议(1)一般情况下,在训练集上的目标函数的平均值(cost)会随着训练的深入而不断减小,如果这个指标有增大情况,停下来。两种情况:采用的模型不够复杂,以至于不能在训练集上完全拟合已经训练很好了(2)分出一些验证集,训练的本质目标是在验证集上获取最大的识别率。因此训练一段时间后,必须在验证集上测试识别率,保存使验证集上识别率最大的模型参数,作为最后的结果。(3)注意调整学习率,如果刚训练几步损失函数cost就增加,一般来说是学习率太高了。如果每次cost变化很小,说明学习

2020-06-12 13:22:27 1690

原创 对SVM合页损失梯度的推导

![在这里插入图片描述](https://img-blog.csdnimg.cn/2020061100071744.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDExMTM3Nw==,size_16,color_FFFFFF,t_70)对第i个样本来说, 如果...

2020-06-11 00:24:10 444

原创 numpy中的广播机制与维数和轴的总结

numpy几乎天天用,可一旦涉及到高维的广播和关于轴的聚合操作时都要琢磨一下,看了不少博客,都是互相抄,帮助不大,特地总结一下。一、 广播机制广播的原则:如果两个数组的后缘维度(trailing dimension,即从末尾开始算起的维度)的轴长度相符,或其中的一方的长度为1,则认为它们是广播兼容的。广播会在缺失和(或)长度为1的维度上进行。这句话分两种情况理解第一种情况:如果两个数组维度不同,则后缘维度的轴长度相同可以广播。例如:(3,4,2)和(4,2)的维度是不相同的,前者为3维,后者为2

2020-06-04 13:15:33 406

原创 ValueError: operands could not be broadcast together with shapes (112,4) (4,1)

X = pd.read_csv('train_X.csv').valuesy = pd.read_csv('train_y.csv').valuesweights=ones((4,1))print(X.shape,type(X))print(y.shape,type(y))print(weights.shape,type(weights))运行结果:(112, 4) <cla...

2020-01-08 16:28:07 1222

原创 MySQL优化(总结)

数据库优化的目的避免出现页面访问错误 由于数据库连接timeout产生页面5xx错误 由于慢查询造成页面无法加载 由于阻塞造成数据无法提交增加数据库的稳定性 很多数据库问题都是由于低效的查询引起的优化用户体验 流畅页面的访问速度 良好的网站功能体验SQL语句优化使用MySQL慢查日志对有效率问题的SQL进行监控...

2019-11-12 17:29:20 106

原创 子查询与连接(总结)

SET NAMES gbk;在客户端使用gbk编码显示,不影响原表(解决乱码问题)子查询

2019-11-07 10:59:45 360

原创 数据库设计(总结)

需求分析为什么要进行需求分析了解系统中索要存储的数据了解数据的存储特点了解数据的生命周期要搞清楚的一些问题实体及实体之间的关系(1对1,1对多,多对多)实体所包含的属性哪些属性或属性的组合可以唯一标识一个实体逻辑设计ER图关系------表元组------行属性------列候选码------主键或唯一索引主码------主键(...

2019-11-06 21:14:15 145

原创 存储引擎(总结)

MyISAM:适用于事务的处理不多的情况。InnoDB:适用于事务处理比较多,需要有外键支持的情况其他存储引擎:csv:‘,’为分隔符,不支持索引BlackHole:黑洞引擎,写入的数据都会消失,一般用于做数据复制的中继。设置存储引擎...

2019-11-05 18:12:46 162

原创 【MySQL】mysql中any,in,some,all的区别

any,in,some,all分别是子查询关键词之一,any 可以与=、>、>=、<、<=、<>结合起来使用,分别表示等于、大于、大于等于、小于、小于等于、不等于其中的任何一个数据。all可以与=、>、>=、<、<=、<>结合是来使用,分别表示等于、大于、大于等于、小于、小于等于、不等于其中的其中的所有数据。他们进行子查...

2019-11-05 15:48:56 149

原创 运算符和函数(总结)

字符函数**** 从第一位向后截取两位 ****** 名字里包含o的 ****** 1后边的百分号不再作为通配符解析 ***%(百分号):代表任意个字符_(下划线):代表任意一个字符数值运算符与函数比较运算符与函数...

2019-11-05 15:47:23 1314

原创 无限极分类表的设计(总结)

INSERT tdb_goods_types(type_name,parent_id) VALUES('家用电器',DEFAULT); INSERT tdb_goods_types(type_name,parent_id) VALUES('电脑、办公',DEFAULT); INSERT tdb_goods_types(type_name,parent_id) VALUES('大家电',1); I...

2019-11-05 14:22:33 776

原创 操作数据表中的记录(总结)

插入记录INSERT [INTO] tbl_name [(col_name,…)] {VALUES|VALUE} ( {expr|DEFAULT},… ),(…),…INSERT [INTO] tbl_name SET col_name={expr | DEFAULT},…*** 与第一种方式的区别在于,此方法可以使用子查询(SubQuery),但不可以一次性插入...

2019-11-04 16:52:17 251

原创 约束以及修改数据表(总结)

约束外键约束*** 参照列创建主键时自动创建了索引,而外键列创建自动创建了索引 ***

2019-11-03 23:13:13 699 3

原创 删除u盘启动盘分区的方法

cmd》》diskpart》》list disk》》select disk 1》》clean然后在计算机属性管理磁盘管理下新建卷分区即可

2019-10-04 16:49:38 2238

原创 centos7安装mongodb

curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz # 下载tar -zxvf mongodb-linux-x86_64-3.0.6.tgz # 解压mv mongodb-linux-x86_64-3.0.6/ /u...

2019-07-31 16:23:39 56

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除