zkq_1986-CSDN博客

原创【Postgres】列出某个数据库下的某个schema下面所有的表

1. \c my_database2. setsearch_path to my_schema;3. \d

2021-01-22 09:36:21 2159

转载【Postgres】postgresql 建立索引

一、索引的类型： PostgreSQL提供了多　　种索引类型：B-Tree、Hash、GiST和GIN，由于它们使用了不同的算法，因此每种索引类型都有其适合的查询类型，缺省时，CREATE INDEX命令将创建B-Tree索引。 1. B-Tree: CREATE TABLE test1 ( id integer, content varchar ); CREATE INDEXtest1_id_indexONtest1 (...

2021-01-22 09:34:55 4668

转载【Postgres】postgresql系列之数据类型

一、数字数据类型1.1 数字类型列表：类型名称存储长度描述范围 smallint 2 bytes 小范围整数类型 -32768 to +32767 integer 4 bytes 整数类型 -2147483648 to +2147483647 bigint 8 bytes 大范围数据类型 -9223372036854775808 to 9223372036854775807 decimal 可变

2021-01-22 09:31:53 1875

转载【NLP】常用NLP会议与知名研究机构

ACL: The Association for Computational Linguisticshttp://www.aclweb.org/AAAI: Association for the Advancement of Artificial Intelligencehttp://www.aaai.org/ICCL: The International Committee on Computational Linguisticshttp://www.dcs.shef.ac.uk/res..

2021-01-05 11:47:52 702

转载使用SSH反向隧道进行内网穿透

使用SSH反向隧道进行内网穿透系统版本：Centos7这篇文章主要介绍了如何利用SSH 反向隧道穿透NAT，并演示了如何维持一条稳定的SSH 隧道。1. 描述一下目前的机器状况，梳理梳理：机器 IP 用户名备注 A 10.21.32.106 gdut728 目标服务器，处于内网 B 123.123.123.123 root 外网服务器，相当于桥梁的作用 2. 解决方法：通俗地说：就是在机器A上做到B机器的反向代理；然.

2021-01-02 21:00:58 739

转载「自然语言处理（NLP）」2020年八大顶会信息整理！

「自然语言处理（NLP）」2020年八大顶会信息整理！国际学术会议是一种学术影响度较高的会议，它具有国际性、权威性、高知识性、高互动性等特点，其参会者一般为科学家、学者、教师等。针对自然语言处理（NLP）方向比较著名的几个会议有：ACL、EMNLP、NACAL、CoNLL、IJCNLP、CoNLL、IJCNLP、COLING、ICLR、AAAI、NLPCC等，下面收集了各个会议在2020年的举办时间、地点以及投稿截止时间，供大家参考。如果各位对上面的会议不是很了解，可以访问一下，上面贴出来的链接。.

2020-12-27 23:09:17 3205

转载【NLP】BERT论文的核心：详解BERT模型架构

论文的核心：详解BERT模型架构本节介绍BERT模型架构和具体实现，并介绍预训练任务，这是这篇论文的核心创新。模型架构BERT的模型架构是基于Vaswani et al. (2017) 中描述的原始实现multi-layer bidirectional Transformer编码器，并在tensor2tensor库中发布。由于Transformer的使用最近变得无处不在，论文中的实现与原始实现完全相同，因此这里将省略对模型结构的详细描述。在这项工作中，论文将层数（即Transformer b

2020-11-27 11:48:02 990

转载【爬虫】scrapy使用PhantomJS爬取待动态脚本js的数据

scrapy使用PhantomJS爬取数据环境：python2.7+scrapy+selenium+PhantomJS内容：测试scrapy+PhantomJS爬去内容：涉及到js加载更多的页面原理：配置文件打开中间件+修改process_request函数（在里面增加PhantomJS操作）第一步：settings.pyDOWNLOADER_MIDDLEWARES = { 'dbdm.middlewares.DbdmSpiderMiddleware': 543,}

2020-11-21 20:34:15 416

原创【顶会论文】NerIPS 2020 1899篇

NeurIPS 2020 Accepted Papers1899链接：https://pan.baidu.com/s/1AibbRQNtDpRBU15xU1BhuA提取码：zxmc

2020-11-10 23:27:55 350

原创【NLP】中文命名实体公开语料

https://github.com/CLUEbenchmark/CLUENER2020As we can see in Table 3, for MSRANER[7] and PeopleDailyNER3 dataset, they only have three classic categories (person name, location and organization), while WeiboNER[8, 9] add a category of Geo-political; For

2020-10-29 16:57:56 590

原创【面试】用os的walk遍历文件夹及子文件下下的所有文件

代码：# coding:utf-8import osdef getallfiles(path): allfile = [] for dirpath, dirnames, filenames in os.walk(path): for dir in dirnames: allfile.append(os.path.join(dirpath, dir)) for name in filenames: a

2020-09-04 11:41:49 328

原创【面试】GloVe、word2vec和lsa区别

GloVe 与 Word2Vec 进行对比：Word2Vec 有神经网络，GloVe 没有； Word2Vec 关注了局部信息，GloVe 关注局部信息和全局信息；都有滑动窗口但 Word2Vec 是用来训练的，GloVe 是用来统计共现矩阵的； GloVe 的结构比 Word2Vec 还要简单，所以速度更快；再试着将 GLoVe 与 SVD 进行对比：SVD 所有单词统计权重一致，GloVe 对此进行了优化； GloVe 使用比值而没有直接使用共现矩阵。当然 GloVe 看着那么好.

2020-09-02 20:40:04 873 1

原创【面试】fastText与word2vec的区别

区别：1. 训练方式不同，fastText通过句子的类别标签作为目标训练词向量，同时引入ngram优化准确性。word2vec通过预测上下文获得词向量。2. fastText能胜任分类任务，word2vec仅在于获得词向量。3. 训练速度，fastText优于word2vec。4.准确性，各有千秋，适应不同应用场景。...

2020-09-01 19:58:46 2388 1

原创【面试】word2vec中负采样原理及作用

1. 什么是负采样？负采样（negative sampling）是与正采用相反的含义。 2. 为什么采用负采样？将多分类问题转换成K+1个二分类问题，从而减少计算量，加快训练速度。负采样的概率分布在tensorflow中实现的是：其中s(w_i))是词w_i在字典中根据词频逆排序的序号....

2020-09-01 11:11:26 4821

原创【面试】项目管理中如何识别风险？

项目管理中如何识别风险？1. 风险来自内部与外部。内部主要为人员风险，外部主要为与其他系统模块的配合协同2. 外部风险不太可控，这里主要谈内部的人员风险。一是，人力不足；二是，执行人员的执行力不够。针对人力不足问题，做法就是提请上级领导增派人手。针对执行力不够问题，细化每周、每个关键时间节点，明确责任人。实行项目奖罚机制。项目中，确实因成员个人原因而执行不力的进行相应处罚。部分经常性执行力不够的成员，该优化就优化掉。...

2020-08-31 11:01:28 919

原创【面试】什么是知识图谱？

知识图谱，是结构化的语义知识库，其基本组成单位是『实体-关系-实体』三元组，以及实体及其相关属性-值对，实体之间通过关系相互联结，构成网状的知识结构。本质上是语义网络，是一种基于图的数据结构，由节点和边组成。应用价值：通过推理实现概念检索；以图形化方式向用户展示经过分类整理的结构化知识。...

2020-08-29 11:07:09 1054

原创【面试】LSTM+CRF中LSTM和CRF各有什么作用

LSTM层如果单用LSTM进行序列标注，那么它是比较好理解的，这就相当于对文本序列中每一个token进行分类，得到它的标注标签，之所以采用LSTM是考虑到语言的特性是前后依赖的，所以用LSTM的hidden的向量来描述当前以及之前所见到字的。大致流程如图所示：图1 LSTM层做NER但是光用LSTM来进行标注有一个问题，比如上图，我们发现预测的结果中一个人名后面紧接这一个组织名，这在正常的语言表达中是比较少见的，也就是概率比较低的。因此，CRF层的出现，就是为了能够让我们的模型学习到一些类似

2020-08-29 11:03:12 1121

原创【Elasticsearch】简单了解es

ES是面向文档的，它可以存储整个文档，除了存储，还会索引每个文档的内容使之可以被搜索。在ES中，文档归属于类型（type），类型存在于索引（index），类比传统关系型数据库 Relation DB → database→ table→ row→ column ，ES分解为 ES→ index→ type→ document→ field搜索的时候根据索引、类型、id可以找到相应结果 /index/type/_search...

2020-08-14 11:21:08 123

原创【torch】torch中的permute用法

permute将tensor的维度进行转换。举例：import torchimport numpy as npa=np.array([[[1,2,3],[4,5,6]]])b=torch.tensor(a)print(b)print(b.size()) # ——> torch.Size([1, 2, 3])c=b.permute(2,0,1)print(c.size()) # ——> torch.Size([3, 1, 2])print(c)c = ...

2020-07-25 15:37:43 1596

转载【pytorch】pytorch lstm实现

lstm里，多层之间传递的是输出ht ，同一层内传递的细胞状态（即隐层状态）看pytorch官网对应的参数nn.lstm(*args，**kwargs)，默认传参就是官网文档的列出的列表传过去。对于后面有默认值（官网在参数解释第一句就有if啥的，一般传参就要带赋值号了。）官网案例对应的就是前三个。input_size，hidden_size，num_layersParmerters:input_size– The number of expected features in the i.

2020-07-20 21:23:47 1703

转载【nginx】nginx安装及部署

下载官方网站：https://nginx.org/en/download.htmlWindows下安装安装下载后解压（切记不能含有中文路径！！），文件结构如图（我解压的路径就有中文，记得拷贝放置于英文目录下即可！）：启动两种方法：1）直接双击该目录下的"nginx.exe"，即可启动nginx服务器；2）命令行进入该文件夹，执行start nginx命令，也会直接启动nginx服务器。验证开浏览器，输入地址：http://localhost，访问页面.

2020-07-09 17:13:47 267

原创【linux】grep去除结果中文件名

grep -h 'abcd' *.txt加个-h，就不显示文件名

2020-06-29 15:50:02 3261

原创【pytorch】查看torch的gpu是否可用

torch.cuda.is_available()cuda是否可用；torch.cuda.device_count()返回gpu数量；torch.cuda.get_device_name(0)返回gpu名字，设备索引默认从0开始；torch.cuda.current_device()返回当前设备索引；

2020-06-28 14:26:29 32271 2

原创【linux】挂载磁盘

1. 查看磁盘情况： fdisk -l2. 格式化需挂载的盘：mkfs.ext4 /dev/sdb3. 创建需挂载的目录： mkdir -p /data014.挂载： mount /dev/sdb /data01/5. 修改文件系统表，使得重启时自动挂载： vim /etc/fstab/dev/sdb /data01 xfs defaults 0 0...

2020-06-28 14:20:23 195 1

转载【pytorch】gpu训练的模型无法在cpu下使用问题解决

最近遇到一个问题，发下gpu训练的模型在cpu下不能跑，很难受。结果发现原来是自己使用了DataParallel的问题，我保存的是整个模型。model=DataParalle(model)torch.save(‘xx.pkl’,model)然后把模型copy到自己电脑上用cpu跑model=torch.load(‘xx.pkl’)#此处报错了。。。。原因是cpu环境不能直接导入gpu训练的DataParallel模型所以换个策略,现在gpu把模型转化掉model =

2020-06-05 11:15:42 4315 1

原创【linux】用grep 找出文件a中不在文件b中出现的内容

用grep 找出文件a中不在文件b中出现的内容： grep -vf b a > 1.txt

2020-06-05 09:55:29 3201

原创【linux-shell】awk输出从某列开始之后的所有列

awk -F ',' '{if(NF >= 5) {printf $1"\t"; for(i=5;i<=NF;i++) printf $i;printf "\n"}}' 1.txt > 2.txt

2020-06-04 11:33:56 4150

原创【linux-shell】sed取出第n行

sed -n '255165,255165p' 1.txt取出第255165行

2020-06-04 11:32:34 4916

转载【NLP】hanlp依存句法分析使用说明

主函数名为:HanLP.parseDependency("以色列20日对加沙地带实施轰炸，造成3名巴勒斯坦武装人员死亡")运行结果如下:image.png函数返回值数据结构和背景知识:CONLL标注格式包含10列，分别为：———————————————————————————------------------------------ID FORM LEMMA CPOSTAG POSTAG FEATS HEAD DEPREL PHEAD PDEPREL——————————————

2020-05-28 19:54:50 4238

原创【python】dataframe调换字段顺序

df=pd.read_excel(filepath) #原来的字段顺序为：a, c, bdf=df[['a','b','c']] #经过这步之后，就将dataframe的字段顺序换为：a, b, c

2020-05-28 09:41:29 1388

原创【linux】清空缓存

清除缓存： su - root echo 1 > /proc/sys/vm/drop_caches

2020-05-21 11:18:32 174

原创【python】批量插入mysql

# 关于插入程序的说明- 前期准备： - 表结构：`****.sql` - 建表后，字段`id` 为 **自增** - 完成建表后在本地生成`model.py` 使用peewee包（`pip install peewee`），在python所在的Lib\site-packages文件夹下打开cmd输入： > python -m pwiz -e mysql -H'数据库所在位置ip' -p3306 -u'你的用户名' -P '数据库名' &gt...

2020-05-10 21:28:27 500

转载【NLP】gensim lda使用方法

OptimizedLatent Dirichlet Allocation (LDA) <https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation>in Python.For a faster implementation of LDA (parallelized for multicore machines), see ...

2020-05-03 10:32:54 2574

原创【面试概率题】策略使用

概率题：某人去多个城市旅游（数量未知），每到一个城市可以买一个礼物，但手中必须且只能有一个礼物，问用什么策略可以做到，旅游结束后，手中这个礼物来自每个城市的概率都相同。...

2020-04-18 23:09:08 250

转载【面试】链表反转

(递归实现)初始链表：求链表 A->B->C->D 的反转链表，可以先求 B->C->D 的反转链表 D->C->B，然后将 A 连在B后面就完成了。这就将原问题转变为求更小的子问题：求B->C->D 的反转链表 ...... 依次往下转变就行。我们从最内层开始看链表的各个状态，假设Head链表为传入函数的参数，NewHea...

2020-04-17 21:02:48 155

原创【面试】今日头条面试算法题——全排列

题目描述：给定一个数字，按照原有数字中的各个位上面的数字进行组合，求出比原有数字大的数中最小的数。例如：1234 -> 1243 ，1243 ->1324 ，1324 -> 1342。解题思路：1.先将原有数字中的个，十，百，千…位上面的数字取出来，并进行全排列。2.将全排列得到的数字再进行可以得到由原来数字组合组成的所有的数字。3.将第二部得到的数字排序，找出题目要求...

2020-04-16 21:54:58 993

原创【git】局域网内使用git

1. 创建远程仓库 mkdir -p /home/remote_test cd /home/remote_test git init --bare2. 克隆remote仓库至本地 git clone ssh://localhost/home/remote_test3. 在本地修改完文件，提交到remote仓库 git add ....

2020-04-16 15:47:55 427

原创【检索】groupwise scoring functions （GSF）分组评分函数

输入：一组文本输出：两两文本间的相对相关性。参考文献：Ai Q, Wang X, Golbandi N, et al. Learning groupwise scoring functions using deep neural networks[J]. 2019.

2020-03-17 19:52:30 484

原创【python】pandas逐个遍历sheet

import pandas as pdf = pd.ExcelFile('./data.xlsx')for i in f.sheet_names: d = pd.read_excel('./data.xlsx', sheetname=i) print(d)

2020-02-24 15:25:36 11240 1

原创【NLP】ACL2019-多轮对话

论文：Modeling Semantic Relationship in Multi-turn Conversations withHierarchical Latent VariablesLei Shen，Yang Feng，Haolan Zhan模型框架如下图：zc is used to control thewhole background in which t...

2020-01-22 17:00:29 683

ik分词和ictclas分词两者结合

空空如也