爱摸鱼的ZZ-CSDN博客

原创 win10 office2019+mathtype安装配置

参考自此链接补充：我的office是自定义安装的，目录在C:\Program Files\Microsoft Office\root\Office16，直接将上述两个文件粘贴到office 2016文件夹就可以，不用粘贴到STARTUP文件夹里！

2021-08-25 14:39:04 1492

原创 python学习之tqdm

tqdm模块是python的进度条库, 主要有两种运行模式：基于迭代对象运行: tqdm(iterator)import timefrom tqdm import tqdm, trange#trange(i)是tqdm(range(i))的一种简单写法for i in trange(100): time.sleep(0.05)for i in tqdm(range(100), desc='Processing'): time.sleep(0.05)dic = ['a'

2021-06-27 17:06:01 454

原创 from torchcrf import CRF报错

将from torchcrf import CRF改为from TorchCRF import CRF

2021-06-27 16:41:09 2804 2

原创 neo4j使用之索引

在清除neo4j数据库时发现，删除全部节点后发现还存在一些节点标签怎么也删不掉，其实这些节点是索引通过语句：schema可以查看索引的一些属性根据上图提示的语句可以可视化这些索引：更改为“文本”查看方式，能够得知索引的indexes,从而可以利用CQL语句删除索引：比如我删除以上四个索引的语句依次为：DROP INDEX ON:BNode(uri);DROP INDEX ON: URI(uri);DROP INDEX ON:Class(uri);DROP INDEX ON:Resour

2021-05-23 20:22:54 3450

原创词向量（自存）

词向量数据:百度百科: https://pan.baidu.com/s/1oH0iJ2_sL6LCVdhEqt-aGQ 提取码: 7ffp人民日报: https://pan.baidu.com/s/1VQIM6QvlPITNxxdsSJy_Mw 提取码: 2fid知乎:https://pan.baidu.com/s/1SYO2-pT71ynE7QE9h_dVCA 提取码: wuy3

2021-04-02 20:19:51 142

原创 pip install ahocorasick报错

问题：原因：这个包改成了 pyahocorasick，pip无法查找到解决方法：pip install pyahocorasick但是还是不行：原因：Microsoft Visual C++ 14.0 is required.安装链接：https://pan.baidu.com/s/1YCdEj-BTsluLMqvwSehCMA 提取码：kvjb安装成功：...

2021-04-01 20:20:56 315 2

原创 Neo4j中导入RDF数据

本文主要介绍将RDF数据导入Neo4j的过程。下载neosemantics jar包，将jar复制到neo4j/plugins目录下jar包下载链接注意：jar包必须与Neo4J版本匹配修改配置文件在neo4j/neo4j.conf文件最后一行添加以下内容：dbms.unmanaged_extension_classes=semantics.extension=/rdf重新启动 neo4j但是这时候网neo4j打开web界面失败：解决方法：将上一步的配置语句注释掉，可以打开web页

2021-03-16 15:06:07 3250 3

原创 jupyter启动闪退问题Bad config encountered during initialization No such notebook dir ：“文件路径”

Bad config encountered during initializationNo such notebook dir ：“文件路径”解决方法：在用户目录C:\Users\（用户名）.jupyter下找到jupyter配置文件jupyter_notebook_config.py，将该文件的c.NotebookApp.notebook_dir =“文件路径” 修改为本地存在的目录，或者直接用 # 注释掉，这样jupyter notebook就直接从当前目录启动。...

2021-02-01 16:08:03 2805

原创 jupyter notebook命令模式和编辑模式

编辑模式（edit mode）鼠标点击任何一个cell，出现光标或者直接敲 Enter回车键，进入编辑模式。进入编辑模式后，cell中有光标，cell左侧变为绿色，右上角有铅笔符号。命令模式（command mode）鼠标点击cell区域外的任何位置或者直接按 Esc 键进入命令模式。进入命令模式后，cell中没有光标，cell左侧变为蓝色，右上角没有铅笔符号。...

2020-10-08 20:52:49 3955 1

原创 BERT模型命名实体识别出现的小错误

出现的问题记录1.报错如下：Traceback (most recent call last): File "C:/Users/ZXH/Desktop/BERT-CH-NER-master/bert-master/run_NER.py", line 27, in <module> import optimization File "C:\Users\ZXH\Desk...

2020-08-04 15:55:15 902

原创 jieba分词工具的使用（自用）

参考链接：https://github.com/fxsjy/jieba特点：1、支持四种分词模式：（1）精确模式：试图将句子最精确地切开，适合文本分析；（2）全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；（3）搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。（4）paddle模式：利用Paddle深度学习框架，训练序...

2020-08-04 15:53:04 2708

原创 bert模型中的[CLS]、[UNK]、[SEP]是什么意思？

BERT 的输入可以包含一个句子对 (句子 A 和句子 B)，也可以是单个句子。同时 BERT 增加了一些有特殊作用的标志位：[CLS] 标志放在第一个句子的首位，经过 BERT 得到的的表征向量 C 可以用于后续的分类任务。[SEP] 标志用于分开两个输入句子，例如输入句子 A 和 B，要在句子 A，B 后面增加 [SEP] 标志。[MASK] 标志用于遮盖句子中的一些单词，将单词用 [MASK] 遮盖之后，再利用 BERT 输出的 [MASK] 向量预测单词是什么。参考链接...

2020-08-04 15:42:10 25930 6

原创 word,tag = line.strip().split()报错

原语句：word,tag = line.strip('\n').split()报错：ValueError: too many values to unpack (expected 2)解决方法：改为: v = line.strip('\n').split() word = v[0] tag = v[1]

2020-06-03 22:39:00 1895 4

原创 keras 多输入单输出报错ValueError: Error when checking model input: the list of Numpy arrays that you are

解决方法：将modelll.fit([x_train,x_train], y_train, validation_data=(x_val, y_val),epochs=10, batch_size=64)改成：modelll.fit([x_train,x_train], y_train, validation_data=([x_val,x_val], y_val),epochs=10, batch_size=64)参考博客

2020-05-31 15:42:55 2420

原创 bert模型训练时的一些问题及解决方法

报错：ModuleNotFoundError: No module named 'tensorflow.python.training.checkpointable' 解决办法：将tensorflow-gpu的版本从2.x降到1.13.1pip uninstall tensorflow-gpupip install tensorflow-gpu==1.13.1...

2020-04-24 18:20:06 2987 1

原创 python学习之正则表达式匹配

元字符：. 匹配除换行符以外的任意字符\w 匹配字母、数字、下划线或汉字\s 匹配任意的空白符\d 匹配数字\b 匹配单词的开始或结束^ 匹配字符串的开始$ 匹配字符串的结束限定符：*重复零次或多次+重复一次或多次？重复零次或一次{n} 重复n次{n，} 重复n次或更多次数{n，m} 重复n到m次反义代码：\W 匹配任意不是字母、数字、下划线或汉字的字符\S 匹...

2020-04-22 09:16:57 399

原创 Ppython学习之无法import同一目录下的模块

在同一目录下明明存在相应的文件，但是导入时却出现红线，把鼠标放在红线的位置，提示No module named xxx，提示说不存在相应的模块。解决方法：将鼠标放在当前文件夹上，点击右键，找到Mark Directory as，再选择Sources Root点击解决好啦！注：Mark Directory as Sources Root 之后，如果换了一个工程文件，去打包成可执行文件...

2020-04-21 21:15:26 2611 2

原创 python学习之strip()函数

strip() 方法用于移除字符串头尾指定的字符（默认为空格）strip()方法语法：str.strip([chars]);参数：chars ：移除字符串头尾指定的字符返回值：返回移除字符串头尾指定的字符生成的新字符串实例：>>> str = "000000 jbjadjaio 000000">>> print(str.strip('0...

2020-04-11 21:12:25 147

原创 python学习之文件/目录方法（未完待续）

os.getcwd() 方法用于返回当前工作目录语法格式如下：os.getcwd()，返回当前进程的工作目录。例如：>>> print("当前工作目录是：%s"%os.getcwd())当前工作目录是：C:\Users\ZXHos.chdir() 方法用于改变当前工作目录到指定路径语法格式如下：os.chdir(path)，如果允许访问返回 True , 否则返回F...

2020-04-11 15:48:47 127

原创 python学习之os.listdir()函数

os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。它不包括 . 和 … 即使它在文件夹中。语法格式：os.listdir(path)，path是需要列出的目录路径例如：import os, sys#打开文件path = "/var/www/html/"dirs = os.listdir( path )#输出所有文件和文件夹for file in ...

2020-04-10 11:42:17 870

原创 python学习之list(set())函数

list(set())函数：对原列表去重并按从小到大排序例如：a = ['f','s',3,3,4,2,'d',4,5,6,1]a = list(set(a))print(a)[1, 2, 3, 4, 5, 6, 'd', 'f', 's']原理：set(a)将列表a转换为集合，集合是一个包含不重复元素的无序序列，然后再使用list将集合转换为列表若要实现不改变原来顺序，则应再增加...

2020-04-10 11:25:52 21044 2

原创 python学习之os.path.join()函数

os.path.join()函数：连接两个或更多的路径名组件，用于拼接文件路径1.如果各组件名首字母不包含’/’，则函数会自动加上；2.如果有一个组件是一个绝对路径，则在它之前的所有组件均会被舍弃，即会从第一个以”/”开头的参数开始拼接，之前的参数全部丢弃。在这个前提下，若出现”./”开头的参数，会从”./”开头的参数的上一个参数开始拼接。3.如果最后一个组件为空，则生成的路径以一个’/’分...

2020-04-10 11:04:24 402

原创 python学习之导入tensorflow模块时的ImportError: DLL load failed解决办法

使用pip install tensorflow命令后，在cmd下进入python环境后运行如下代码：import tensorflow as tfh = tf.constant('Hello Tensorflow!')s = tf.Session()print(s.run(h))发现出现错误提示：ImportError: DLL load failed，如下图所示：解决办法：打开...

2020-04-06 13:37:59 571

原创 python学习之Git镜像快速下载

因为要使用pip install keras_contrib命令导入keras_contrib这个包，但是报错无法找到相应的版本：Could not find a version that satisfies the requirement keras_contrib (from versions: )No matching distribution found for keras_contr...

2020-04-06 10:55:31 717

原创 python学习之pip安装.whl文件步骤

1、下载.whl文件到python.exe所在的Scripts目录下，下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/2、添加环境变量：在系统变量的path下添加Scripts目录的路径并保存3 、以管理员身份运行 cmd，pip install 文件名.whl例：pip install F:\Anaconda\Scripts\numpy...

2020-04-05 14:26:26 2475

原创 python学习之UnicodeDecodeError与UnicodeEecodeError解决办法

1. 提示"UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 205: illegal multibyte sequence”gbk“编解码器无法解码位置205中的字节0x80:非法的多字节序列原程序为： for line in open(label_filepath):解决办法：将open方式改为：f...

2020-04-04 22:04:21 1661 2

原创面向非结构化数据的知识抽取笔记

实体抽取：关系抽取：其中：例如：构建监督学习：弱监督学习：事件抽取：

2020-04-02 11:48:32 540

原创可复用的本体库

Ontolingua本体库（http://www.ksl.stanford.edu/software/ontolingua/）DAML本体库（http://www.daml.org/ontologies/）还有许多公开可用的商业本体：UNSPSC（www.unspsc.org）RosettaNet（www.rosettanet.org）DMOZ（www.dmoz.org）...

2020-03-28 19:28:13 1194 2

原创知识图谱学习（二）（笔记整理）

知识图谱的整体架构：构建知识图谱是一个迭代更新的过程，，每一轮迭代包含以下三个阶段：1. 信息抽取：从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达；2. 知识融合：在获得新知识之后，需要对其进行整合，以消除矛盾和歧义，比如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等；3. 知识加工：对于经过融合的新知识，需要经过质量评估之后（部...

2020-03-27 14:21:39 940

原创任务三：面向中文电子病历的医疗实体及事件抽取

任务记录：2020.03.21导师让了解任务三本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续，在CCKS 2017，2018, 2019相关评测任务的基础上进行了延伸和拓展。本任务包括两个子任务：（1）医疗命名实体识别：于给定的一组电子病历纯文本文档，识别并抽取出与医学临床相关的实体提及（entity mention），并将它们归类到预定义类别（pre-defined ca...

2020-03-24 18:49:32 3803 51

原创使用neo4j时踩过的坑

一、powershell命令提示符出现“不是内部或外部命令，也不是可运行的程序或批处理文件解决办法：在环境变量path后添加上powershell的路径（C:\Windows\System32\WindowsPowerShell\v1.0），然后重新打开cmd运行命令即可二、输入命令显示Could not find java at C:\Program Files\Java\jdk-10.0...

2020-03-21 16:26:38 3114

原创 python学习之安装py2neo的ReadTimeoutError解决办法

pip安装py2neo时出现了pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host=‘files.pythonhosted.org’, port=443): Read timed out.错误提示，如下图：解决方法：设置超时时间pip --default-timeout=100 install ...

2020-03-19 15:21:29 492

原创利用protégé构建简单本体

1、构建类点击 Entities，进入本体编辑界面；选择 Classes标签，右键点击owl: Thing，选择 Add Subclasses…，在出现的对话框中Name标签后输入类的名字，点击确定；在 Classes页面点击一个类名，在 Protege右侧 Description部分修改跟该类相关的属性值2、构建子类在”人物“上点击右键，选择Add subclass…；在弹出的对话...

2020-03-18 10:40:33 5406

原创本体调研

1.1本体概念本体是用于描述一个领域的术语集合，其组织结构是层次结构化的，可以作为一个知识库的骨架和基础。本体不等同于个体，它是相应领域内公认的概念集合。1.2 本体分类（1）顶层本体：研究通用概念以及概念之间的关系，如空间、时间、事件等，与具体应用无关，完全独立于限定领域，因此可以在较大范围内进行共享。（2）领域本体：研究的是特定领域内概念及概念之间的关系。（3）任务本体：定义一...

2020-03-15 20:55:52 1128

原创 BERT调研

1. 什么是BRET？BERT(Bidirectional Encoder Representation from Transformers,基于变压器的双向编码器表示)，是一个深度双向表示预训练模型，能够更深层次地提取文本的语义信息。2. BERT的特点①双向Transforms当前在NLP领域，Word2vec是使用最广泛的词向量训练工具。但 Word2vec是通过窗口进行工作的，所“...

2020-03-12 19:56:24 376

原创 A*算法

**原理**A*（A-Star)算法是一种静态路网中求解最短路最有效的方法。A算法的公式表示为： f(n)=g(n)+h(n), 其中 f(n) 是从初始点经由节点n到目标点的估价函数，g(n) 是在状态空间中从初始节点到n节点的实际代价，h(n) 是从n到目标节点最佳路径的估计代价。如果对A算法（全局择优）中的g(n)和h(n)分别提出如下限制：①g(n)是对最小代价g(n)的估计，且...

2020-02-13 17:36:12 1924

原创简单了解最大似然估计

最大似然估计是机器学习领域最为常见的用来构建目标函数的方法。它的核心思想是根据观测到的结果来预测其中的未知参数。我们举一个投掷硬币的例子。假设有一枚硬币，它是不均匀的，也就是说出现正面的反面的概率是不同的。假设我们设定这枚硬币出现正面的概率为θ , 这里指的是正面(head), 类似的还会有反面（tail）。假设我们投掷6次之后得到了以下的结果，而且我们假定每次投掷都是相互独立的事件：D=...

2020-02-13 16:57:37 329

原创知识图谱学习（一）（笔记整理）

本篇来自于文章《从技术实现到产品落地，“知识图谱”的未来还有多远？》（自己的一些笔记）知识图谱学习（一）一、组成部分知识图谱大致可分为六部分，依次为：知识建模、知识获取、知识融合、知识存储、知识计算、知识应用二、知识图谱的架构共分为两种：逻辑架构和技术架构-逻辑架构数据层：是逻辑架构的底层，用来存储真实的节点数据与关系数据。模式层：模式层在数据层之上，存储提炼过的数据，通过本体...

2019-12-31 14:32:26 3664

ccks2020数据集.rar

知识图谱总结资料.pptx

空空如也