自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Mac M1芯片安装sentence-transformers报错:Failed to find sentencepiece pkg-config解决方法

Mac M1芯片安装sentence-transformers报错:Failed to find sentencepiece pkg-config解决方法

2022-07-11 20:27:15 892 1

原创 Mac M1芯片安装李沐深度学习包d2l

踩了无数坑,总结出来的首先安装miniforge,注意miniforge的版本,这里有很多教程,可以搜索mac M1 miniforge安装然后创建虚拟环境:conda create -n d2l python=3.8conda info --envconda activate d2l安装torch,torchvision等包conda install pytorch torchvision -c pytorch在尝试安装d2l时:pip install d2l出

2022-05-30 16:45:08 2613 11

原创 主题模型:LDA原理详解与应用

LDA算法简介:LDA是一种基于贝叶斯思想的无监督的聚类算法,广泛用于文本聚类,文本分析,文本关键词等场景。具体的,算法 的输入是一个文档的集合D={d1, d2, d3, ... , dn},同时还需要主题Topic的类别数量m;然后会算法会将每一篇文档 di 在 所有Topic上的一个概率值p;这样每篇文档都会得到一个概率的集合di=(dp1,dp2,..., dpm), 表示文档di在m个topic上的概率值;同样的文档中的所有词也会求出 它对应每个Topic的概率,wi = (wp1,wp2,w

2022-05-05 21:43:17 22696

原创 MacOS M1配置Java环境踩坑

前言M1的Mac使用的是ARM架构,很以往的x64架构的区别很大。对程序猿来说,最大的区别就是各种环境可能装不上了,或者兼容性很差。就Java环境来说,Zulu的JDK是支持M1版本的Mac,本篇记录具体的配置过程。配置过程1. 下载Zulu SDK这里选择的是经典JDK 1.8下载地址:https://www.azul.com/downloads选择所需的JDK版本(注意选择ARM架构)=> 下载.dmg包 => 安装:Zulu JDK默认安装在/Librar

2022-04-27 20:43:54 2004

原创 解决方案:python3.8 安装transformer包时报错:Can not find Rust compiler

错误详情:ERROR: Command errored out with exit status 1: command: '/Users/XXX/...' '/Users/XXX/..._in_process.py' build_wheel '/Users/XXX/...' cwd: /Users/XXX/.../pip-install-sza2_lmj\tokenizers Complete output (10 lines): running bdist_wheel

2022-04-25 20:55:42 2812

原创 同义词抽取:从知识库中自动发现同义词的方法

原论文:《Automatic Synonym Discovery with Knowledge Bases》背景知识同义词抽取是一种NLP领域下游任务使用广泛的基础任务,可以用于实体归一、融合,实体链接,query改写,提高召回等任务。现有的方法有:1)直接利用Freebase, WordNet等知识库直接扩充,但这对于领域的实体覆盖率很低;2)人工维护同义词典,成本非常高;3)监督/弱监督方法,训练一个同义词分类器,检测出固定的句式pattern来挖掘同义词,但也需要依赖人工精细的选择一些种子训练

2022-04-19 21:38:09 1436

原创 电商领域知识图谱:常识抽取,表示与应用

原文标题:《AliCoCo2: Commonsense Knowledge Extraction, Representation and Application in E-commerce》背景在网购时,消费者会输入query检索自己想要的商品,在人的主观意识中,搜索query隐含着许多常识性的知识,比如“天气转凉时需要穿更厚更保暖的衣服”,“商务风格的衬衫通常的立领的”,“孕妇需要防滑的鞋子和防辐射的衣服”等。人的这些常识往往来源于生活经验,但这些常识很难被机器学习到,AliCoCo2的一部分工作

2022-04-14 14:39:54 1117

原创 git基础学习

git使用方法创建版本库首先,选择一个合适的地方,创建一个空目录:$ mkdir learngit$ cd learngit$ pwd/Users/limingyu/learngit$ git initInitialized empty Git repository in /Users/michael/learngit/.git/$ git add readme.txt$ git commit -m "wrote a readme file"[master (roo

2021-06-15 17:38:05 130

原创 Docker基础概念及使用

基本概念: container 容器。可以把每个 container 看做是一个独立的主机。 container 的创建通常有一个 image 作为其模板。类比成虚拟机的话可以理解为 image 就是虚拟机的镜像,而 container 就是一个个正在运行的虚拟机。一个虚拟机镜像可以创建出多个运行的虚拟主机且相互独立。 注意:container 一旦创建如果没有用 rm 命令移除,将会一直存在。所以用完后记得删除哦。 image 镜像。image 相当于 container 的模板,co

2021-06-15 16:26:50 87

原创 关系抽取新SOTA: 《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》论文笔记

一、前言关系抽取作为知识图谱三元组抽取任务中最最重要的算法,一直受到工业界和学术界的广泛研究。关系抽取任务要做的是识别文本中的实体,并对相应的实体词预测正确的关系。其主要可以归纳为两种主要的技术框架:1. pipeline方式的抽取:即先抽取实体,在预测已抽取实体之间存在的关系2. joint方式的抽取:即实体和关系的联合抽取模式由于pipeline抽取方法存在的误差积累、冗余实体计算、实体关系抽取任务交互缺失等问题,近些年来的SOTA模型的关注点都在于各类joint模型的改造,如共享参数的

2021-04-27 14:16:01 1164

原创 知识图谱表示学习中的评价指标

一、Mean Rank方法:对于每个评测三元组,移去头部实体(迭代的方式替换尾部实体)、轮流替换成词表中的其他实体,构建错误的三元组实体。利用关系函数计算头部实体和尾部实体的相似度。对于这个相似度来讲,正确的三元组的值应该比较小,而错误样本的相似度值会比较大。用关系函数对所有的三元组(包括正确的三元组和错误的三元组)进行计算,并按照升序排序。并找出所有正确三元组在该排序中的排名位置做平均。对于一个好的知识图谱表示来说,正确三元组的得分(即头部实体和尾部实体的关系函数值)会小于错误三元组的得分,排名会

2021-04-26 12:02:07 1641

原创 利用栈的统一框架二叉树的三种遍历方式

在树的深度优先遍历中(包括前序、中序、后序遍历),递归方法最为直观易懂,但考虑到效率,我们通常不推荐使用递归。栈迭代方法虽然提高了效率,但其嵌套循环却非常烧脑,不易理解,容易造成“一看就懂,一写就废”的窘况。而且对于不同的遍历顺序(前序、中序、后序),循环结构差异很大,更增加了记忆负担。因此,我在这里介绍一种“颜色标记法”(瞎起的名字……),兼具栈迭代方法的高效,又像递归方法一样简洁易懂,更重要的是,这种方法对于前序、中序、后序遍历,能够写出完全一致的代码。其核心思想如下:使用颜色标记节点的

2021-04-12 21:47:04 136

原创 用自己的数据增量训练预训练语言模型

预训练模型给各类NLP任务的性能带来了巨大的提升,预训练模型通常是在通用领域的大规模文本上进行训练的。而很多场景下,使用预训练语言模型的下游任务是某些特定场景,如金融,法律等。这是如果可以用这些垂直领域的语料继续训练原始的预训练模型,对于下游任务往往会有更大的提升。以BERT为例,利用huggingface的tranformers介绍一下再训练的方式:1. 定义tokenizerbert的预训练模式一般分为,Masked language model (MLM)与 next sentence p

2021-04-08 19:09:51 4660 4

原创 Pytorch-lightning学习

pytorch-lightning 是建立在pytorch之上的高层次模型接口。pytorch-lightning 之于 pytorch,就如同keras之于 tensorflow。通过使用 pytorch-lightning,用户无需编写自定义训练循环就可以非常简洁地在CPU、单GPU、多GPU、乃至多TPU上训练模型。无需考虑模型和数据在cpu,cuda之间的移动,并且可以通过回调函数实现CheckPoint参数保存,实现断点续训功能。一般按照如下方式 安装和 引入 pytorch-li

2021-04-08 16:39:02 3890 1

原创 论文笔记:Enhancing Pre-trained Chinese Character Representation with Word-aligned Attention

1. 概述目前,很多NLP算法大多采用主流的预训练模型+下游任务微调这样的算法架构。预训练模型种类繁多,如下图用的最多的莫过于大名鼎鼎的BERT预训练模型,同样是基于Pre-training和Fine-tuning模式架构的不管啥模型,第一件事都是 tokenizer。对于 BERT 来说,英文的 token 是 word-piece,中文的是字(这也对后面的实验造成了很大的麻烦,因为要对齐)。而且已经有相当多的工作证明了,对于中文在 character-level 建模会比较合适(香侬

2020-10-20 15:29:45 994

原创 论文笔记:Chinese NER Using Lattice LSTM

概述:目前,英文NER:效果最佳的模型是 LSTM-CRF(Lample et al., 2016; Ma and Hovy, 2016; Chiu and Nichols, 2016; Liu et al., 2018)。中文 NER:也可以使用这种模型,但是中文NER和分词相关,执行中文 NER 的一种直观方式是先执行分词,然后再应用词序列标注。基于character-level的LSTM-CRF无法利用句子中的单词word信息。charNER的缺点:明确的word和word sequenc

2020-10-19 12:08:16 1131

原创 pycharm远程连接到docker中的用户目录

在利用pycharm进行算法开发时,经常需要在服务器的GPU上运行代码,而对于不同的项目,环境配置、运行依赖往往不同,这时需要用到docker为每个项目创建该项目私有的容器来运行代码。而服务器一般又都是共用的,跑代码的时候需要知道运行者是谁,这样就不能用root账户进行需要在服务器上创建自己的用户。这样一来,就需要我们使用pycharm远程连接到docker的个人用户目录下。这篇文档主要记录如何配置pycharm+docker中的个人用户目录。主要参考知乎文章:PyCharm+Docker:打造最舒

2020-09-15 18:14:42 238 1

原创 Mac利用pip安装allennlp包方法,及安装jsonnet时g++报错解决方法

mac系统利用pip安装allennlp包时,输入如下代码pip install allennlp --user然后运行到安装jsonnet包时发生错误Building wheels for collected packages: jsonnet Building wheel for jsonnet (setup.py) ... error ERROR: Complete output from command /usr/local/anaconda3/envs/allennlp/b

2020-07-29 16:34:31 1536

原创 远程使用tensorboard在本地可视化服务器上Docker中的训练模型

1 . 连接ssh时,将服务器的6006端口重定向到自己机器上来: ssh -L 16006:127.0.0.1:6006 username@remote_server_ip -p docker port或者:ssh -L 8008:localhost:6006 用户名@远程服务器ip其中:16006:127.0.0.1代表自己机器上的16006号端口,6006是服务器上tensorboard使用的端口。2.在服务器上使用6006端口正常启动tensorboard:tensorboa.

2020-05-29 09:19:51 691

原创 Linux服务器上利用docker配置python扩展包pyhanlp

1、选择一个合适的基本镜像,可以带基本的python3.6,C++环境gcc,java SDK等,这样就不需要后面在容器中再安装了docker拉镜像的命令docker pull [OPTIONS] NAME[:TAG|@DIGEST]docker pull 镜像链接:版本号2、参考上一篇博文安装各类扩展包,包括TensorFlow,jpype1,这里使用pip安装就可以上一...

2020-04-01 12:04:37 518

原创 Python利用xlwt, xlrd, xlutils实现对同一个Excel同时读写的功能

在利用Python处理Excel文件的时候,经常会遇到要读取某一个单元格的数据,经过程序处理得到新数据,想把新数据插入到同一个Excel的下一列的任务。不想新建一个Excel表格,只想在同一文件上进行数据存取插入。 这时可以利用Python提供的Excel工具包模块xlwt, xlrd, xlutils实现上述功能。 import xlwtimport xlrd...

2020-03-13 13:20:08 1558 3

原创 mac环境下python3.6安装pyhanlp工具包

pyhanlp是基于Java开发的自然语言处理工具包,由于我整个工程是基于Python写的,在安装pynlp时踩了很多坑,记录下来给其他需要的人一个参考。1. 升级TensorFlow到指定版本pip install tensorflow==版本号 -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com...

2020-02-24 11:45:30 626

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除