爱吃腰果的李小明-CSDN博客

原创 Mac M1芯片安装sentence-transformers报错：Failed to find sentencepiece pkg-config解决方法

Mac M1芯片安装sentence-transformers报错：Failed to find sentencepiece pkg-config解决方法

2022-07-11 20:27:15 892 1

原创 Mac M1芯片安装李沐深度学习包d2l

踩了无数坑，总结出来的首先安装miniforge,注意miniforge的版本，这里有很多教程，可以搜索mac M1 miniforge安装然后创建虚拟环境：conda create -n d2l python=3.8conda info --envconda activate d2l安装torch，torchvision等包conda install pytorch torchvision -c pytorch在尝试安装d2l时：pip install d2l出

2022-05-30 16:45:08 2613 11

原创主题模型：LDA原理详解与应用

LDA算法简介：LDA是一种基于贝叶斯思想的无监督的聚类算法，广泛用于文本聚类，文本分析，文本关键词等场景。具体的，算法的输入是一个文档的集合D={d1, d2, d3, ... , dn}，同时还需要主题Topic的类别数量m；然后会算法会将每一篇文档 di 在所有Topic上的一个概率值p；这样每篇文档都会得到一个概率的集合di=(dp1，dp2，..., dpm), 表示文档di在m个topic上的概率值；同样的文档中的所有词也会求出它对应每个Topic的概率，wi = （wp1，wp2，w

2022-05-05 21:43:17 22696

原创 MacOS M1配置Java环境踩坑

前言M1的Mac使用的是ARM架构，很以往的x64架构的区别很大。对程序猿来说，最大的区别就是各种环境可能装不上了，或者兼容性很差。就Java环境来说，Zulu的JDK是支持M1版本的Mac，本篇记录具体的配置过程。配置过程1. 下载Zulu SDK这里选择的是经典JDK 1.8下载地址：https://www.azul.com/downloads选择所需的JDK版本（注意选择ARM架构）=> 下载.dmg包 => 安装：Zulu JDK默认安装在/Librar

2022-04-27 20:43:54 2004

原创解决方案：python3.8 安装transformer包时报错：Can not find Rust compiler

错误详情：ERROR: Command errored out with exit status 1: command: '/Users/XXX/...' '/Users/XXX/..._in_process.py' build_wheel '/Users/XXX/...' cwd: /Users/XXX/.../pip-install-sza2_lmj\tokenizers Complete output (10 lines): running bdist_wheel

2022-04-25 20:55:42 2812

原创同义词抽取：从知识库中自动发现同义词的方法

原论文：《Automatic Synonym Discovery with Knowledge Bases》背景知识同义词抽取是一种NLP领域下游任务使用广泛的基础任务，可以用于实体归一、融合，实体链接，query改写，提高召回等任务。现有的方法有：1）直接利用Freebase, WordNet等知识库直接扩充，但这对于领域的实体覆盖率很低；2）人工维护同义词典，成本非常高；3）监督/弱监督方法，训练一个同义词分类器，检测出固定的句式pattern来挖掘同义词，但也需要依赖人工精细的选择一些种子训练

2022-04-19 21:38:09 1436

原创电商领域知识图谱：常识抽取，表示与应用

原文标题：《AliCoCo2: Commonsense Knowledge Extraction, Representation and Application in E-commerce》背景在网购时，消费者会输入query检索自己想要的商品，在人的主观意识中，搜索query隐含着许多常识性的知识，比如“天气转凉时需要穿更厚更保暖的衣服”，“商务风格的衬衫通常的立领的”，“孕妇需要防滑的鞋子和防辐射的衣服”等。人的这些常识往往来源于生活经验，但这些常识很难被机器学习到，AliCoCo2的一部分工作

2022-04-14 14:39:54 1117

原创 git基础学习

git使用方法创建版本库首先，选择一个合适的地方，创建一个空目录：$ mkdir learngit$ cd learngit$ pwd/Users/limingyu/learngit$ git initInitialized empty Git repository in /Users/michael/learngit/.git/$ git add readme.txt$ git commit -m "wrote a readme file"[master (roo

2021-06-15 17:38:05 130

原创 Docker基础概念及使用

基本概念： container 容器。可以把每个 container 看做是一个独立的主机。 container 的创建通常有一个 image 作为其模板。类比成虚拟机的话可以理解为 image 就是虚拟机的镜像，而 container 就是一个个正在运行的虚拟机。一个虚拟机镜像可以创建出多个运行的虚拟主机且相互独立。注意：container 一旦创建如果没有用 rm 命令移除，将会一直存在。所以用完后记得删除哦。 image 镜像。image 相当于 container 的模板，co

2021-06-15 16:26:50 87

原创关系抽取新SOTA: 《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》论文笔记

一、前言关系抽取作为知识图谱三元组抽取任务中最最重要的算法，一直受到工业界和学术界的广泛研究。关系抽取任务要做的是识别文本中的实体，并对相应的实体词预测正确的关系。其主要可以归纳为两种主要的技术框架：1. pipeline方式的抽取：即先抽取实体，在预测已抽取实体之间存在的关系2. joint方式的抽取：即实体和关系的联合抽取模式由于pipeline抽取方法存在的误差积累、冗余实体计算、实体关系抽取任务交互缺失等问题，近些年来的SOTA模型的关注点都在于各类joint模型的改造，如共享参数的

2021-04-27 14:16:01 1164

原创知识图谱表示学习中的评价指标

一、Mean Rank方法：对于每个评测三元组，移去头部实体（迭代的方式替换尾部实体）、轮流替换成词表中的其他实体，构建错误的三元组实体。利用关系函数计算头部实体和尾部实体的相似度。对于这个相似度来讲，正确的三元组的值应该比较小，而错误样本的相似度值会比较大。用关系函数对所有的三元组（包括正确的三元组和错误的三元组）进行计算，并按照升序排序。并找出所有正确三元组在该排序中的排名位置做平均。对于一个好的知识图谱表示来说，正确三元组的得分（即头部实体和尾部实体的关系函数值）会小于错误三元组的得分，排名会

2021-04-26 12:02:07 1641

原创利用栈的统一框架二叉树的三种遍历方式

在树的深度优先遍历中（包括前序、中序、后序遍历），递归方法最为直观易懂，但考虑到效率，我们通常不推荐使用递归。栈迭代方法虽然提高了效率，但其嵌套循环却非常烧脑，不易理解，容易造成“一看就懂，一写就废”的窘况。而且对于不同的遍历顺序（前序、中序、后序），循环结构差异很大，更增加了记忆负担。因此，我在这里介绍一种“颜色标记法”（瞎起的名字……），兼具栈迭代方法的高效，又像递归方法一样简洁易懂，更重要的是，这种方法对于前序、中序、后序遍历，能够写出完全一致的代码。其核心思想如下：使用颜色标记节点的

2021-04-12 21:47:04 136

原创用自己的数据增量训练预训练语言模型

预训练模型给各类NLP任务的性能带来了巨大的提升，预训练模型通常是在通用领域的大规模文本上进行训练的。而很多场景下，使用预训练语言模型的下游任务是某些特定场景，如金融，法律等。这是如果可以用这些垂直领域的语料继续训练原始的预训练模型，对于下游任务往往会有更大的提升。以BERT为例，利用huggingface的tranformers介绍一下再训练的方式：1. 定义tokenizerbert的预训练模式一般分为，Masked language model (MLM)与 next sentence p

2021-04-08 19:09:51 4660 4

原创 Pytorch-lightning学习

pytorch-lightning 是建立在pytorch之上的高层次模型接口。pytorch-lightning 之于 pytorch，就如同keras之于 tensorflow。通过使用 pytorch-lightning，用户无需编写自定义训练循环就可以非常简洁地在CPU、单GPU、多GPU、乃至多TPU上训练模型。无需考虑模型和数据在cpu,cuda之间的移动，并且可以通过回调函数实现CheckPoint参数保存，实现断点续训功能。一般按照如下方式安装和引入 pytorch-li

2021-04-08 16:39:02 3890 1

原创论文笔记：Enhancing Pre-trained Chinese Character Representation with Word-aligned Attention

1. 概述目前，很多NLP算法大多采用主流的预训练模型+下游任务微调这样的算法架构。预训练模型种类繁多，如下图用的最多的莫过于大名鼎鼎的BERT预训练模型，同样是基于Pre-training和Fine-tuning模式架构的不管啥模型，第一件事都是 tokenizer。对于 BERT 来说，英文的 token 是 word-piece，中文的是字（这也对后面的实验造成了很大的麻烦，因为要对齐）。而且已经有相当多的工作证明了，对于中文在 character-level 建模会比较合适（香侬

2020-10-20 15:29:45 994

原创论文笔记：Chinese NER Using Lattice LSTM

概述：目前，英文NER：效果最佳的模型是 LSTM-CRF（Lample et al., 2016; Ma and Hovy, 2016; Chiu and Nichols, 2016; Liu et al., 2018）。中文 NER：也可以使用这种模型，但是中文NER和分词相关，执行中文 NER 的一种直观方式是先执行分词，然后再应用词序列标注。基于character-level的LSTM-CRF无法利用句子中的单词word信息。charNER的缺点：明确的word和word sequenc

2020-10-19 12:08:16 1131

原创 pycharm远程连接到docker中的用户目录

在利用pycharm进行算法开发时，经常需要在服务器的GPU上运行代码，而对于不同的项目，环境配置、运行依赖往往不同，这时需要用到docker为每个项目创建该项目私有的容器来运行代码。而服务器一般又都是共用的，跑代码的时候需要知道运行者是谁，这样就不能用root账户进行需要在服务器上创建自己的用户。这样一来，就需要我们使用pycharm远程连接到docker的个人用户目录下。这篇文档主要记录如何配置pycharm+docker中的个人用户目录。主要参考知乎文章：PyCharm+Docker：打造最舒

2020-09-15 18:14:42 238 1

qq_22472047的博客