blmoistawinde-CSDN博客

原创 HarvestText

HarvestTextSow with little data seed, harvest much from a text field.播撒几多种子词，收获万千领域实用途HarvestText是一个基于少量种子词和背景知识完成一些领域自适应文本挖掘任务（如新词发现、情感分析、实体链接等）的工具。在很多领域文本分析中，我们往往已经了解其中的一些关键词语或实体，例如小说文本分析中的人...

2019-01-04 15:54:43 4375 17

在科研中，有时看到两个研究类似问题的工作，会希望看看是否有后续工作对二者进行了比较和评价。比如，我听说XLNet和RoBERTa是两个很牛的预训练模型，但不知道他们孰强孰弱。那我们就想找找同时引用了它们的论文，看看别人是怎么评价比较他们的？然而，Google Scholar这类的流行的搜索引擎并不直接提供找到同时引用了两篇特定文章A,B的论文，这样的搜索功能，那么我们怎么实现这一点呢？在StackExchange的讨论中，高赞回答提供的解决方案是，从A的引文中，再搜索B的标题，然后看看得到的结果。因为一般

2021-06-22 20:57:16 1234 1

原创使用huggingface全家桶(transformers, datasets)实现一条龙BERT训练(trainer)和预测(pipeline)

使用huggingface全家桶(transformers, datasets)实现一条龙BERT训练(trainer)和预测(pipeline)huggingface的transformers在我写下本文时已有39.5k star，可能是目前最流行的深度学习库了，而这家机构又提供了datasets这个库，帮助快速获取和处理数据。这一套全家桶使得整个使用BERT类模型机器学习流程变得前所未有的简单。不过，目前我在网上没有发现比较简单的关于整个一套全家桶的使用教程。所以写下此文，希望帮助更多人快速上手。

2021-01-16 16:24:55 8828 4

原创 conceptnet-numberbatch: 结合常识知识的词向量 - 概述及使用

在NLP领域，常识知识的使用越发成为热点，因为其有希望帮助克服现有模型的局限：它们仅从训练数据中学到的有偏的、浅薄的知识，而并不擅长像人一样进行真正的推理。常识知识的表示形式有很多：有的是以图的形式，如ConceptNet；有的是以模型的形式，如COMET；而本文要介绍的应该是其中比较易于使用的一种，词向量形式。其代表是conceptnet-numberbatch。简介ConceptNet Numberbatch 是一组词向量，可以直接以向量形式表达词的语义。它是ConceptNet开源项目的一部分

2020-11-26 21:21:32 1649

原创 Resolver error: Error: The VS Code Server failed to start 的一种解决方案

解决方案：打开VS Code菜单"View"->“Command Palatte”->“Kill VS Code Server on Host”选择出问题的远程服务器杀掉那个上面的VS Code server。然后重新尝试登陆参考：https://github.com/microsoft/vscode-remote-release/issues/2049另外，提供我的问题发生背景，仅供参考：某次服务器的硬盘爆满了，然后VS Code Remote就无法登陆这个服务器，并且弹出Res

2020-11-19 19:46:31 16756 14

原创交大ADAPT实验室 | 常识知识论文列表

近年来，常识知识(commonsense knowledge)越发成为NLP领域，乃至多模态，跨学科的研究热点。尽管以BERT为代表的的预训练语言模型已经在实体识别、机器翻译、情感分析等任务上取得了亮眼的表现，它们在面对一些人类可以使用常识轻易解决的问题时仍然表现不佳，面对对抗样本时也极为脆弱。似乎这些模型知识只是学到了一些浅层线索和语义，而与人类的知识体系并不相同。因此，将常识知识融入机器学习中就成为了一个充满前景的解决方案。不过，如何抽取常识知识，如何利用常识知识，乃至如何定义“常识本身”依然是有待研究

2020-11-16 15:06:16 1325

原创准备考试？python也能帮你划重点，上考场（误）

打开查分界面，我看到我的“中国近现代史纲要”一栏露出了难看的脸色。这时，一个程序突然自告奋勇：“不就是这种简单的考试吗？让我学一下你们的课本，我也能够上考场！”我把我的课本文本输入给它。不到一分钟以后，它对我说：“我学完了，来考我吧。”虽然也只是在考前突击了两天，但我对它如此之快的速度还是深感嫉妒。我问：“你知道孙中山先生都干了哪些事情吗？”“发动护法运动、就任临时大总统、让位于袁世凯”...

2020-07-23 20:33:09 1236

原创 tensorflow/pytorch临时指定CUDA版本，解决版本适配问题

经典的深度学习引擎，如tensorflow和pytorch，其自身版本与CUDA版本有着严格的对应关系，一点点的不符都会使得程序无法运行。例如，我目前的默认CUDA==10.2，现在需要跑tensorflow-gpu==1.13.1的代码（要求CUDA==10.0），就会报出这样的错误：ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory由于复现实验时，原始代码的tensor

2020-06-20 17:54:01 2752

原创 AI/机器学习常用公式的LaTex代码汇总

在写AI/机器学习相关的论文或者博客的时候经常需要用到LaTex的公式，然而作为资深“伸手党”的我在网上搜索的时候，居然没有找到相关现成资源@-@那么，我就把自己经常会遇到的公式整理如下，以NLP和一些通用指标函数为主。有需要的可以自取，当然发现有问题或者遗漏的也欢迎指正和补充。（我同步到了Github上( https://github.com/blmoistawinde/ml_equations_latex )，欢迎提issue和PR，当然还有star~）Classical ML Equations

2020-05-21 15:49:40 3325

空空如也

空空如也