cymx66688-CSDN博客

原创吴恩达自然语言处理专项课程一览表(英译中)

1. 介绍由吴恩达主持的NLP课程。网址上面链接打不开，可在B站看，网址计划：先翻译全视频，其次按照课程简要归纳概括，最后自己写总结博客。时间安排：2020-7-6~2020-9-302. 课程内容Course 1: Natural Language Processing with Classification and Vector Spaces课程1：使用分类和词向量的自然语言处理Week 1: Sentiment Analysis with Logistic Regression

2020-07-07 12:59:21 979 2

原创 ProPhet安装没你想象中这么难

prophet包安装

2022-09-26 17:25:57 1223 1

原创推荐系统实战之排序层 - Wide&Deep

Wide&Deep模型翻译成中文就是既宽又深的模型。上图的结构图中，左边部分是Wide，Wide 部分的主要作用是让模型具有较强的"记忆能力"。右边部分是Deep，主要作用是让模型具有"泛化能力"。因为只有这样的结构特点，才能让模型兼具逻辑回归和深度神经网络的优点，也就是既能快速处理和记忆大量历史行为特征，又具有强大的表达能力，这就是 Google 提出这个模型的动机。实战项目中Wide&Deep 模型的 Deep 部分，就沿用了上章节介绍的 Embedding+MLP 的模型结构，来

2021-11-02 16:52:12 335

原创推荐系统实战之排序层- Embedding+MLP

协同过滤算法的基本原理就是"协同大家的反馈、评价和意见一起对海量的信息进行过滤，从中筛选出用户可能感兴趣的信息"。具体执行步骤如下：根据用户行为创建共现矩阵，行代表每个用户对物品的评分或是否观看浏览等行为数据，列代表每个物品在不同用户中的评分情况或是浏览情况。通过共现矩阵计算用户/物品相似度。相似度最常见的是余弦相似度，除此之外还有欧式距离、皮尔逊相关系数。根据相似用户喜欢的物品，或是目标用户浏览物品的相似物品，推荐给目标用户。代码如下：from pyspark import SparkCo

2021-10-27 10:27:20 828 1

原创推荐系统实战之排序层-协同过滤&矩阵分解

协同过滤算法的基本原理就是"协同大家的反馈、评价和意见一起对海量的信息进行过滤，从中筛选出用户可能感兴趣的信息"。具体执行步骤如下：根据用户行为创建共现矩阵，行代表每个用户对物品的评分或是否观看浏览等行为数据，列代表每个物品在不同用户中的评分情况或是浏览情况。通过共现矩阵计算用户/物品相似度。相似度最常见的是余弦相似度，除此之外还有欧式距离、皮尔逊相关系数。根据相似用户喜欢的物品，或是目标用户浏览物品的相似物品，推荐给目标用户。代码如下：from pyspark import SparkCo

2021-10-14 15:58:13 384

原创 macos在m1芯片下安装tensorflow2

网上搜索了大量文章后，将安装过程写下来，也给予其他有同样需求的伙伴一些方法。安装miniforge下载地址： Miniforge3-4.10.3-6-MacOSX-arm64.sh# 先进入miniforge下载的路径中bash Miniforge3-4.10.3-6-MacOSX-arm64.sh安装好后输入conda，没有报错就表明安装成功了。注：anaconda和mini forge可以同时安装，需要进哪些环境，就激活哪个环境的conda。安装依赖建议新建一个虚拟环境安装ten

2021-10-10 17:59:37 468 3

原创推荐系统实战之召回层

今天我们来讲讲召回层。在讲召回层前，先了解下推荐系统的整体组成部分。一个工业级推荐系统的技术架构按照数据部分和模型部分展开，其中“数据和信息”部分逐渐发展为推荐系统中融合了数据离线批处理、实时流处理的数据流框架；“算法和模型”部分则进一步细化为推荐系统中，集训练（Training）、评估（Evaluation）、部署（Deployment）、线上推断（Online Inference）为一体的模型框架。基于此，我们就能总结出推荐系统的技术架构图。其中，在模型部分中最重要的就是召回层和排序层。

2021-10-09 12:31:40 1074

原创推荐系统实战之特征工程

这篇文章我们来讲讲推荐系统中必不可少的特征工程。用户行为数据用户行为在推荐系统中一般分为显性反馈行为（Explicit Feedback）和隐性反馈行为（Implicit Feedback）两种。能够反映用户行为特点的隐性反馈是目前特征挖掘的重点。用户关系数据用户与用户之间可以通过“关注”“好友关系”等连接建立“强关系”，也可以通过“互相点赞”“同处一个社区”，甚至“同看一部电影”建立“弱关系”。一般是通过 Multi-hot 编码的方式将其转换成特征向量，一些重要的属性

2021-09-23 16:43:25 890

原创推荐系统实战之开篇介绍

推荐系统实战系列篇是根据王喆老师在极客时间上的深度学习推荐系统实战课，并结合自己的所学所思所悟创作的，希望该系列可以跟志同道合的朋友一起探讨学习。目录列表推荐系统demo - Sparrow RecsysSparrow Recsys的功能原始数据来源Sparrow Recsys 技术架构推荐系统demo - Sparrow Recsysclone代码安装软件和环境运行推荐系统源代码放在github上 https://github.com/wzhe06/SparrowRecSys，可以通过 g

2021-09-18 14:27:38 240 1

原创 Mac给环境变量起别名

1.打开mac终端。在启动台->其他->终端2.编辑～/.bashrcvi ~/.bashrc3.添加别名alias pip='/Users/用户名/anaconda3/bin/pip'4.激活文件source ~/.bashrc完

2021-04-23 18:02:13 475

原创 mysql中千万级数据迁移

步骤：一、数据下载mysqldump -u [用户名] -h[主机] -P [端口号] -p['密码'] 数据库名称表名> 保存路径如：mysqldump -u dev -h192.168.101.100 -P 3306 -p’123456’ datacenter_dev edu_employment > sql/edu_employment_record.sql二、数据迁移1. 连接MySQLmysql -h[主机] -u[用户名] -P[端口号] -p['密码']2. 连

2021-04-15 10:39:23 387

原创 GPU详细信息

命令：nvidia-smi完

2021-04-15 10:24:42 144

原创 Spark集群中python文件调用命令

调用命令绝对路径/spark2-submit \--master yarn \--executor-memory 5G \--executor-cores 5 \--num-executors 10 \--driver-memory 4G \--conf spark.executor.memoryOverhead=2048 \--conf spark.core.connection.ack.wait.timeout=300 \--conf "spark.executor.extraJ

2021-04-15 10:22:45 227

原创 tmux命令

启动新会话RunScripts ：tmux new -s RunScripts -d恢复会话：tmux a -t RunScripts列出所有会话：tmux ls关闭会话：tmux kill-session -t 会话名关闭所有会话：tmux ls | grep : | cut -d. -f1 | awk ‘{print substr($1, 0, length($1)-1)}’ | xargs kill暂时返回shell界面Ctrl+B+DCtrl+B+% 垂直分割当前窗格Ctr

2021-04-15 10:19:27 109

原创 Jupyter快捷键

Esc + F 在代码中查找、替换，忽略输出。Esc + O 在cell和输出结果间切换。选择多个cell:Shift + J 或 Shift + Down 选择下一个cell。Shift + K 或 Shift + Up 选择上一个cell。一旦选定cell，可以批量删除/拷贝/剪切/粘贴/运行。当你需要移动notebook的一部分时这个很有用。Shift + M 合并cell....

2021-04-13 16:42:26 89

原创将postgresql数据库中的表复制并拷贝至另一台服务器数据库上

一、复制PG数据库中的表，保存到当前服务器上1. 用root用户su - root 密码，然后su - gpadmin2. 进入pg数据库psql 数据库名称3. 拷贝COPY (SELECT * FROM 表名 limit 10000) TO 地址 HEADER CSV;4. 退出按Ctrl+D退出pg数据库二、将表拷贝到另一台服务器的数据库上1. 拷贝到另一台服务器上数据将表放在/tmp中psql -p 端口 -U 用户数据库名称copy 表名 from ‘地址’

2021-04-13 16:04:46 3785

原创使用pip install -r一次性安装多个库（linux环境）

1. 创建虚拟环境python3 –m venv venv(虚拟环境名称) 2. 激活虚拟环境source venv/bin/activate 3. 查看requirements.txt内容（包含需要安装的版本）cat requirements.txt 注：在requirements.txt 文件中写入库对应版本号如：pandas==0.25.3pymysql==0.9.3...4. 安装pip3 install –r requirements.txt –i https://

2021-04-13 13:52:23 1503

原创调用PySpark定义Spark对象

在本地环境中spark = SparkSession.builder \ .master('local[*]') \ .appName('cons_test') \ .config("spark.jars", "E:\postgresql-42.2.18.jar") \ .getOrCreate()在服务器中def def_spark(app_name='common'): from pyspark.sql import.

2021-04-13 09:42:27 232

原创 GP数据库多行合并成一行

问题需求：将开始时间和结束时间连续的多行记录整合成一行。表格：表格名称：testSELECT start_date, end_date FROM ( SELECT start_date, ROW_NUMBER ( ) OVER ( ORDER BY start_date ) arn --设置序列 FROM ( SELECT start_date, LAG ( start_date, 1, DATE'2099-12-31' ) OVER ( ORDER BY

2021-04-12 15:07:16 924

原创算法工程师各种工具安装

工具安装整体流程见下表，不定时更新中。序号内容123

2021-04-01 09:41:37 1484

原创基于原论文的DSSM模型总结

DSSM模型是在2013年10月发表的。原论文见：Learning Deep Structured Semantic Models for Web Search using Clickthrough Data一、现有的语义模型弊端潜在的语义模型（如LSA），是想要把一个查询映射到基于关键词的语义级别的相关的文档中，这样的匹配往往不如人意。在实际生活中，人们往往会使用不同的词汇来表示相同或相似的含义。二、提出的新观点作者提出开发一系列新的具有深层次结构的潜在语义模型，将查询和文档映射一个共同的低维空

2021-03-24 14:40:49 235

原创 Windows上搭建PySpark环境后读取GreenPlum数据库

之前在服务器上配置了pyspark环境，好不容易搭建成功了，结果公司资源不足，无法使用了，哭泣ing。为此只能在本地上重新搭建Pyspark了。一、搭建PySpark环境1.安装jdk1.8以上版本下载地址：直接点击安装时需要记住安装路径。安装好后按照右击计算机–>属性–>高级系统设置–>环境变量–>系统变量然后在系统变量那一栏点击新建，添加变量名和变量值，注意变量值是你安装jdk的路径，添加好后点击确定保存。然后再找到Path，点击编辑，再最后添加上%JAVA_H

2021-03-19 11:13:33 345

原创基于深度学习的推荐算法——推荐系统模型搭建基础及DeepCrossing原理

本章节从推荐系统模型搭建基础和DeepCrossing原理讲解及实操两方面展开。一、推荐系统模型搭建基础1. Keras搭建模型keras搭建模型主要有两种模式，一种是Sequential API，另外一种是Functional API。前者主要是通过层的有序堆叠形成一个模型，在大多数情况下可以快速的搭建一个模型，但是搭建的模型更适合简单的堆叠模型，对于复杂模型(多输入、多输出、共享层)的搭建就比较困难，所以后者函数式API可以更加灵活的搭建复杂网络，函数式API搭建模型是通过创建层的实例并将将层与层

2021-03-16 11:41:13 1846 1

原创记一名算法工程师在工作中遇到的各种坑(不定时更新)

在工作中总会遇到各种各样的bug,有时不清楚出错状况就会花费很久的时间。故想将工作中遇到的问题一一列举出来，以防下次仍遇到相同的问题。1.在pycharm中debug出现以下问题：AttributeError: module ‘matplotlib’ has no attribute ‘verbose’settings->Tools->Python Scientific->Show plots in toolwindow将√去除2.pycharm工具里在展示DataFrame数据时

2021-01-27 11:14:41 448

原创天池新闻推荐入门赛——排序模型+模型融合

排序模型通过召回的操作，我们已经进行了问题规模的缩减，对于每个用户，选择出了N篇文章作为了候选集，并基于召回的候选集构建了与用户历史相关的特征，以及用户本身的属性特征，文章本省的属性特征，以及用户与文章之间的特征，下面就是使用机器学习模型来对构造好的特征进行学习，然后对测试集进行预测，得到测试集中的每个候选集用户点击的概率，返回点击概率最大的topk个文章，作为最终的结果。排序阶段选择了三个比较有代表性的排序模型，它们分别是：LGB的排序模型LGB的分类模型深度学习的分类模型DI

2020-12-06 23:31:48 117

原创天池新闻推荐入门赛——特征工程

上一篇文章见天池新闻推荐入门赛——多路召回一、构造原始特征文章的自身特征， category_id表示这文章的类型， created_at_ts表示文章建立的时间，这个关系着文章的时效性， words_count是文章的字数，一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征，这个召回的时候用过，这里可以选择使用，也可以选择不用，也可以尝试其他类型的embedding特征，比如W2V等用户的设备特征信息完特征工程之后，直接就可以根据ar

2020-12-03 18:36:04 321

原创天池新闻推荐入门赛——多路召回

上一篇文章见天池新闻推荐入门赛——数据分析前言需要导入包faiss，先讲解下faiss安装过程。1.安装mklconda install mkl2.下载faiss-gpu首先查看一下自己的cuda版本和python版本，这个一定要弄对。然后去 https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/ 下载这个压缩包，我的环境是python3.6.7，cuda是10.0，下载的是faiss-gpu-1.5.0

2020-12-03 10:56:29 134

原创天池新闻推荐入门赛——数据分析

数据分析内容明天加上

2020-11-27 23:08:09 218

原创天池新闻推荐入门赛——赛题理解+baseline

此博文为<天池新闻推荐入门赛>的连续系列，本章节主要包含两大块，分别是赛题理解和baseline。一、赛题理解1.赛题简介比赛地址见零基础入门推荐系统 - 新闻推荐比赛内容赛题以预测用户未来点击新闻文章为任务，数据集报名后可见并可下载，该数据来自某新闻APP平台的用户交互数据，包括30万用户，近300万次点击，共36万多篇不同的新闻文章，同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性，将会从中抽取20万用户的点击日志数据作为训练集，5万用户的点击日志数据作

2020-11-25 19:06:04 295

原创在一个项目中创建虚拟环境

创建虚拟环境python3 –m venv venv(虚拟环境名称)python3 –m venv venv激活虚拟环境source venv/bin/activate查看requirements.txt内容（包含需要安装的版本）cat requirements.txt 安装版本并查看pip3 install –r requirements.txt –i https://pypi.douban.com/simple/pip3 list...

2020-11-09 16:11:50 158

原创 git命令大全-持续更新中

将工作中用到的git命令写入该篇文章中，以便忘记后方便查看，不定时更新中。本地篇查看仓库里所有的分支，包括远程分支git branch -a远程篇查看某个远程仓库的详细信息# git remote show [remote-name]git remote show origin...

2020-11-09 15:56:47 80

原创在linux上对anaconda的命令操作

基本操作1. 查看anaconda所有虚拟环境conda info -eresult:base * /home/xxx/anaconda3bert_torch /home/xxx/anaconda3/envs/bert_torchgraduate_development /home/xxx/anaconda3/envs/graduate_developmentprediction_of_graduation /h

2020-10-30 16:17:37 1121

原创 C1W1-12_logistic-regression-cost-function

视频链接Good see you again. In this optional video, you’re going to learn about the intuition behind the logistic regression cost function. Specifically, you will understand why the cost function is designed that way. You will see what happens when you pred

2020-08-11 18:12:57 176

原创 C1W1-11_logistic-regression-testing

视频链接Now that you have your data, you will use this data to predict our new data points. For example, given a new tweet, you will use this data to say whether this tweet is positive or negative. In doing so, you want to analyze whether your model generali

2020-08-11 18:10:48 234

原创 C1W1-10_logistic-regression-training

视频链接In the previous video, you learned how to classify whether a tweet has a positive sentiment or negative sentiment, using a theta that I have give you. In this video, you will learn your own theta from scratch, and specifically, I’ll walk you through

2020-08-11 18:07:54 161

原创 C1W1-09_logistic-regression-overview

视频链接You will now get an overview of logistic regression. Previously, you learned to extract features, and now you will use those extracted features to predict whether a tweet has a positive sentiment or a negative sentiment. Logistic regression makes us

2020-08-11 18:05:39 134

原创新闻文本分类-06 基于Bert的文本分类

上一章节采用Word2Vec做向量表示，通过TextCNN以及TextRNN的深度学习模型来做文本分类。这一章节采用bert微调，将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示，然后输入到softmax层进行分类。import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s

2020-08-04 23:02:45 2242 5

原创新闻文本分类-05 基于word2vec+TextCNN+TextRNN的文本分类

上一章节使用深度学习来完成文本表示，通过fastText模型进行文本分类。这一章节采用Word2Vec做向量表示，通过TextCNN以及TextRNN的深度学习模型来做文本分类。1. Word2Vec使用gensim训练word2vec设置随机种子。import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %

2020-07-31 22:59:01 2942 1

原创新闻本文分类-04 基于fastText的文本分类

在上一章节使用了传统机器学习算法解决文本分类问题，这章尝试使用深度学习来完成文本表示，通过fastText模型进行文本分类。fastText论文： Bag of Tricks for Efficient Text Classification1. fastText模型剖析1.1 概念FastText是一种典型的深度学习词向量的表示方法，它的核心思想是将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。这中间涉及到两个技巧：字符级n-gram特征的引入以及分层

2020-07-27 18:06:24 1199 3

原创新闻本文分类-03 基于机器学习的文本分类

上一章节对新闻句子长度、类别和字符进行了可视化分析。这一章节我们通过机器学习做文本分类。1. 词向量源数据给的是文本是匿名话字符，不能直接放入模型中训练，需要对每个字符进行数学上的表征，也就是将字符映射为词向量。什么是词向量呢？词向量就是将词转化为向量形式的表示。词向量主要有两种，一种是传统机器学习中的one-hot编码方式，一种是基于深度学习的词嵌入技术。下面我们先学习下传统机器学习的词向量表示。1.1 One-Hot设词典的大小为n（词典中有n个词），假如某个词在词典中的位置为k，则设立一个n维

2020-07-25 22:33:54 1287

空空如也

空空如也