ccdouni-CSDN博客

原创 python环境打包、centos 下openssl解决方案、fasttext安装失败

python环境打包下载：wget https://www.python.org/ftp/python/3.6.8/Python-3.6.8.tgz解压：tar -xzvf Python-3.6.8.tgz#指定python 安装路径export PYTHON_ROOT=~/Python#安装 pythoncd Python-3.6.8./configure --prefix="${PYTHON_ROOT}"makemake installpip install

2021-03-29 16:09:14 230 2

原创 mac服务器远程文件下载到本地

scp -r '[email protected] /user/服务器远程文件夹/文件' /Users/本地存放目录

2020-01-06 15:03:18 2460 1

原创 Spark面对OOM问题的解决方法及优化总结

Spark面对OOM问题的解决方法及优化总结 out of memory1. map过程产生大量对象导致内存溢出：2.数据不平衡导致内存溢出：3.coalesce调用导致内存溢出：out of memorymap执行中内存溢出shuffle后内存溢出map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的...

2020-01-06 14:59:15 175

原创 sc.toDF 报错

“ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) ”原因：出现这个错误是因为之前已经启动了SparkContext解决方法：查看代码，看是否有多次运行SparkContext实例；也可以先关闭spark（sc.stop(...

2019-06-05 16:28:36 940

翻译 CH01 统计学习方法概论

CH01 统计学习方法概论文章目录CH01 统计学习方法概论前言章节目录导读实现统计学习方法的步骤统计学习方法三要素模型模型是什么?策略损失函数与风险函数常用损失函数ERM与SRM模型选择泛化能力生成模型与判别模型生成方法判别方法分类问题、标注问题、回归问题参考前言章节目录统计学习监督学习基本概念问题的形式化统计学习三要素模型策略算法模型评估与模型选择训练...

2019-03-11 15:05:32 137

转载特征离散化的意义

转载地址：https://blog.csdn.net/wang1127248268/article/details/77341977连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？Q:CTR预估，发现CTR预估一般都是用LR，而且特征都是离散的。为什么一定要用离散特征呢？这样做的好处在哪里？A:在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散...

2019-02-18 19:13:07 415

转载 python中的进程与线程区别

1 概念梳理：1.1 线程1.1.1 什么是线程线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中，是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。一个线程是一个execution context（执行上下文），即一个cpu执行时所需要的一串指令。1.1.2 线程的工作方式假设你正在读一本书，没有读完，你...

2019-02-12 10:55:40 411

原创推荐系统实战-2

用户行为数据用户行为在个性化推荐系统中一般分为两种——显性反馈行为和隐性反馈行为。显性反馈行为包括用户明确表示对物品喜好的行为。隐性反馈行为指的是不能明确反应用户喜好的行为。页面浏览行为特征显性反馈数据隐性反馈数据用户兴趣明确不明确数量较少庞大存储数据库分布式文件系统实时读取实时有延迟正负反馈都有只有正反馈...

2018-12-18 16:31:16 199

翻译精确率、召回率、F1以及推荐系统相关评测指标

1、分类指标精确率和召回率多用于二分类问题真实结果/预测结果正（P）负（N）正（P）TPFN负（N）FPTN精确率（P） =TPTP+FP\frac{TP}{TP + FP}TP+FPTP表示被分为正例的示例中实际为正例的比例召回率（R）=TPTP+FN\frac{TP}{TP + FN}TP+FNTP召回率是覆盖面的度量，度量有...

2018-12-17 14:22:36 2555

原创方差、偏差、噪声总结

偏差、方差、噪声偏差：度量了模型的期望预测和真实结果的偏离程度，刻画了模型本身的拟合能力。方差：度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。噪声：表达了当前任务上任何模型所能达到的期望泛化误差的下界，刻画了学习问题本身的难度。偏差-方差窘境(bias-variance dilemma)为了得到泛化性能好的模型，我们需要使偏差较小，即能充分...

2018-12-14 11:32:43 2037

翻译推荐系统实战-1

好的推荐系统什么是推荐系统随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代。在这个时代，无论是信息消费者还是信息生产者都遇到了很大的挑战：信息消费者，如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情;作为信息生产者，如何让自己生产的信息脱颖而出，受到广大用户的关注，也是一件非常困难的事情。推荐系统就是解决这一矛盾...

2018-12-14 11:30:51 558

KnapsackProblems.pdf

全部的背包问题（0-1，多重，多背包等）及解法 knapsack problems algorithms and computer implementations

2019-10-28

深度学习花皮树

深度学习花皮书，深度学习圣书，内容博大且思想深刻。

2018-12-28

81个Python爬虫源代码

81个Python爬虫源代码，内容包含新闻、视频、中介、招聘、图片资源等网站的爬虫资源

2018-12-13

深度学习入门：基于Python的理论与实现

深度学习入门资料：基于Python的理论与实现中文版，无密码

2018-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人