大伟先生-CSDN博客

原创 Equall & Apple 的革命性变压器：一个宽幅前馈，实现前所未有的效率和精度

在最近一篇题为“One Wide Feedforward is All You Need”的论文中，Equall和Apple的合作研究工作深入研究了FFN的作用，并发现了一个令人惊讶的启示：尽管消耗了模型参数的很大一部分，但FFN表现出高冗余。为了解决这些问题，研究人员引入了“一个宽FFN”模型，这是一种新颖的架构方法，在编码器中具有单个共享宽FFN，并在解码器中补充FFN。在他们的研究中，研究人员探索了编码器和解码器FFN之间的参数共享，旨在评估其对模型准确性的影响。

2023-09-13 17:02:52 156

原创解锁无限的检索能力：谷歌的MEMORY-VQ以卓越的压缩力彻底改变了LLM

这种创新方法 MEMORY-VQ 显著减少了与基于内存的技术相关的存储先决条件，同时保持了高性能水平，在 KILT 基准测试中实现了令人印象深刻的 16 倍压缩率。然后，这些代码可以根据需要有效地转换回向量。通过在LUMEN中实现这种方法，这是一种有效的基于内存的技术，可以预先计算检索到的段落的令牌表示以显着加快推理速度，研究人员开发了LUMEN-VQ模型。MEMORY-VQ方法将产品量化与VQ-VAE方法无缝融合，以实现其主要目标：在不影响质量的情况下降低基于内存的方法的存储需求。

2023-09-07 19:06:27 179

原创 Meta AI的Nougat能够将数学表达式从PDF文件转换为机器可读文本

在一篇新论文《Nougat：学术文献的神经光学理解》中，Meta AI研究团队提出了学术文献的神经光学理解（Nougat），这是一种视觉转换器模型，可以有效地将PDF格式存储的科学文献转换为轻量级标记语言，甚至涉及密集的数学方程式。总体而言，这项工作表明，Nougat不仅具有从数字出生的PDF中提取文本的巨大潜力，而且可以处理扫描的纸张和教科书。值得注意的是，研究人员利用视觉文档理解的最新进展来完成新的OCR任务，但与以前的方法相反，Nougat不需要依赖OCR或嵌入式文本表示，只需要光栅化的文档页面。

2023-09-02 12:56:35 779

原创发表于《自然》杂志：语音转文本BCI的新突破实现62字/分钟的速度

为了弥合这一差距，在一篇新论文《高性能言语神经假体》中，来自斯坦福大学、华盛顿大学圣路易斯分校、弗吉尼亚州RR&D神经恢复和神经技术中心、布朗大学、哈佛医学院的研究小组提出了一种高性能的语音转文本BCI，能够以62个单词/分钟的速度处理来自大词汇的不受约束的句子，这大大超过了瘫痪患者传统技术的通信速率。通过利用他们的所有观察结果，所提出的方法在33个口脸运动中实现了92%的解码准确率解码，在39个音素中实现了62%的解码准确度，在50个单词中实现了94%的解码准确。论文《自然界上的高性能言语神经假体》。

2023-08-31 14:27:48 162

原创机器学习：争取被遗忘的权利

然后在每个分片上隔离训练模型，这限制了任何一个数据点对在包含该点的分片上训练的模型的影响。研究人员在引入每个新切片之前保存模型参数的状态，这允许他们从最后一个已知参数状态开始重新训练，该状态不包括要取消学习的点。在一篇新论文中，来自多伦多大学，矢量研究所和威斯康星大学麦迪逊分校的研究人员提出了SISA训练，这是一种新框架，通过减少删除数据点时需要计算的更新数量来帮助模型“忘记”信息。最近的政府举措，如欧盟的《通用数据保护条例》（GDPR），旨在保护个人的数据隐私，其核心概念是“被遗忘的权利”。

2023-08-30 14:52:28 671

原创百度开源2019新型冠状病毒RNA预测算法

在《LinearFold:线性时间通过5′-3′动态规划和波束搜索近似RNA折叠》一文中，百度研究人员提出LinearFold作为RNA折叠中的第一个近似算法，在不对输出结构施加碱基对距离等约束的情况下实现线性运行时和线性空间。百度的研究人员在一个不同的RNA序列数据集上评估了他们的设计，结果表明这种方法更有效，并且在所有家族中都具有更高的平均准确率。例如，对于大约10000个核苷酸的序列，如HIV基因组，LinearFold只需要8秒的运行时间，而基线需要大约4分钟。

2023-08-25 13:56:02 240

原创 Facebook HiPlot “让理解高维数据变得容易”

HiPlot的Web服务器默认可以读取CSV或JSON文件，用户还可以提供他们的自定义Python解析器，将他们的实验转换为HiPlot实验。Facebook的新HiPlot是一个轻量级的交互式可视化工具，它更进一步，使用平行图来发现此类高维数据中的相关性和模式。例如，在基于群体的训练可视化的情况下，由于现有超参数调整方法的训练任务可能会使用不同的超参数多次分叉，因此分析此类实验具有挑战性，并且它们可能包含难以发现的错误。然而，HiPlot可以显示相关数据点之间的边界，使此类实验更加容易和准确地可视化。

2023-08-24 13:14:43 1270

原创 DeepMind & UCL 推出新的推理模型和测试集

DeepMind和伦敦大学学院（UCL）推出了一个名为MEMO的新深度网络，它将Facebook的bAbI数据集上的SOTA结果相匹配，用于测试文本理解和推理，并且是第一个也是唯一一个能够解决长序列新推理任务的架构。基于与EMN相同的基本结构，MEMO设计了新的架构组件以支持推理推理。受REMERGE和自适应计算时间（ACT）的启发，研究人员使用强化（一类用于连接主义网络的关联强化学习算法）训练MEMO，以确定计算步骤的最佳数量，从而在不牺牲性能的情况下最大限度地减少所需的计算。

2023-08-23 16:55:52 125

原创科学家使用DL和其他工具预测2019年新型冠状病毒宿主和传染性

北京大学和浙江大学医学院第一附属医院的研究人员在bioRxiv上发表了《使用深度学习算法预测武汉2019新型冠状病毒的宿主和感染性》，这表明2019-nCoV的感染模式与2003年的严重急性呼吸综合征冠状病毒（SARS-CoV）非常相似，其他蝙蝠SARS样冠状病毒WIV1和2012年中东呼吸综合征冠状病毒（MERS-CoV）。研究人员表示，控制疫情的努力应包括密切监测，以确定减少社区传播的有效措施，并观察流行病学的任何变化 - 例如，年轻人群或卫生保健工作者的感染增加。

2023-08-22 12:06:32 136

原创认识米娜：一个真正健谈的聊天机器人

为了评估Meena的表现，研究人员提出了一个简单的人类评估指标，称为敏感性和特异性平均（SSA），它考虑了人类对话的两个基本方面：有意义和具体。结果表明，完整版的Meena（具有过滤机制和调谐解码）的SSA得分为79%，绝对SSA比现有的SOTA聊天机器人（如Mitsuku，Cleverbot，XiaoIce和DialoGPT）高出整整23%。根据研究团队的说法，最好的Meena模型具有2.6B参数，并根据10K BPE子词的词汇量实现了2.8的测试困惑度。与Meena的对话示例在GitHub上。

2023-08-21 13:49:02 149

原创 Facebook AI mBART：巴别塔的硅解

2018年，谷歌发布了BERT（来自transformers的双向编码器表示），这是一种预训练的语言模型，在一系列自然语言处理（NLP）任务中对SOTA结果进行评分，并彻底改变了研究领域。在预训练步骤中，mBART 使用所有可能的语言进行训练，这提供了一组参数，可以针对任何训练形式的任何未来语言对进行微调，包括有监督和无监督。现在，Facebook AI研究人员通过引入mBART进一步开发了BART模型，他们说这是第一种方法，通过对多种语言的全文进行去噪以进行机器翻译，从而预训练完整的序列到序列模型。

2023-08-20 14:00:15 550

原创 AraNet：面向阿拉伯社交媒体的新深度学习工具包

相信AraNet基于BERT模型的统一框架将使未来的研究能够更轻松地实现针对阿拉伯社交媒体的各种NLP任务，并产生有见地的观察结果。研究人员没有明确地将他们某些任务的基线模型与以前的研究进行比较，并解释说“大多数现有工作要么利用较小的数据（因此这不是一个公平的比较），要么使用早于BERT的方法（因此可能会被我们的模型超越）。

2023-08-19 16:19:10 176

原创新研究表明，自我注意层可以取代视觉任务中的卷积层

为了证实这一理论，洛桑联邦理工学院（EPFL）的研究人员提出了理论和经验证据，表明自我注意层确实可以实现与卷积层相同的性能。然而，研究人员证实，在理论和经验的支持下，任何卷积层都可以用自我注意层来表达，并且完全注意模型可以学习根据输入内容将局部行为和全局注意力结合起来。研究人员设置了多头自注意层的参数，使其可以像卷积层一样工作，并进行了一系列实验来验证所提出的理论结构的适用性，将包含六个多头自注意力层的全注意力模型与CIFAR-18数据集上的标准ResNet10进行比较。

2023-08-18 13:53:40 147

原创 AlphaZero能否从围棋和国际象棋飞跃到量子计算？

传统的游戏引擎，如IBM在1990年代开创性的深蓝和当前的世界计算机国际象棋冠军Stockfish，都依赖于人类玩家手工制作的启发式方法。与DeepMind的愿景相呼应，丹麦奥胡斯大学（AU）的一个研究小组通过将AlphaZero应用于可能用于量子计算机的三个不同控制问题，进一步证明了AlphaZero的广泛适用性。该论文的第一作者，博士生Mogens Dalgaard解释说：“当我们分析AlphaZero的数据时，我们发现该算法已经学会了利用我们最初没有考虑的问题的潜在对称性。那是一次了不起的经历。

2023-08-17 13:24:24 534

原创 Microsoft 图像BERT，基于大规模图文数据的跨模态预训练

Microsoft研究人员最近发表的一篇论文提出了一种新的视觉语言预训练模型，用于图像 - 文本联合嵌入，ImageBERT，它在MSCOCO（图像检索任务）和Flickr 30k（文本检索）数据集上都实现了SOTA性能。数据的数量和质量对于视觉语言任务的跨模型预训练至关重要，因此研究人员开发了一种弱监督方法，用于从互联网收集大规模图像文本数据，以提高预训练性能。在LAIT之后，研究人员在第二阶段对公共数据集概念标题（最广泛使用的图像文本预训练数据）和SBU标题（SBU标题照片数据集）对模型进行了预训练。

2023-08-16 12:59:05 686

原创 NLPR、SenseTime 和 NTU 加速自动视频纵向编辑

视频人像编辑技术已经在电视、视频和电影制作中得到了应用，并有望在不断发展的网真场景中发挥关键作用。现在，来自北京模式识别国家实验室（NLPR）、商汤科技研究和南洋理工大学的研究人员通过一个新的框架将这项技术向前推进了一步，该框架可以实现完全任意的音频 - 视频翻译。为了增加合成视频的真实感，研究人员结合了许多不同的模型和网络。在音频方面，他们使用音频到表情的翻译网络来识别特定的音频特征，并将其与面部表情相匹配。一对多和多对一平移测试结果表明，所提系统的泛化能力比现有方法产生更自然的外观和运动。

2023-08-15 12:47:54 1033

原创 KU Leuven & TU Berlin 推出“RobBERT”，一款荷兰索塔 BERT

研究人员在不同环境中评估了RobBERT在多个下游任务上的表现，比较了其在荷兰书评数据集（DBRD）的情感分析中的表现，以及荷兰语特有的任务，将Europarl话语语料库中的“die”与“dat（that）”区分开来。与以前使用早期的BERT实现来训练荷兰语BERT的方法不同，新研究使用了RoBERTa，这是去年夏天由Facebook AI和华盛顿大学西雅图分校的研究人员推出的BERT的改进版本。荷兰语是大约24万人的第一语言，也是近5万人的第二语言，是继英语和德语之后第三大日耳曼语言。

2023-08-14 12:03:27 795

原创 Google FixMatch：SOTA 在半监督学习基准测试中的性能

虽然 FixMatch 看起来只是现有技术的简单组合，但它在各种标准的半监督学习基准测试中实现了 SOTA 性能，包括在 CIFAR-94 上具有 93 个标签的准确率为 10.250%，在 88 个标签（每个类只有四个标签）上达到 61.40% 的准确率。他们发现，为了获得良好的结果，特别是在有限标签设置中，某些以前被低估的设计选择——比如权重衰减或优化器的选择——实际上对提高模型性能非常有帮助。作为当前计算机视觉应用的首选，深度网络通常通过监督学习（一种需要标记数据集的方法）来实现其强大的性能。

2023-08-12 17:14:25 301

原创自主学习库简化智能代理创建

通过构建依赖于近似抽象而不是直接与 PyTorch 模块和优化器对象接口的代理，用户可以在不更改其源代码的情况下添加或修改代理的功能（称为“开闭原则”）。自治学习库是 PyTorch 的深度强化学习（DRL）库，可简化新型强化学习代理的构建和评估。该计划的核心理念之一是强化学习（RL）应该是基于代理的，这意味着模型只是接受状态和奖励，然后返回一个动作。自治学习库将控制环路与代理逻辑分离，以简化代理实现和控制回路本身，从而提高代理使用方式的灵活性。使用自治学习库构建新的 RL 代理的示例演示的结果。

2023-08-11 15:17:51 248

原创用于农业格局分析的新型大型航空影像数据库

用于检测航空农田图像的田间条件的语义分割需要“对具有极端注释稀疏性的超大尺寸图像进行推理”，研究人员在论文中解释说农业视觉：用于农业模式分析的大型航空图像数据库.一场新的、人工智能驱动的农业革命现在开始了吗？尽管超大的航空农田图像带来了独特的挑战，但农业视觉数据集为研究界提供了一个利用丰富的数据资源探索该领域的机会。

2023-08-10 14:21:34 201

原创谷歌推出Flax：JAX的神经网络库

这是JAX的工作 - 谷歌在2018年推出的即时编译器，它使用Autograd和XLA（加速线性代数），可以通过大量的Python功能（如ifs，循环，递归和闭包）自动区分原生Python和NumPy代码。在修改模型时，开发人员不再需要向框架添加功能，他们可以简单地修改训练循环（例如train_step设置）即可达到相同的结果。Flax的核心是围绕称为模块的参数化函数构建的，这些函数覆盖了应用，可以用作普通函数。Flax团队还呼吁开发人员帮助构建额外的端到端示例，例如翻译，语义分割，GAN，VAE等。

2023-08-09 12:23:38 368

原创通过神经风格迁移为您的应用程序提供新的界面！

在大多数情况下，这种灵活性是有限的，当开发人员更改应用程序时，用户自定义可能会丢失。“我们设想一个未来，用户将期望在他们使用的每个应用程序中看到漂亮的设计，并像今天的时尚一样享受多样化的设计，”研究人员在他们的论文ImagineNet：使用神经风格转移重新设计应用程序中写道。为了使内容创建者和最终用户能够认真重新设计其应用程序的界面，同时保持对其可用性至关重要的内容细节清晰度，斯坦福大学的研究人员提出了ImagineNet，这是一种新颖而强大的界面自定义新工具。

2023-08-08 11:34:45 99

原创小鼠是否使用分布性RL？DeepMind说是的

未来的奖励结果不是一个完全已知的数量，而是基于特定行为的预测，具有一定的随机性。在这项新研究中，来自DeepMind和哈佛大学的研究人员分析了小鼠体内多巴胺细胞的活动，发现多巴胺神经元根据不同程度的“悲观”和“乐观”状态预测奖励。DeepMind的研究人员发现了大脑对多巴胺的反应与分布强化学习的趋势AI理论之间的相似之处。DeepMind的研究人员希望通过提出这样的问题来促进神经科学研究的发展，并在此过程中形成一个良性循环，这也将为人工智能研究带来好处。

2023-08-07 13:05:28 122

原创 “AI乳腺癌检测”风暴眼中的三篇论文

深度学习和医学研究界对谷歌、纽约大学和DeepHealth发表的三篇有前途的乳腺癌诊断论文引发的讨论非常热烈。几年前，纽约大学的一组研究人员开始发表关于将深度学习应用于癌症筛查的论文。该团队的最新论文《深度神经网络改善放射科医生在癌症筛查中的表现》于2019年10月发表。去年12月，总部位于波士顿的DeepHealth——一家使用机器学习来帮助放射科医生的初创公司——在arXiv上发布了《乳房X光摄影中的鲁棒乳腺癌症检测》和《使用注释高效深度学习方法的数字乳房Tomosynthesis》。

2023-08-04 12:24:45 139

原创老师辅助神器：人工智能知道学生是否在集中注意力

浙江金华一所小学的学生戴上了智能头带，可以测量大脑神经元的电信号，并将收集到的信息转化为注意力评分。在第二阶段，交互式视觉系统使用课堂视频的精细视觉分析来预测学生的情绪状态以及每个学生情绪状态的演变——即莉莉是否失去了兴趣？现在，来自香港科技大学和哈尔滨工程大学的研究团队采用了面部识别技术，通过一个名为“EmotionCues”的视觉分析系统来分析学生在课堂上的情绪。但事情真的有那么简单吗？

2023-08-03 14:04:24 235

原创 AI为图像构建测谎仪

Deepfake色情在2018年抬头，世界领导人的虚假政治演讲让人们对新闻来源产生了怀疑，在最近的澳大利亚丛林大火中，被操纵的图像在火灾的位置和规模上误导了人们。假图像可能会从不同的数据集生成，这将包含不同的数据集偏差。假图像检测模型建立在ProGAN上，ProGAN是一个无条件的GAN模型，用于随机图像生成，具有简单的基于CNN的结构，并在新的数据集上进行训练。利用自定义数据集和新的评估指标，研究团队引入了一种通用的图像取证方法，该方法在检测CNN生成的图像时实现了高平均精度发现此类生成的图像。

2023-08-02 12:06:35 147

原创富士通“Actlyzer”提供基于AI的基于视频的行为分析

人工智能驱动的系统根据身体信号（如紧张）测量心理状态，然后相应地分配值，并在显示屏上对其环境中的人进行颜色编码，以指示可疑行为和可能的威胁。“数据越多，准确度越高”的规则适用于此，因为训练中使用的基本动作数据不仅包括常见动作的许多变化，还包括一些特定选择的微妙和狡猾的动作，例如快速将头部转向两侧以检查目击者。富士通指出，该技术适用于实时视频分析，还可用于检查顾客的购买行为和店员的反应行为，确定制造现场的工作时间，或检查各种环境中的工作流程。通过将这些拼接在一起，该模型发展了识别更复杂的人类行为的能力。

2023-08-01 11:23:58 114

原创 AWS 推出开源 AutoML 工具包“AutoGluon”

AutoGluon Tabular的作者Nick Erickson和他的同事使用AutoGluon在使用VOC数据集的摩托车类别生成的小型玩具数据集上训练对象检测器。导入 AutoGluon 包后，开发人员只需指定感兴趣的任务，加载相应的数据集，最后让 AutoGluon 在数千种不同的超参数配置下快速自动训练多个模型，然后返回最佳模型。旨在实现SOTA性能的研究人员必须投入大量时间决定最有效的参数更新以最大程度地减少错误，选择层数以及它们应该如何连接，确定如何最好地分类和格式化数据，等等。

2023-07-31 12:55:52 181

原创利用AI倾听熊猫爱的声音，预测交配成功

来自南洋理工大学、四川师范大学和四川省濒危野生动物保护生物学重点实验室的IEEE 2019论文《使用小数据集的大熊猫面部识别》介绍了一种新颖的大熊猫面部识别算法，该算法在早期性能评估中显示出令人鼓舞的结果。为了帮助找到“合适的时间”，四川大学、四川省濒危野生动物保护生物学重点实验室和四川大熊猫科学院的研究人员训练了一个神经网络CGANet（C卷积模块，双向Gated循环单元模块，Atention 模块），以根据大熊猫的声音自动执行交配成功预测过程。他们还计划探索多模态数据输入的潜力，例如声学和视觉数据。

2023-07-29 16:21:35 293

原创 Facebook开源PySlowFast视频理解代码库

PySlowFast的引入解决了ML研究人员的一些需求。其次，重建当今最先进的深度学习模型可能令人头疼，因为此类模型通常需要数十个GFlops，几天的训练和反复的实验调整才能使每个细节都正确。FAIR现在是开源的PySlowFast，还有一个预先训练的模型库，并承诺继续为项目添加尖端资源。“PySlowFast”这个名字来源于一种新颖的二元性——该模型既有一条以低帧速率运行以捕获空间语义的慢速路径，也有一条以高帧速率运行的轻量级快速路径，以精细的时间分辨率捕获运动，并且可以学习有用的时间信息用于视频识别。

2023-07-28 11:41:36 119

原创实用人工智能 2.0，在线“学习、探索和构建”ML 模型

有关于Jupyter Notebook和Google Colab的教程，Python基础编程，深度学习基础知识，包括PyTorch框架和CNN和RNN等算法，高级算法以及其他AI研究主题。然而，在浏览器上运行算法可以让初学者更快地体验人工智能的魅力，开始特定的项目，并激励他们学习更多。Mohandas说，他开发实用人工智能的目标是超越课堂学习，使人们能够学习更加面向目标和面向产品的机器学习逻辑。下表总结了该项目的课程大纲，分为基本机器学习、生产机器学习、高级机器学习和其他 AI 主题。

2023-07-27 11:22:23 135

原创 SLM实验室：新的RL研究基准和软件框架

选择在SLM实验室中模块化地实现RL算法，因此性能的差异可以自信地归因于算法之间的差异，而不是实现之间的差异。在Atari游戏中对DQN和DDQN + PER算法的实验产生了不同的性能结果，而PPO和A2C算法的结果与OpenAI之前所做的工作相似。为了保持RL的发展势头，来自Machine Zone，Google Brain和California Institute of Technology的一组研究人员推出了一种新的软件框架和基准，用于可重复的强化学习研究。

2023-07-26 13:20:06 134

原创 Microsoft发布用于 AutoML 算法和训练的 NNI v1.3

自然支持AI框架的超参数调优和神经网络搜索，包括PyTorch，Keras，TensorFlow，MXNet和Caffe2，以及Scikit-learn，XGBoost和LightGBM等库。NNI 是一个“轻量级但功能强大”的工具包，可以调度和运行通过调整算法生成的试验作业，以在本地机器、远程服务器、OpenPAI、Kubeflow、K8S 上的 FrameworkController （AKS 等）和其他云选项等环境中搜索最佳神经架构和超参数。将传统的机器学习方法应用于现实世界的问题可能非常耗时。

2023-07-25 10:46:38 147

原创微软携手北京大学的换脸技术FaceShifter：高保真，遮挡感知面部交换

使用来自FaceForensics ++测试图像数据集的自然面部图像，研究人员在FaceShifter和其他面部交换工具FaceSwap，Nirkin，DeepFakes，IPGAN和最新的FSGAN上进行实验。此外，其他方法生成的人脸忽略了原始人脸的形状，没有考虑目标图像中的关键元素，如照明和分辨率。而且在数十亿美元的电影，电视和电脑游戏行业中也存在广泛的机会。研究人员指出，他们测试的所有其他面部交换工具首先合成面部内部区域，然后将这些信息与目标面部的轮廓相结合，这可能会产生不一致和不自然的外观。

2023-07-24 20:35:55 241 1

asp.net(c#)开源商店系统Brn shop 2.1(免费仿京东商城)

asp.net(c#)开源商店系统Brn shop 1.9(免费仿京东商城)

Windows Server 2012 为数据中心变革做好准备 Module 3 存储架构

Windows Server 2012 为数据中心 Module 2 虚拟化基础结构

Windows Server 2012 为数据中心 Module 1 Hyper-V 核心

2011-2012年艾瑞官方中国搜索引擎用户行为研究报告

纯真IP数据库官方版本

全世界国家数据库包（附带GIF/PNG国旗）

2010中国省市县数据库

Dianzhong SiteMap v1.0免费站点地图生成软件

空空如也