自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

基咯咯

专注一些技术知识整理,包括人工智能、AIGC、大数据、机器学习、深度学习、NLP、大模型等。

  • 博客(175)
  • 资源 (14)
  • 收藏
  • 关注

原创 最新! Gemini 1.5 Pro: 现已在 180 多个国家/地区发布;提供本地音频理解、系统说明、JSON 模式等功能!

Gemini团队正在不断推进Gemini 1.5 Pro模型的功能升级,他们正在积极扩展其输入模式,以便更好地整合Gemini API以及Google AI Studio中的音频(语音)理解功能。此外,针对在Google AI Studio中上传的视频内容,Gemini 1.5 Pro现在具备了对图像(帧)和音频(语音)数据进行综合推理的能力。不久前,Gemini团队在Google AI Studio中推出了先进的Gemini 1.5 Pro模型,邀请开发者们进行体验和测试。

2024-04-10 20:00:00 692

原创 最新消息:OpenAI 发布 GPT-4-turbo-2024-04-09 !!

GPT-4 是一个大型多模态模型(接受文本或图像输入并输出文本),凭借其更广泛的常识和高级推理能力,它比我们以前的任何模型都能更准确地解决难题。GPT-4 可通过 OpenAI API 向付费用户提供。与 gpt-3.5-turbo 一样,GPT-4 也针对聊天进行了优化,但使用聊天完成 API 也能很好地完成传统的完成任务。在我们的文本生成指南中了解如何使用 GPT-4。最新的 GPT-4 Turbo 型号具有视觉功能。目前指向 gpt-4-turbo-2024-04-09。

2024-04-10 09:01:51 619

原创 2024 年最值得阅读的 ChatGPT 书籍

这是一本简短的书,解释了 ChatGPT 的工作原理以及它如何能够以令人信服的人类水平进行写作。它提供了使用各种模型(例如 GPT-4、BERT、T5 等)的代码,并解释了它们的工作原理。它解释了该模型的运作方式以及我们如何简化业务并提高我们的专业技能。作者还解释了机器学习的基础知识,以及我们如何使用法学硕士构建强大的人工智能代理来自动化我们的任务。这本书解释了 GPT-4 和 ChatGPT 的工作原理,以及我们如何使用它们来开发文本生成、问答和内容摘要工具。这是有关如何通过该模型快速轻松赚钱的指南。

2024-04-02 08:56:00 567

原创 Transformers -- 深入研究 - part 3

公众号:Halo咯咯,欢迎关注~世界正在为人工智能和生成式人工智能而疯狂,特别是 2023 年的 ChatGPT 和大型语言模型。在我们讨论本系列后续部分的技术细节之前,让我们先从它的想法和生态系统开始。

2024-04-01 21:27:43 930

原创 矢量数据库:连接人工智能应用程序的数据复杂性与可用性的桥梁

矢量数据库是一种专门设计的数据库,专注于高效地存储、管理和操作矢量数据。与传统数据库处理标量值(如数字、字符串、日期)不同,矢量数据库针对的是那些表现为多维数据点的向量,这些向量通常由机器学习模型从复杂的数据类型如图像、视频、文本和音频中提取而来。这种多维表示使得矢量数据库能够优化对这类复杂数据的处理,从而在人工智能和大数据分析等应用中发挥关键作用。矢量数据库的重要性体现在它们能够高效处理和解析非结构化数据的复杂性和细微差异,这在当今数字化世界中变得越来越常见。

2024-03-30 20:32:12 661

原创 Transformers -- 未知英雄 - Part2

前文回顾:在第一部分中,我提到了“单词”这一概念,但请注意,这仅仅是为了表述上的便利。实际上,“令牌”(token)这一术语更为精确。接下来,我们将探讨标记化(tokenization)的含义以及各种模型是如何运用各自的标记化机制的。标记化是自然语言处理中的一项基本技术,它涉及将文本序列分解成模型能够理解的单个单元,这些单元可以是单词、子词或标记。在构建大型语言模型(LLMs)时,采用如BPE(Byte Pair Encoding)或WordPiece等子词算法进行标记化尤为重要。

2024-03-30 19:59:08 828

原创 Transformers -- 以通俗易懂的方式解释 - Part 1

本系列主要介绍了为ChatGPT以及许多其他大型语言模型(LLM)提供支持的Transformer神经网络。我们将从基础的Transformer概念开始介绍,尽量避免使用数学和技术细节,使得更多人能够理解这一强大的技术。在ChatGPT或其他类似的大型语言模型(LLM)中,当您提出问题后,模型会生成一系列单词作为回答,这个过程可能看起来就像您的朋友通过消息应用程序逐字回复您的消息一样。不过,这里的一个区别是,模型在生成每个单词时都进行了精心的计算和选择,而不是简单地按发送键。

2024-03-29 23:03:45 827

原创 Apache Kafka + 矢量数据库 + LLM = 实时 GenAI

根据您的具体应用,您可能会找到满足您特定需求的系统。Elemental Cognition 的方法将不同的人工智能策略结合在一个新颖的架构中,该架构获取并推理人类可读的知识,以协作和动态地解决问题。使用 Apache Kafka 和 Apache Flink 的数据流可以实现任何规模的数据一致同步(实时,如果应用程序或数据库可以处理)和数据管理(= 流式 ETL)。在这种情况下,矢量数据是指数值矢量的集合,它可以表示多种数据类型,例如文本、图像、音频或任何其他结构化或非结构化数据的嵌入。

2024-03-29 22:47:24 908 1

原创 使用 Yoda 和 ClickHouse 进行实时欺诈检测

批量插入数据:当摄取管道批量插入数据时,ClickHouse的性能最佳。排序键很重要:大多数实时分析查询遵循一种查询模式,即在选择一定时间范围内(如shopper_id或batch_id)的数据。为ClickHouse表模式指定排序键(例如, created_at_ts)可以显著减少扫描的数据量并提高查询性能。安全性:诸如订单细节、购物者和用户活动等敏感数据被流式传输到ClickHouse。因此,实施了两步访问控制,以防止未授权客户端访问数据。

2024-03-28 22:31:56 829

原创 大型语言模型:技术回顾

很难说自然语言处理(NLP)的旅程是什么时候开始的。根据维基百科的文章《自然语言处理的历史》[1],它可能始于 17 世纪,当时莱布尼茨和笛卡尔试图理解不同语言中单词之间的关系,也可能是由艾伦·图灵的工作发起的,包括他的问题“机器能思考吗?以及他著名的模仿游戏[2]。众所周知,计算机科学家不断突破 NLP 的界限,旨在创造真正理解人类语言的机器,从 1967 年开发 Eliza 等基于规则的基本聊天机器人,一直到发明更复杂的深度学习方法。3]。图 1 展示了大型语言模型 (LLM) 的粗略时间表。

2024-03-28 18:40:35 703

原创 LoRA构建:利用数学知识进行低阶自适应分析并在 PyTorch 中实现

公众号:Halo 咯咯本文中将介绍了解 LoRA 是什么,并用数学原理知识来描述 LoRA 有效微调大型模型,最后从头开始创建我们自己的 LoRA 并使用它来微调我们的模型。

2024-03-27 19:54:42 836

原创 7种RAG工具,让你的LLMs发挥最大效用

很棒的内容,对吧?随着大型语言模型(LLMs)在各个行业中的广泛应用,利益相关者的需求将变得更加复杂,因为请求变得更加多样化。所以,如果你想跟上最新的讨论、框架和技术,以便从你的LLM中获得最大的收益,那么你会想要在4月23日至25日参加ODSC East会议。在ODSC East会议上,有一个完整的专题讨论会专门致力于大型语言模型。你可以向业界领袖、研究人员以及人工智能领域的前沿人物学习。利用ReAct、LLMs和LangChain实现复杂推理和行动。

2024-03-27 08:35:31 1355

原创 Star 5.3k!纯Python开发的高效SQL 解析器!

SQLGlot 是一个全面的 SQL 解析器、转译器、优化器和引擎,纯由Python开发。该项目可以用于格式化 SQL 或在 DuckDB、Presto/Trino、Spark/Databricks、Snowflake 和 BigQuery 等 21 种不同的方言之间进行转换。其目标是读取多种 SQL 输入,并在目标方言中输出正确语法和语义上的 SQL。这是一个非常全面的通用 SQL 解析器,具有强大的测试套件。它还相当高效,并且纯粹使用 Python 编写。

2024-03-26 18:45:00 1182

原创 BIOS中英文对照表

Main菜单:这里记录着电脑的主要信息,比如时间和日期,软盘现在已经不再使用,下面的驱动器中会记录电脑连接的硬盘信息,扩展内存就是电脑的物理内存大小,1024KB=1MB,1024MB=1GB。Advanced高级设置:英文具体意思如图所示,一般不用对这些项目进行设置,有些BIOS会将后面Boot里的选项放在这里。Security安全设置:在这里可以设置BIOS密码等,

2024-03-26 17:49:45 180

原创 Postwoman 安装

正在上传…重新上传取消转存失败重新上传取消Postwoman作为Postman的女朋友,具有免费开源、轻量级、快速且美观等特性,是一款非常好用的API调试工具。能帮助程序员节省时间,提升工作效率。...

2024-03-26 17:47:13 407

原创 2024年国外最好的大型语言模型(LLMs)

大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿及以上的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-03-22 11:12:12 803

原创 xAI开发的一款巨大型语言模型(HLM)--Grok 1

Grok-1拥有3140亿个参数,是目前为止市场上最大的开源模型。与OpenAI的GPT-3相比,Grok的参数大小是GPT-3的三倍多。Grok 旨在以机智的方式回应,并在其回答中加入一些幽默元素。与其他大型语言模型(LLMs)不同,Grok 拥有来自 X 平台的实时世界知识。它还能回答大多数大型语言模型所拒绝的问题。Grok仍处于测试阶段,因为仅训练了2个月。但它的性能将日益提高。Grok-1 目前设计有以下规格:参数:314B架构:8 名专家的组合 (MoE)

2024-03-19 17:29:39 1033

原创 谷歌开源的LLM大模型 Gemma 简介

谷歌推出了 Gemma,一个开放大型语言模型 (LLM) 的尖端系列,标志着其致力于开源人工智能的重要一步。同时Gemma 与 Hugging Face 平台的无缝集成,可以让AIGC爱好者更好的去使用。Gemma 是基于 Gemini 技术推出的四款新型大型语言模型(LLM),提供了 2B 和 7B 两种不同规模的版本,每种都包含了预训练基础版本和经过指令优化的版本。gemma-7b:7B 参数的基础模型。:7B 参数的指令优化版本。gemma-2b:2B 参数的基础模型。

2024-03-07 10:15:26 1747

原创 Loading class `com.mysql.jdbc.Driver‘. This is deprecated. 问题解决

只需将com.mysql.jdbc.Driver改成com.mysql.cj.jdbc.Driver 即可。排查发现是配置文件中mysql连接驱动有问题。

2023-03-12 17:47:36 835 1

原创 Java SimpleDateFormat详细介绍

SimpleDataFormat类可用于格式化、解析带区域的日期,可将日期格式转为文本,可将文本解析为日期,还可以进行日期规范化。SimpleDataFormat类支持用户自定义日期格式,同时也提供一些内置的日期格式,例如可通过getTimeInstance、getDateInstance或DateFormat中的getDateTimeInstance获取内置日期格式。上述方法都会返回一个用默认格式的Date/Time类型对象。更多使用方法参考DateFomat类。使用默认日期格式,默认格式地理位置。

2023-01-12 10:31:37 744

原创 Maven 打包方式(含依赖jar包)

【代码】Maven 打包方式(含依赖jar包)

2022-10-25 16:27:23 1306

原创 Python 将自己写的脚本安装至本地库中

Python 将自己写的脚本安装至本地库中

2022-10-24 15:15:24 550

原创 maven项目build时,本地有jar却一直去远程仓库下载,报错解决

在构建maven项目时,本地仓库有对应的jar包,但在编译的时候一直绕过本地去远程仓库下载,然后却一直提示,官方maven仓库无法获取到该包。

2022-08-17 14:44:24 3715

原创 Linux screen命令操作记录

Linux screen命令用于多重视窗管理程序。screen为多重视窗管理程序。此处所谓的视窗,是指一个全屏幕的文字模式画面。通常只有在使用telnet登入主机或是使用老式的终端机时,才有可能用到screen程序。语法screen [-AmRvx -ls -wipe][-d <作业名称>][-h <行数>][-r <作业名称>][-s <shell>][-S <作业名称>]参数说明:-A  将所有的视窗都调整为目前终端机的

2022-04-24 10:57:36 300

原创 secureCRT连接clickhouse-client输入命令显示重复问题

连接上Clickhouse-client客户端之后,输入各种命令都会出现重复问题,都是复制前面的命令:经排查发现,原来是由于SecureCrt配置的终端仿真器不兼容导致的问题,先前默认配置的是V-100,将其改成其他的就可以了。我是改成了xterm:最后输入命令就显示正常了!...

2022-04-24 09:32:43 1110

原创 Clickhouse执行报错(Double-distributed IN/JOIN subqueries is denied (distributed_product_mode = ‘deny‘))

在执行SQL语句时报如下错误:DB::Exception: Double-distributed IN/JOIN subqueries is denied (distributed_product_mode = 'deny'). You may rewrite query to use local tables in subqueries, or use GLOBAL keyword, or set distributed_product_mode to suitable value. (versio

2022-03-30 13:51:19 3432

原创 Java substring 截取字符串,报错的问题(String index out of range: 17)

在java中,substring是用来截取字符串,如果截取的长度超出了字符串的长度,就会报错:String str = "abcd";str.substring(0,2); //返回:abstr.substring(0,5); //报错:Exception in thread "main" java.lang.StringIndexOutOfBoundsException: begin 0, end 5, length 4解决方法:采用apache提供的一个工具类:StringU

2021-11-24 13:59:13 11712

原创 MySQL表字段修改成utf8mb4格式

字段字符集修改:ALTER TABLE test_tab MODIFY `col1` TEXT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;查看下是否修改成功:SHOW FULL COLUMNS FROM confession;

2021-11-03 14:27:33 1989

原创 exec:“docker-compose-v1.exe“:executable file not found in %PATH%解决方案

在window10安装docker之后,准备启动容器时,报了以下的错误:exec:"docker-compose-v1.exe":executable file not found in %PATH%看这报错的意思就是,没有设置docker的环境变量。所以就将docker的bin设置到path中:C:\Program Files\Docker\Docker\resources\bin但是设置完之后,发现还是报同样的错。去谷歌了下,有个大神说,需要将这个变量移到path的第一个位置:

2021-10-14 09:09:44 3007 1

原创 本地仓库与远程仓库进行关联

输入以下命令即可:git remote add origin 远程仓库地址

2021-09-17 10:05:03 271

原创 Python合并两个csv文件(通过公共列实现)

由于项目取数需要,要将两个不同的csv文件合并到一个文件中,并根据公共列(即两个文件中有一个或几个列的数据应该是对应一致的)合并到同一行,具体代码实现如下:import pandas as pd#读取数据r1= pd.read_csv("E:\\data\\data\\c1.csv") # 文件1r2= pd.read_csv("E:\\data\\data\\c2.csv") # 文件2#数据合并all_data_st = pd.merge(r2, r1, how='left'

2021-07-20 14:12:34 7197 1

原创 WIN10 安装pandas报错(ValueError: check_hostname requires server_hostname)

今天在安装pandas的时候,使用命令 pip install pandas执行时报如下错误: File "d:\program files\python\python39\lib\site-packages\pip\_vendor\urllib3\util\ssl_.py", line 474, in _ssl_wrap_socket_impl return ssl_context.wrap_socket(sock) File "d:\program files\python\pyth

2021-07-20 11:40:13 1105 2

原创 Clickhouse 数据字典dictionary引擎

1、概述数据字典是clickhouse提供的一种简单 实用的存储媒介,以键值和属性映射的形式定义数据。字典中的数据会主动或被动加载到内存之中,并支持动态更新。由于字典数据常驻内存特性,比较适合保存常量或者经常使用的维度表数据,以避免不必要的JOIN数据。数据字典分为内置和扩展两种形式,内置数据字典是以clickhouse默认自带的字典;外部字典是通过用户自定义配置实现的字典,也可以从不同源(ClickHouse,MySQL或通用的ODBC)中获取数据。Clickhouse是外部数据字典来处理多维

2021-05-19 16:39:12 2614

原创 Python 脚本传入参数

import sysprint(sys.argv[0]) #sys.argv[0] 类似于shell中的$0,但不是脚本名称,而是脚本的路径 print(sys.argv[1]) #sys.argv[1] 表示传入的第一个参数,既 hello#运行结果:[root@Test ~]# python /opt/python.py hello/opt/python.py #打印argv[0] 脚本路径hello .

2021-05-07 13:58:38 1799

原创 Python执行其他的Python脚本

import osstr=('python b.py dateStr') //python命令 + 其他脚本:b.py + 参数:dateStrp=os.system(str)print(p) //打印执行结果 0表示 success , 1表示 fail

2021-04-29 17:34:54 527

原创 DBeaver 格式化sql

有时候我们拿到了一条sql语句是长长的,非常不容易阅读,这时我们就想说哪里可以格式下sql代码。方法有很多种,这里我就用Dbeaver来格式化sql。①打开Dbeaver②复制sql代码到SQL编辑器中,并选中③按ctrl+shift+F,即可(或者在菜单栏“编辑“”中找到“格式化SQL”)...

2021-04-23 11:22:41 25241

原创 Pycharm 设置默认工作空间

Pycharm修改项目默认路径的方法:依次找到以下路径修改为自己想要的路径即可:PyCharm --->Settings --->Appearance&Behavior --->System Setting --->Project Opening --->Default directory

2021-04-23 09:50:05 4077

原创 Clickhouse 表引擎介绍【高质量文章整理】

最近在学习Clickhouse,看到一些好的文章就收集于此,方便后面查阅使用。ClickHouse表引擎到底怎么选 ClickHouse 表引擎概述

2021-04-07 10:23:47 302

原创 Springboot项目中接口同时支持GET、POST等请求

项目开发需要同时支持post和get请求,springboot项目中的设置如下:@RequestMapping(value = "/GetPostRequest", method = {RequestMethod.GET,RequestMethod.POST})拓展:注解@RequestMapping 能够处理 HTTP 请求的方法, 比如 GET, PUT, POST, DELETE 以及 PATCH。//其他请求方式的常用写法如下@RequestMapping(value = "

2021-03-29 14:42:19 8461

原创 DBeaver Clickhouse连接/查询超时(Read timeout)

在是用DBeaver连接Clickhouse做查询时,有时候会出现连接或查询超时的情况,这个时候可以在连接的参数中添加设置socket_timeout参数来解决问题。具体添加过程如下:1、打开连接设置面板2、进入编辑驱动设置3、在URL模板中添加参数配置即可。参数说明:socket_timeout:连接超时时间希望以上可以帮助你解决问题~...

2021-03-26 09:53:27 16944 2

滴滴KYLIN__自助式治理与演进之路.pdf

滴滴KYLIN 自助式治理与演进之路. 在上期的文章中,滴滴出行的技术专家靳国卫分享了 Kylin 在滴滴的平台架构、相关数据、集群服务治理(戳此处查看)。本期文章将接着介绍滴滴对 Kylin 字典的改造。

2020-05-12

Navicat_20238.rar

Navicat是一套快速、可靠并价格相当便宜的数据库管理工具,专为简化数据库的管理及降低系统管理成本而设。它的设计符合数据库管理员、开发人员及中小企业的需要。

2019-09-04

pdfxchange_6250破解版.zip

PDF-XChangeEditorPlus是一款专业的PDF文档编辑软件,体积小巧,速度飞快,拥有丰富的编辑功能,让你的PDF文件无需转换即可轻松实现编辑。

2019-09-04

docker-compose-Linux-x86_64(1.24).zip 资源下载

进入上述目录,对文件重命名,然后赋予执行权限 cd /usr/local/bin mv docker-compose-Linux-x86_64 docker-compose sudo chmod +x docker-compose

2019-09-03

用数据讲故事(试读部分)

本书通过大量案例研究介绍数据可视化的基础知识,以及如何利用数据创造出吸引人的、信息量大的、有说服力的故事,进而达到有效沟通的目的。具体内容包括:如何充分理解上下文,如何选择合适的图表,如何消除杂乱,如何聚焦受众的视线,如何像设计师一样思考,以及如何用数据讲故事。

2017-09-28

Git-2.11.0-64-bit.exe

Git是一款免费、开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。

2017-01-02

java学习书籍和面试宝典

Java是一门面向对象编程语言,Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程。本包中包含了学习java的书籍和面试资料

2016-12-23

基于dwt图像的嵌入和提取

dwt数字水印 源码,包括嵌入和提取的,大家可以看看,希望对你们有帮助。

2015-05-20

mentohust-0.3.1.tar.gz

Mentohust是由华中科技大学首先是在Linux系统下开发出来,而后扩展到支持Windows、Linux、Mac OS下的锐捷认证的程序(附带支持赛尔认证),兼容Windows、Linux和MacOS所有主流版本,完美代替锐捷认证。

2015-03-22

php自学(英文)

全英文讲解,让你在学习php的同时,也能够学习英语。

2013-07-24

php入门教程

本书教你如何更快更全的学习的php,只要10天你能掌握php。

2013-07-24

fp增长算法代码

这是对FP增长算法的代码分析。板书完美。

2013-05-26

javascript

javascript

2013-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除