【MySQL入门】第二话 · 数据库与数据表的基本操作

🍺写在前面 最近的日子非常水逆,感觉7月莫非是双子座的水逆月吗?电脑的声卡估计坏了,怎么安排声卡驱动都没有声音,实在无奈,只能买一个外置声卡了,没想到意外好用!嘿嘿嘿,开心o(* ̄▽ ̄*)ブ。既然电脑修好了&#...

【机器学习】K-means聚类分析

前言 聚类问题是无监督学习的问题,算法思想就是物以类聚,人以群分,聚类算法感知样本间的相似度,进行类别归纳,对新输入进行输出预测,输出变量取有限个离散值。本次我们使用两种方法对鸢尾花数据进行聚类。 无监督就是没有标签的进行分类 K-means 聚类算法 K-means聚类算法(k-均值或k-平均)聚类算法。算法思想就是首先随机确定k个中心点作为聚类中心,然后把每个数据点分配...

使用 Databend 助力 MySQL 的数据分析

目标Databend 是一个非常先进的基于对象存储云原生数仓^1可以提强大的计算分析及存储能力。让 MySQL DBA 非常眼馋。今天想把 MySQL 的 wubx 库从 MySQL 全量迁移到 Databend 中。借助工具: dumpling^2 Dumpling 介绍Dumpling^3 是支持以 SQL 文本或者 CSV 格式将 MySQL/TiDB 数据导出的工具。设...

SOFARegistry 源码|数据同步模块解析

文|宋国磊(GitHub ID:glmapper ) SOFAStack Committer、华米科技高级研发工程师 负责华米账号系统、框架治理方向的开发 本文 3024 字 阅读 10 分钟 |前言| 本文主要围绕 SOFARegistry 的数据同步模块进行了源码的解析。其中,对于注册中心的概念以及 SOFARegistry 的基础架构将不再做详细的阐述,有兴趣的小伙伴在《...

啃书:《利用python进行数据分析》第五章——pandas入门(二)

书接上回~~整数索引接下来索引篇的一个难点,处理pandas的整数索引常常会难住新手,因为它与python的内置列表元组的索引方式不同。例如下面代码: ser = pd.Series(np.arange(3.))serser[-1] 是不是没什么问题?? 不,这里错了!!! 这里,pandas可以勉强进行整数索引,但是会导致小bug。我们有包含0,1,2的索引,但是引入用户想要...

啃书:《利用python进行数据分析》第五章——pandas入门(一)

通过前面几个章节的铺垫,我们对于数据处理也有了一点了解。后续主要首选是Pandas,它包含了使数据清洗和分析工作更快更简单的数据结构和操作工具。pandas经常会和其他工具一起并行使用,如上章学习到的numpy和scipy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于numpy建立的,特别是对基于数组的函数和不使...

Volcano成Spark默认batch调度器

摘要:对于Spark用户而言,借助Volcano提供的批量调度、细粒度资源管理等功能,可以更便捷的从Hadoop迁移到Kubernetes,同时大幅提升大规模数据分析业务的性能。 2022年6月16日,Apache Spark 3.3版本正式发布,其中《Support Customized Kubernetes Schedulers》作为Spark 3.3版本的重点(Highl...

CentOS中实现基于Docker部署BI数据分析

作为一个专业小白,咱啥都不懂。 linux不懂,docker不懂。 但是我还想要完成领导下达的任务:在linux中安装docker后部署数据可视化工具。作为一名敬业 的打工人摆烂不可以,躺平不可以,弱小,无助,可怜中。。这能力,这要去,要不直接散伙算了。但是,没想到,我们还是有解决办法。 为了降低扣奖金的风险,我还是我,我要完成这功能。 于是,以下是我的学习历程,于是我又成长了...

可视化:RStudio 多元数据分析 - 奇异值分解

theme: smartblue本文已参加「新人创作礼」活动,一起开启掘金创作之路。 这次带来的是 RStudio 的多元数据分析 - 奇异值分解。 奇异值分解 Singular Value Decomposition在前面的篇章中, 我们讲到了主成分分析(PCA), PCA的实现一般有两种, 一种是用特征值分解去实现的, 一种是用奇异值分解去实现的. 奇异值分解是一个有着很明...