ensemble数据库的作用,数据库的identity是什么

1年前 (2024-04-23)

ensemble数据库的作用,数据库的identity是什么

全文共6131字,预计学习时长16分钟

图源:unsplash

笔者非技术背景出身,因此在开始数据科学生涯时,或多或少是自己在单打独斗的。我花了大量的时间了解应该从哪里开始,首先学习什么,以及利用哪些资源。

一名有抱负的数据科学家通常会希望能完全理解各种机器学习算法、数据科学思想等的概念和细节。

因此,笔者建议在学习机器学习算法或数据科学应用程序之前先从构建区块开始。如果对微积分和积分、线性代数和统计都没有基本的了解,那么你将很难理解各种算法背后的机制。同样,如果对Python没有基本的了解,那么你将很难在现实中应用所学知识。

和任何事情一样,在接触到有趣的内容之前首先要学习基础知识。请相信笔者,在学习机器学习算法之前先掌握数学和统计学的话,将会轻松许多。笔者你回顾一下三个主题:微积分/积分、统计和线性代数(顺序不限)。

1.积分

当涉及概率分布和假设检验时,积分是必不可少的。虽然不必要成为此领域的专家,但学习积分的基本原理益处多多。

下面这些资源,前两篇文章的适用对象是那些想要了解什么是积分或那些只需要复习的人。如果你对积分一无所知,笔者建议学习可汗学院的课程。,还可以通过链接里的练习题来磨练技能。

· 积分入门(文章)

· AP微积分速成课程 (文章)

· 可汗学院:积分学 (课程)

· 练习题 (从第六单元开始)

2.统计

你应该投入大部分的时间学习统计。毕竟,数据科学家实际上是现代统计学家,而机器学习是统计学的现代术语。

如果有时间,笔者建议你去学习佐治亚理工学院的“统计方法”课程,它涵盖了概率基础、随机变量、概率分布、假设检验等。(https://mediaspace.gatech.edu/playlist/dedicated/74258101/1_g5xwvbde/1_iw8fk73m)

3.线性代数

如果你想继续深入学习,线性代数特别重要。但除此之外,了解其他基本的机器学习概念,如主成分分析和系统,也是有好处的。关于线性代数,笔者还是可汗学院!

图源:unsplash

编程的重要性也十分重要,对编程有基本的了解将使工作变得更简单,特别是在实践时。因此,笔者建议在深入研究机器学习算法之前,花点时间学习基本的SQL和Python。

1.SQL

先学习Python还是SQL完全取决于自己,但如果要问笔者,我会从SQL开始。为什么?因为如果你所在的公司从事数据工作,即使你不是数据科学家,学习起来也很容易,而且很有用。

下面是一些可以用于实践SQL的资源:

· leetcode

· hackerrank

· 案例研究

2.Python

笔者从Python开始学习编程的,而且很可能会在余下的职业生涯中坚持使用Python。就开源贡献而言,它,而且学习起来简单,你可以把它和R语言一起学。

就我个人而言,笔者发现通过“实践”来学习Python更有帮助。话虽如此,体验过几个Python速成课程之后,笔者发现以下课程是最全面的,而且免费!

· Python编程入门-佐治亚理工学院

3.Pandas

可以说,Python中需要了解的最重要的库是Pandas,它专门用于数据操作和分析。下面的两项资源,掌握起来会很快。个链接是使用Pandas的教程,第二个链接提供了许多练习题,可以使用它们来巩固你学到的知识:

· 与Kaggle一起学习Pandas

· 使用习题练习Pandas

图源:unsplash

如果已经到了这一步,意味着你已经打下了基础,准备好学习有趣的东西了。这一节将分为两个部分:机器学习算法和机器学习概念。

1.机器学习算法

接着你可以了解各种机器学习算法,以及它们的工作原理和使用方法了!

· 线性回归

佐治亚理工学院:

StatQuest:

· 逻辑回归——StatQuest

· k近邻算法——MIT

· 决策树——StatQuest

· 朴素贝叶斯

Terence Shin:

Luis Serrano:

· 支持向量机

SVM教程:

Alice Zhao:

· 经网络——Terence Shin

· 随机森林——StatQuest

· Adaboost算法

Terence Shin:

StatQuest:

· 梯度——StatQuest

· 极端梯度——StatQuest

· 主成分分析——StatQuest

2.机器学习的概念

这里还有一些基本的机器学习概念供你回顾,笔者强烈建议你阅读下面这些概念,许多面试问题都基于这些主题。

· 权衡偏差与方差

· 正则化

· 混淆矩阵和相关指标

· AUC和ROC(视频)

· 自助抽样:

· 集成学习、Bagging和Boosting:

· 标准化vs规范化:

此,你不仅建立了坚实的基础,而且对机器学习的基本原理也有了充分的理解。现在是时候做一些个人的业余项目了。如果想了解一些简单的数据科学项目的例子,不妨看看下面的项目:

· 用分类技术预测葡萄酒质量

· 使用Plotly可视化冠状病毒数据

· 电影协同过滤系统

图源:unsplash

其实没有什么通用的方法,但是你可以借鉴别人方法来找到适自己的。希望本文能为你的数据科学职业生涯提供一些指导和帮助,笔者坚信学习基本原理在将来会得到回报。

我们一起分享AI学习与发展的干货