AI有点像十几岁的性爱。每个人都在谈论它,但实际上并不是很多人在这样做。那些这样做的人并不像他们说的那样多。
称我为老式,但是在过去的情况下,我们能够在没有神经网络的帮助下从不良数据中得出不准确的结论。毫无疑问,机器学习的精彩应用程序,我上周早些时候写了一篇文章,但是将正确的机器学习应用于正确的问题是棘手的。并非所有锤子都适合所有指甲。知道如何为问题选择正确的算法将使世界变得更美好。
在本文中,我旨在介绍一些用于描述机器学习算法的关键术语。工作流,工具连锁店和道德规范我将在另一天介绍,但是到本博客结束时,您希望在这个快速变化的领域中损失一点。我不会在这个小博客中介绍机器学习和AI的各个方面,而是让我们看看一些最受欢迎的算法以及何时使用它们。
机器学习类型
监督学习模型对标记或分类数据进行培训的地方。例如,要训练一个识别狗的模型,您首先想从狗标记的图像开始。监督学习需要高质量正确标记的数据。监督学习的一个问题过于拟合,该模型非常针对其经过训练的数据,以至于无法在其他类似的数据集上使用。目前,AI的大多数应用都使用了监督的学习,但是随着生成AI接管,这正在迅速变化。
有监督的学习算法包括深度学习中使用的神经网络,支持向量机(SVM),这些神经网络将两个组彼此分开,决策树,将数据划分并将其分为较小的较小群体,幼稚的贝叶斯,计算数据属于基于一组特征的特定类别的可能性。每个人都有自己的优势和缺点。神经网络在复杂的任务中的表现更好,但计算上更昂贵。 SVM几乎可以计算得同样好,便宜。幼稚的贝叶斯再次更快,但并不总是表现得很好。决策树现在似乎有些老式,但是人类更容易理解它们,因此在可解释的AI中起着重要的作用,在该AI中,人类可以理解模型得出结论的步骤。
无监督的学习是模型独立识别数据模式的地方。该技术已被广泛用于处理大型数据集,例如自然语言或天气数据的库存,在这些数据集中不切实际地标记数据。
无监督的学习可以使用聚类的形式将数据分组为集合,它可以使用尺寸降低来减少数据集为关键特征,或者可以寻找相关性或关联规则。协会用于信息,例如“购买此产品的客户也购买了这些”。
强化学习是模型必须在发现正确答案之前做出多个决定的地方,例如,玩游戏的模型可能必须采取多个动作,然后才能发现它是否赢了。自动驾驶汽车是强化学习的最大应用。
深度学习和生成性AI
深度学习是在50年代发明的,但直到最近才实用。特别是在GPU加速器的进步中,主要由游戏玩家使用来处理图形,它们已经发展为在模拟和机器学习的大多数领域中使用的更通用的数字紧缩器。
深度学习使用有各种口味的神经网络。一种称为生成对抗网络(GAN)的类型通常用于生成AI中。神经网络是直观的,但在数学上不是复杂的。一点点线性代数将带您很长一段路,并且肯定是另一天的话题。
Generative AI是使我们所有人对机器学习感兴趣的游戏规则改变者。不可否认的魔术。生成的AI已成为大型语言模型(LLM)的代名词,但是该领域绝不限于大型文本。训练基础模型非常昂贵:您需要大量的数据和大量计算。那些这样做的人拥有很多世界GPU。不过,每个人都不需要训练自己的训练,您可以找到一个具有新的权重的基础模型来针对特定问题。模型可能具有5000亿个Weigths
每一代生成的AI都建立在最后一个。在LLMS之前,我们有了可以理解文本中上下文的变压器(例如,我将牛奶卖给的人是在文本中早些时候进入我商店的人)。
今年早些时候,DeepSeek成为头条新闻,并在宣布了可以与市场领导者竞争的大型语言模型之后,在美国股票市场造成了摇摆,但在更少的时间上培训了较少的筹码。到目前为止,我们需要越来越强大的GPU来训练更大的模型。这一突破的长期影响将以一种或另一种方式发挥作用。在饥饿和资源的行业中,这会增强可持续性,还是我们只是做更多的AI?尚未看到。
AI给我们什么?
我们都看到社交媒体充斥着令人难以置信的景观和畸形小猫的图像,但AI远不止于此。使用AI对数据进行分类是通过识别一些专家医生错过的肿瘤来挽救生命。预测模型通常用于降低风险,确定将很快失败的组件或将从干预中受益的个人。推荐模型现在可以帮助我们找到我们想要更快的产品和服务。我很遗憾的是,购买facePaint时没有单击“添加到购物车”,因为算法试图告诉我,我选择的套装没有黑色或白色。
我认为很多人担心AI会取代人类,这是一个合理的恐惧。它将改变我们从劳动力中需要的技能,而对于某些人来说,这将不会是一个积极的变化。我的丈夫在草莓采摘机器人上工作,这些机器人将取代大部分移民和薪水不足的劳动力。某些方面的积极变化,但我们需要确保每个人都从AI中受益,而不仅仅是那些有能力购买草莓的人。
AI还将在许多方法中增加人类完成的任务,例如,警告安全人员可能危险或加快分析医疗数据的过程。
AI可以做到的,人类无法做到的,或者人类做得太慢,无法实用。一个例子是来自DeepMind的Alphafold,它通过发现像人类一样好的蛋白质的结构来取代数十亿个博士学位的学生时间,但很多时候。
这一切都取决于数据
适当的使用机器学习形式取决于问题范围和数据至关重要的数据。不良数据,偏见的数据或不完整的数据将为您带来不良结果,而不管您选择算法如何。准备数据是数据分析的很大一部分,即使您选择使用更多传统技术来提取机器学习以外的价值。
清洁数据后,在开始构建模型之前,还有一个额外的功能工程步骤。这是一个耗时的步骤,将影响可以在数据上使用哪些模型。功能是高度,体重,性别,信用卡等方面,当您上次访问视线时,单击按钮几次。听起来很简单,但是很少有人以机器学习模型容易消耗的方式找到存储的数据。
总之
本文几乎没有刮擦机器学习算法的表面,但是我希望我为机器学习的丰富景观提供了合理的介绍,使您更有能力做出有关如何将技术应用于业务的决定。

版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除