当前位置：首页 > 机器学习 > 正文

分布式机器学习训练

编辑小哥S
机器学习
2024-05-19 10:06:46
33

简述信息一览：

1、联邦学习技术的本质是什么
2、机器学习为什么需要训练,训练出来的模型具体又是什么
3、BML是什么意思?
4、dpcc是什么意思
5、数据与模型并行
6、联邦学习属于深度监督学习的内容吗

联邦学习技术的本质是什么

1、联邦学习是一种***用分布式的机器学习/深度学习技术，参与各方在加密的基础上共建一个公共虚拟模型（可以相同也可以不同），训练和交互的全过程各方的数据始终留在本地，不参与交换和合并。也就是说同盾的联邦学习技术主要是在充分保护数据和隐私安全的前提下，实现大数据价值的转化和提炼。

2、联邦学习属于深度监督学习的内容。联邦学习中的监督学习就是给定一组训练数据，让网络学习如何把输入和输出对应上，或者说找到输入x所对应的输出y，使预测结果逐渐接近给的标签。

（图片来源网络，侵删）

3、联邦机器学习（Federated machine learning/Federated Learning），又名联邦学习，联合学习，联盟学习。联邦机器学习是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和***法规的要求下，进行数据使用和机器学习建模。 [1]举例来说，假设有两个不同的企业 A 和 B，它们拥有不同数据。

4、联邦学习（FL）。联邦学习是一种分布式机器学习技术或框架，最初是由谷歌提出的。可信执行环境（TEE）。可信执行环境是一种具有运算和储存功能，并且能提供安全性和完整性保护的独立处理环境。

机器学习为什么需要训练,训练出来的模型具体又是什么

在TensorFlow框架的支持下上，利用全新的CloudMachineLearning可以创建并训练自己的学习模型，并且具有深度学习的能力。

（图片来源网络，侵删）

训练的过程相当于将这个程序特化为一个解决专门问题的模型。训练出来的模型就具有了解决某一（类）特定问题的能力。

这种方法是有效的，因为它大大降低了模型的方差，而只是稍微增加了偏差。在这里我们就不得不说说一种算法，那就是boosting算法，在Boosting算法中，训练样例有权重，而且这些都是不同的，所以每个新的分类器都集中于前面那些往往会出错的样例上。

数据预处理：这是模型训练前的必要步骤，主要包括数据清洗、缺失值处理、特征缩放和特征选择等。数据清洗可以消除噪声和异常值，提高数据质量。缺失值处理可以通过插值、删除或利用其他数据进行填补。模型选择：机器学习模型有多种类型，包括决策树、支持向量机、神经网络等。

机器学习是人工智能的一个重要分支，其主要工作内容如下：数据收集和预处理：机器学习需要大量的数据来训练模型，所以需要收集和整理数据。模型选择和开发：选择合适的机器学习算法和模型，并进行开发。数据训练和评估：使用收集的数据训练机器学习模型，并评估模型的性能。

BML是什么意思?

BMI值（Body Mass Index，简称BMI）是指身高体重指数，主要用于统计用途。成人健康的BMI数值为15-29，所以您的是正常的。

百度机器学习云平台（Baidu Machine Learning，简称BML）。百度机器学习云平台是百度公司多年以来大规模分布式机器学习方面的技术优势积累。不仅提供了丰富、高效、成熟的机器学习算法，还打通了机器学习的全流程。应用方向：用户可以便捷地完成从原始数据格式化、统计、训练、评估、预测、发布模型服务等应用。

BML是Bilibili Macro Link的缩写。Bilibili Macro Link（BML）是弹幕***网络打造的大型线下派对品牌。自2013年以来已经举办了六届。从原来上海奔驰文化中心800人的规模，到奔驰中心正厅万人以上的超大直播，BML已经成为家居文化中最著名的线下活动。

dpcc是什么意思

DPCC是医学中的一种常见诊断方法，是由血液、尿液等样本进行分析后得出的结果。DPCC的全称为Diagnostic Pathology and Clinical Chemistry，其中Diagnostic Pathology意为诊断病理学，Clinical Chemistry则是临床化学。通过DPCC，可以分析人体内各种物质的含量、类型等，从而了解患者身体的状况和是否存在疾病。

科学钻探是为地学研究目的而实施的钻探，是通过钻孔获取岩心、岩屑、岩层中的流体（气体和液体）以及进行地球物理测井和在钻孔中安放仪器进行长期观测，来获取地下岩层中的各种地学信息，进行地学研究。在陆地上施工的科学钻探称为大陆科学钻探。

CC线主要用于Power Delivery 模块（下简称PD）的通讯，CC线首先是用来判断设备插入的方向：正插或反插，如果是正插，主机使用CC1来和设备通讯，反插使用CC2，可以看到CC使用的是单线协议。

相关信息 Type-C还提供了2条CC线和2条SBU线。CC线主要用于Power Delivery 模块（下简称PD）的通讯，CC线首先是用来判断设备插入的方向：正插或反插，如果是正插，主机使用CC1来和设备通讯，反插使用CC2。

数据与模型并行

1、利用计算机集群，使机器学习算法更好地从大数据中训练出性能优良的大模型是分布式机器学习的目标。为了实现这个目标，一般需要根据硬件资源与数据/模型规模的匹配情况，考虑到计算任务、训练数据和模型进行划分，分布式存储、分布式训练。分布式机器学习可以分为计算并行模式、数据并行模式和模型并行模式。

2、在不断升级的硬件环境和越来越复杂的应用需求下，高性能计算逐渐成为一项重要的技术。而数据并行和模型并行则是其中的两种主要并行计算方式，它们都能够利用多个处理器或计算节点，实现更快速、更高效的计算。而数据并行和模型并行则分别被称为“宽度并行”和“深度并行”。

3、数据并行和模型并行则分别被称为“宽度并行”和“深度并行”。

4、创建模型和数据并行这是本教程的核心部分。首先，我们需要创建一个模型实例，并检查我们是否有多个GPU。如果我们有多个GPU，我们可以使用 nn.DataParallel 来包装我们的模型。然后我们可以通过模型 model.to（device）将我们的模型放在GPU上运行模型现在我们可以看到输入和输出张量的大小。

5、有关模型并行的介绍可以参考：DDP 也适用于 multi-GPU 模型。DDP 包裹着 multi-GPU 模型，在用海量数据训练大型模型时特别有帮助。当把一个 multi-GPU 模型传递给 DDP 时，device_ids 和 output_device 不能被设置。

6、并行数据处理，举个简单例子，我有一个查询，涉及到海量数据集，为了得到高效的查询结果，可以先把海量数据集进行水平切分，放置到多个存储数据库中，然后将查询请求分发到这些数据库引擎，并行得到查询结果，再将这些结果合并，就可以得到实际的结果。数据划分这方面的技术文章比较多的。你再仔细搜搜吧。

联邦学习属于深度监督学习的内容吗

无监督学习（Unsupervised Learning）：使用未标记的训练数据集来训练模型，以发现数据中的模式和结构。常见的无监督学习算法包括聚类分析、主成分分析、关联规则挖掘等。强化学习（Reinforcement Learning）：通过与环境进行交互，根据反馈信号来学习最优的行动策略。常见的强化学习算法包括Q学习、深度强化学习等。

监督学习：数据的指挥棒监督学习，就像有标签的交响乐，如线性回归，是数据驱动的典范。它的旋律清晰，目标明确，应用于医学图像分析和文本分类，精准揭示背后的规律。无监督学习：自由探索的舞者无监督学习，如同聚类中的舞者，无固定目标，却能发现数据的内在结构。

机器学习的领域广泛，它包括监督学习（如回归和分类，通过有标签数据指导模型学习）、无监督学习（如聚类和概率图模型，探索未知数据的内在结构），以及强化学习，让计算机在与环境互动中自我优化。监督学习的代表算法有支持向量机和线性回归，而决策树和随机森林则是监督学习中的佼佼者。

隐私保护的通用框架。PySyft是用于安全和隐私深度学习的Python库，它在主流深度学习框架。使用联邦学习，例如多方计算MPC和同态加密HE。将隐私数据与模型训练分离。Pysyft可用于加密货币的，可保留隐私的深度学习的库。它基于PyTorch。PyTorch是一个用于Python的开源机器学习库。它基于Torch。

安全多方计算（MPC）。安全多方计算（Secure Multi-party Computation）即在参与方不共享各自数据且没有可信第三方的情况下，仍可以进行协同计算，最终产生有价值的分析内容。联邦学习（FL）。联邦学习是一种分布式机器学习技术或框架，最初是由谷歌提出的。可信执行环境（TEE）。

深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。训练集只有输入没有输出是无监督，包括所有的聚类算法，比如k-meansPCAgmm等。深度学习只是指结构有深度的算法，可以无监督可以有监督。

关于分布式机器学习训练，以及分布式学什么的相关信息分享结束，感谢你的耐心阅读，希望对你有所帮助。

分布式机器学习训练