当前位置: 首页 » 行业资讯 » 机器人»想独立开展深度学习研究，你准备好了吗？

想独立开展深度学习研究，你准备好了吗？

[点击复制]

发布日期：2017-12-07 浏览次数：953

核心提示：　　深度进修是一门经历迷信，具有优良的研发基本架构平日能令科研团队事半功倍。荣幸的是，依托现有的开源生态，任何人都能构建出异常不错的深度进修基本架构。　　在这篇文章中，我们会和年夜家分享若何展开深度进

　　深度进修是一门经历迷信，具有优良的研发基本架构平日能令科研团队事半功倍。荣幸的是，依托现有的开源生态，任何人都能构建出异常不错的深度进修基本架构。

　　在这篇文章中，我们会和年夜家分享若何展开深度进修的研讨，也会一并引见我们在研讨当选用的基本架构和开源技巧 kubernetes-ec2-autoscaler，这是一种用于 Kubernetes 批处置义务的弹性伸缩治理器（batch-optimized scaling manager）。

　　用例

　　深度进修的演进平日源于一个可以或许在小成绩上被验证的构思。在这个阶段，你须要疾速地停止年夜量随机试验。幻想情形下，只需长途登录到一台机械，运转一个剧本，不到一个小时便可以获得成果。

　　然则构建一个真正可用的模子平日会阅历许多次掉败，须要我们一直地去修复这些缺点。（这和其他新建的软件体系一样，你须要屡次运转代码能力断定它是若何运转的。）

　　你须要经由过程多个角度的盘算来检测模子，从而认识到它是若何进修的。Dario Amodei 的这类加强进修机制（掌握右边的球拍）可以在击球游戏中取得很高的分数，但你会发明，游戏中右边的球拍完整没有挪动。

　　是以深度进修的基本架构要能许可用户灵巧地反不雅模子，仅仅展现一些统计成果是不敷的。

　　当模子表示出必定的运用远景，你会愿望将它扩大到更年夜的数据集和更多的 GPU 上运转，但这会消费年夜量的时光。并且你须要卖力地治理试验并不是常谨严地去选择超参数（hyperparameters）的规模。

　　这类科研的进程在晚期是疾速且缺少体系性的；到了前期，进程会逐步有层次却很消耗精神，但为了取得完善的成果，这是必弗成少的。

　　案例

　　论文 Improved Techniques for Training GANs 开篇讲述了 Tim Salimans 关于若何改良生成反抗收集（GAN）练习机制的一些意见。我们会挑个中较简略的一个停止引见（这固然不是最好的半监视进修案例，但它生成了最悦目的样本）。

　　GANs 由一个生成器收集和一个辨别器收集组成。生成器会一直地去搅扰辨别器，而辨别器会努力地将生成器造出的数据和真实数据辨别开来。平日来讲，断定生成器的利害，看它能不克不及骗过一切辨别器就好了，但困难依然存在：假如生成器一向输入完整雷同的（简直和真实的一样）样本会形成收集的瓦解。

　　Tim 提出可以用小批次的样本数据取代本来的一全部样本供给给辨别器。如许辨别器便可以断定生成器能否一向在传异样的图象。当“瓦解”产生时，生成器将会停止梯度调剂来修改这个成绩。

　　下一步就是基于 MNIST 和 CIFAR-10 将构思转化为原型。这须要疾速地构建出一个初步的模子，然后运转真实的数据并检测成果。在经由几回疾速的迭代以后，Tim 获得了 CIFAR-10 的样本，此次的成果非常振奋人心，简直是我们见过的在这个数据集上跑出的最好样本了。

　　深度进修（和常说的 AI 算法）假如要真正构成必定影响就必需扩展试验范围，一个小型神经收集可以验证概念，而年夜型的神经收集能力真正处理成绩。是以 Ian Goodfellow 开端把模子扩大到 ImageNet 停止验证。

　　模子进修生成 ImageNet 的图象

　　有了更年夜的模子和数据集，Ian 就须要用更多的 GPU 来并行地运转模子。义务运转机会器的 CPU 和 GPU 应用率会飙升至 90%，然则即便如许仍须要消费许多天赋能完成模子练习。在这类形式下，每次试验机遇都显得非常名贵，他也会异常过细地记载下每次试验的成果。

　　固然试验终究获得了不错的成果，但仍没有到达我们的预期。为了找到缘由我们做了许多测验考试，但依然霸占不了。这年夜概就是迷信的实质吧。

　　基本架构

　　软件

　　TensorFlow 代码的样例

　　我们绝年夜部门的研讨代码是用 Python 完成的，具体内容可以在我们的开源项目中检查到。我们平日应用 TensorFlow（在特别情形下也会应用 Theano）来停止 GPU 盘算；应用 Numpy 或其他办法来停止 CPU 盘算。研讨人员有时也会应用更下层的框架，好比基于 TensorFlow 的 Keras。

　　和多半深度进修社区一样，我们会应用 Python2.7。Anaconda 也常常会用到，它可以便利地给 OpenCV 打包，并对一些迷信算法库停止机能优化。

　　硬件

　　关于幻想的批处置义务，将集群盘算节点的数目翻倍会减半义务履行时光。不幸的是，在深度进修中，GPU 数目的增长只会惹起义务亚线性的加快。是以顶级的盘算机能只能依附顶级的 GPU 来完成。我们也应用了很多 CPU 用于构建模仿器、加强进修情况或是小范围的模子（这类模子跑在 GPU 上时运转效力不会有显著的增长）。

　　nvidia-smi 下满载的 Titan Xs

　　AWS 大方地为我们供给了年夜量盘算资本。这些资本被用于 CPU 实例和 GPU 义务的程度扩大。我们也有本身的物理机，用的是 Titan X GPU。我们希冀以后可使用混杂云：对分歧的 GPU、衔接和其他技巧展开试验长短常具有价值的，这对深度进修将来的成长也有侧重要影响。

　　雷同物理单位上的 htop 显示了年夜量余暇的 CPU。我们平日将 CPU 密集型和 GPU 密集型的义务离开运转。

　　设置装备摆设

　　我们看待基本架构就像很多公司看待他们的产物一样：它的界面必需简练，必需统筹功效性和可用性。我们会应用分歧的对象来同一治理一切办事器，而且尽量地对他们停止雷同的设置装备摆设。

　　用于治理弹性伸缩组的 Terraform 设置装备摆设文件片断。Terraform 可以创立、修正或烧毁正在运转的云资本来婚配设置装备摆设文件。

　　我们应用 Terraform 来创立 AWS 的云资本（实例、收集路由、DNS 记载等）。我们的云端节点和物理节点都运转 Ubuntu 体系，并应用 Chef 来做设置装备摆设。为了完成加快，我们应用 Packer 来事后制造集群镜像（AMI）。我们的一切集群都应用非穿插的 IP 规模，用户可以经由过程笔记本上的 OpenVPN 及物理节点上的 strongSwan（AWS 的客户网关）衔接到公网。

　　最初，我们将用户的 home 目次、数据集和成果存储在 NFS（基于物理硬件）和 EFS/S3（基于 AWS）上。

　　编排

　　可扩大的基本架构平日会使本来简略的用例庞杂化。我们在对分歧范围功课的基本架构研讨上投入了一致的精神，也在同步优化对象套件，使得散布式的用例能像当地用例一样好用。

　　我们为随机试验供给了 SSH 节点的（有些有 GPU 有些没有）集群，而且应用 Kubernetes 来调剂物理节点和 AWS 节点。我们的集群横跨 3 个 AWS 域——由于有时义务量会忽然迸发，从而占满单个区域的一切资本。

　　Kubernetes 请求每个义务都是一个 Docker 容器，如许便可以完成依附隔离和代码快照。然则创立一个新的 Docker 容器会增长迭代周期的时光，这个时光非常名贵，所以我们也供给对象，将研讨人员笔记本上的代码转成尺度镜像。

　　TensorBoard 中的模子进修曲线

　　我们将 Kubernetes 的 flannel 收集直接裸露至研讨人员的电脑，应用户可以无缝拜访正在运转的义务。这关于拜访 TensorBoard 这类监控办事特殊有赞助。（为了完成相对的隔离，我们最后请求针对每个裸露的端口都要创立 Kubernetes 办事，但如许会带来许多艰苦。）

　　kubernetes-ec2-autoscaler

　　我们的义务负载具有突发性和弗成猜测性：本来只须要单节点的试验能够很快就成长到须要 1000 个核。好比在几周的时光里，试验从只须要一个 Titan X 的交互阶段成长到了须要 60 个 Titan X 的试验阶段，这须要快要 1600 个 AWS 的 GPU。是以，我们的云架构要能静态设置装备摆设 Kubernetes 节点。

　　在弹性伸缩组中运转 Kubernetes 节点异常简略，艰苦的是若何准确地设置装备摆设这些组的范围。在提交批处置义务后，集群可以精确地晓得它须要的资本并直接停止分派。（相反，AWS 的扩大战略会赓续地启动新的节点碎片来供给足够的资本，这是一个屡次迭代的进程。）集群还须要在终止节点进步行义务迁徙（drain）操作，防止丧失正在运转的义务。

　　许多人想直接应用原始的 EC2 来处置年夜批量的义务，我们一开端也是这么做的。然则 Kubernetes 的生态具有更多优势：好比易用的对象、日记记载、监控、从运转实例中辨别治理物理节点的才能等。公道设置装备摆设 Kubernetes 使其可以或许准确地震态扩大要比在原始 EC2 上重建这类情况来的简略。

　　我们宣布的 kubernetes-ec2-autoscaler，是一种用于 Kubernetes 批处置义务的弹性伸缩治理器。它在 Kubernetes 上作为一个通俗的 Pod 运转，且只需求你的任务节点运转在弹性伸缩组内。

　　Kubernetes 集群的启动设置装备摆设

　　主动扩大器会轮询 Kubernetes 主节点的状况，包含用于盘算集群所需资本和容量的一切信息。假如超越了容量，它会将相干节点的义务迁徙（drain）后将其终止。假如须要更多的资本，它管帐算须要创立甚么样的办事器并恰当地增长弹性伸缩组的范围（或直接解锁（uncordon）履行过 drain 操作的节点，来防止新节点增长的启动时光）。

　　kubernetes-ec2-autoscaler 治理着多个弹性伸缩组、CPU 以外的资本（内存和 GPU）和对义务细粒度的束缚，例如 AWS 区域和实例年夜小。别的，突增的负载会惹起弹性伸缩组的超时和报错，由于即便是 AWS 也不具有无穷扩大的容量。这类情形下，kubernetes-ec2-autoscaler 会检测到毛病并将超越部门的义务分派到次级的 AWS 区域履行。

　　我们的基本架构设计旨在最年夜水平地进步科研人员的任务效力，使他们可以或许专注于科研自己。我们将持续深刻优化基本架构和任务流程，以后也会陆续和年夜家分享经历。我们等待与您的协作，配合增进深度进修的成长！

下一篇：S&A特域CW-6000冷水机为污水处理工艺设备提供水冷

上一篇：边缘计算+人工智能，一起解物联网带来的数据洪流之困

[ 行业资讯搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 关闭窗口 ]

同类行业资讯

• 7年投资44.2亿元！广东持续推进AI与机器人关键 • 人形机器人商业化落地可期
• 在成都，机器人批量造机器人 • 持续构建创新生态，浦东加速人形机器人多元场景
• 人形机器人生产节奏渐趋明确多家公司布局丝杠 • 从实验室到赛场我国人形机器人迎来迅猛发展
• 机器人产业前景广阔汽车零部件企业入局抢抓先 • 外媒：人形机器人首次在中国汽车工厂协作应用
• 马斯克：今年目标生产5000台人形机器人 • 广东推出12项硬核举措力促AI与机器人产业跃升

共0条 [查看全部] 相关评论

展会更多+

第26届上海国际清

2025数控机床与金

2025中国(上海)机

2025武汉国际工业

04-032025中国(东莞)切削工业装备博览会

01-13第26届上海国际清洁技术与设备博览会

12-112025数控机床与金属加工展暨第25届中国国际工业博览会

12-092025中国(上海)机器视觉展

12-042025第七届亚洲消费电子技术展

视频更多+

中舟智能固守科技

玉沣科技：精研滑

新松机器人自动化

罗克韦尔自动化（

10-11中舟智能固守科技创新新品首发添彩中国梦

10-11玉沣科技：精研滑台十二载遥遥领先的模组

08-05新松机器人自动化股份有限公司

07-18罗克韦尔自动化（中国）企业宣传片

07-18凌华科技机器手臂视觉导引解决方案

点击排行

积极拥抱未来产业上交所举办人

“人机协同”要发挥各自“比较优

广东推出12项硬核举措力促AI与

多地竞逐具身智能人形机器人产

马斯克：今年目标生产5000台人形

机器人产业前景广阔汽车零部件

从实验室到赛场我国人形机器人

人形机器人生产节奏渐趋明确多

外媒：人形机器人首次在中国汽车

在成都，机器人批量造机器人

我的供应

我的求购

商铺管理

工业机器人及行业应用

智能机器人

工业自动化

智能装备

想独立开展深度学习研究，你准备好了吗？

• 7年投资44.2亿元！广东持续推进AI与机器人关键	• 人形机器人商业化落地可期
• 在成都，机器人批量造机器人	• 持续构建创新生态，浦东加速人形机器人多元场景
• 人形机器人生产节奏渐趋明确多家公司布局丝杠	• 从实验室到赛场我国人形机器人迎来迅猛发展
• 机器人产业前景广阔汽车零部件企业入局抢抓先	• 外媒：人形机器人首次在中国汽车工厂协作应用
• 马斯克：今年目标生产5000台人形机器人	• 广东推出12项硬核举措力促AI与机器人产业跃升

第26届上海国际清	2025数控机床与金
2025中国(上海)机	2025武汉国际工业

中舟智能固守科技	玉沣科技：精研滑
新松机器人自动化	罗克韦尔自动化（