机器学习平台cube studio部署

(作者:陈玓玏)
项目地址:
https://github.com/tencentmusic/cube-studio
或者查看
https://gitee.com/data-infra/cube-studio/blob/master/install/README.md

想要部署机器学习平台,但平台对机器还是有一定要求的,所以在腾讯云购买了一台服务器,配置信息如下,以避免在部署过程中因为机器的性能问题而部署失败。
机器学习平台cube studio部署_第1张图片
购买完成后,直接登录服务器,是酱紫的
机器学习平台cube studio部署_第2张图片
打开机器学习平台的主页,网比较好就看https://github.com/tencentmusic/cube-studio,网不太好就看https://gitee.com/data-infra/cube-studio,滑到平台部署那个位置,直接看怎么部署!部署流程和所需环境在install/readme.md中。

基础环境依赖

docker >= 19.03
kubernetes = 1.18
kubectl >=1.18
cfs/ceph 挂载到每台机器的 /data/k8s/
单机 磁盘>=500G 单机磁盘容量要求不大,仅做镜像容器的的存储
控制端机器 cpu>=16 mem>=32G
任务端机器,根据需要自行配置

在一台全新的服务器上,我们需要先安装docker和k8s,由于rancher能管理k8s集群,我们直接安装rancher。

一、安装docker

#设置docker存储库
sudo apt-get update
sudo apt-get install \
    ca-certificates \
    curl \
    gnupg \
    lsb-release
 
 #添加官方秘钥
 sudo mkdir -p /etc/apt/keyrings
 curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg

#稳定存储库
echo \
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \
  $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

#安装docker
sudo apt-get update
#查看存储库中的可用版本,因为我们需要19.03以上的docker
apt-cache madison docker-ce

机器学习平台cube studio部署_第3张图片
选择安装需要版本的docker

sudo apt-get install docker-ce=5:19.03.15~3-0~ubuntu-focal docker-ce-cli=5:19.03.15~3-0~ubuntu-focal containerd.io docker-compose-plugin

有时候会出现这样的错误

 Err:5 https://download.docker.com/linux/ubuntu focal/stable amd64 docker-ce-cli amd64 5:19.03.15~3-0~ubuntu-focal
  Could not wait for server fd - select (11: Resource temporarily unavailable) [IP: 13.249.171.37 443]

是网络的问题,重新运行一遍就好了。
接下来测试一下
在这里插入图片描述
表明安装成功了。

二、安装rancher

sudo docker run -d --privileged --restart=unless-stopped  -p 443:443   rancher/rancher:v2.5.2

安装完成后,使用公网ip+443端口打开rancher页面。
机器学习平台cube studio部署_第4张图片
设置密码,去掉allow collection of anonymous statistics,勾选上I agree to the Terms and Conditions for using Rancher。

三、配置k8s集群

进入rancher后,add cluter,后面可以在右下角选择把语言切换成中文。
机器学习平台cube studio部署_第5张图片
选择自定义
机器学习平台cube studio部署_第6张图片
机器学习平台cube studio部署_第7张图片
机器学习平台cube studio部署_第8张图片
修改yaml文件,在kube_api部分用以下替换,并新增下面的kubelet部分,注意空格要对齐哦

    kube_api:
      always_pull_images: false
      pod_security_policy: false
      service_node_port_range: 10-32767
      extra_args:     
        service-account-issuer: kubernetes.default.svc
        service-account-signing-key-file: /etc/kubernetes/ssl/kube-service-account-token-key.pem
    kubelet:
      extra_binds:
        - '/data:/data'

机器学习平台cube studio部署_第9张图片
主机选项把以上三个角色都勾选,并复制下面的命令,到服务器中执行,点击完成。
机器学习平台cube studio部署_第10张图片
这样就表示集群和机器都准备好啦!

四、安装cube-studio
接下来下载cube-studio,我下载的是master分支

git clone https://gitee.com/data-infra/cube-studio.git

点击进入集群
机器学习平台cube studio部署_第11张图片
打开kubeconfig文件
机器学习平台cube studio部署_第12张图片
点击左下方的复制到剪贴板,在服务器中切换到/cube-studio/install/kubernetes目录下,新增一个config文件,将复制的内容添加到config文件中,并执行以下命令:

sudo sh start.sh 172.16.0.13

这里的ip记得改成你的内网ip。

运行结束后,打开外网ip,比如我的是159.75.206.154,打开http://159.75.206.154,还需要移动一下命名空间,
机器学习平台cube studio部署_第13张图片
能打开http://外网ip即为成功,不成功可以在rancher中查看一下是哪个组件安装失败,有时候是因为网络问题拉取镜像失败,可以重新拉取一次(github时行时不行的),或者需要手动拉取,或提bug给开源项目。

部署成功后的界面:
机器学习平台cube studio部署_第14张图片

参考链接:
https://docs.docker.com/engine/install/ubuntu/
https://gitee.com/data-infra/cube-studio/tree/master
http://docs.rancher.cn/docs/rancher2.5/quick-start-guide/deployment/quickstart-manual-setup/_index

你可能感兴趣的