• 部署错误处理


    参考地址:https://www.icode9.com/content-4-982994.html

    清理内存
    free -h
    echo 3 >/proc/sys/vm/drop_caches
    #################################################################################
    准备工作:
    在配置install.config 之前,我们可以做以下操作可以降低机器内存的使用:

    1. 修改es的jvm的堆内存值

      在中控机上修改脚本:/data/install/bin/install_es.sh
      JVM_MEM=$(awk '/MemAvailable/{print int($2/1024/1024/2)}' /proc/meminfo) 给定一个较小值
      如:JVM_MEM=2 建议

    2. 修改saas模板的线程数

    在中控机上修改模板文件:/data/src/paas_agent/paas_agent/etc/templates/docker/uwsgi.ini
    将"workers = 16" 改成"workers = 8"

    1. 永久修改saas超时时间

    在中控机上修改模板文件:
    /data/src/open_paas/support-files/templates/paas#conf#settings_production.py.tp
    任意位置添加: EVENT_STATE_EXPIRE_SECONDS = 3600
    /data/src/paas_agent/support-files/templates/#etc#paas_agent_config.yaml.tpl
    EXECUTE_TIME_LIMIT: 300 改为 EXECUTE_TIME_LIMIT: 30000(考虑到咱们机器慢,可以加大这个时间)
    配置install.config

    1. 安装基础平台

    install.config文件直接拷贝官网文档上”1.5 生成并配置 install.config”模板

    10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
    10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
    10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)

    1. 安装监控平台

    deply_iplist地方的填写的ip如下:

    deply_iplist:10.0.0.3,10.0.0.2,10.0.0.1
    注:请按照上面ip的填写顺序填写。

    配置文件如下:

    10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
    10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
    10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)
    [bkmonitorv3]
    10.0.0.3 kafka(config),monitorv3(transfer)
    10.0.0.2 influxdb(bkmonitorv3),monitorv3(influxdb-proxy),monitorv3(grafana)
    10.0.0.1 es7,monitorv3(monitor)

    1. 安装日志平台

    deply_iplist填写的ip如下:

    deply_iplist: 10.0.0.2

    1. 安装故障自愈

    deply_iplist填写的ip如下:

    deply_iplist: 10.0.0.2

    1. 最终生成install.config如下:

    10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
    10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
    10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)
    [bkmonitorv3]
    10.0.0.3 kafka(config),monitorv3(transfer)
    10.0.0.2 influxdb(bkmonitorv3),monitorv3(influxdb-proxy),monitorv3(grafana)
    10.0.0.1 es7,monitorv3(monitor)
    [bklog]
    10.0.0.2 log(api),log(grafana)
    [fta]
    10.0.0.2 fta,beanstalk

    ####################################################
    故障解决方法
    1.【社区版 6.0】 监控平台数据未上报排查思路
    https://bk.tencent.com/s-mart/community/question/1672
    2.glibc和glibc-common版本冲突解决
    https://blog.csdn.net/qq_38695182/article/details/85295105
    3.nginx配置访问密码,输入用户名和密码才能访问
    https://feiutech.blog.csdn.net/article/details/82817874?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control
    4.配置消息通知:邮件
    https://bk.tencent.com/docs/document/6.0/148/8700
    5.标准运维远程加载 https://gitee.com/rustylee/doc/blob/master/%E6%A0%87%E5%87%86%E8%BF%90%E7%BB%B4/%E6%A0%87%E5%87%86%E6%8F%92%E4%BB%B6%E8%BF%9C%E7%A8%8B%E5%8A%A0%E8%BD%BD.md

    1. 邮箱配置 https://gitee.com/rustylee/doc/blob/master/PaaS%E5%B9%B3%E5%8F%B0/%E9%85%8D%E7%BD%AE%E9%82%AE%E7%AE%B1%E9%80%9A%E7%9F%A5.md
      ###########################################################################
      1 系统limits配置不当,无法正常安装SaaS应用
      安装官方文档正常配置limits即可
      cat >> /etc/security/limits.conf << EOF
      root soft nofile 102400
      root hard nofile 102400
      EOF
      2 DNS配置文件首行非nameserver 127.0.0.1,导致无法正常解析
      6.0不会自动在系统/etc/resolv.conf中添加consul服务器地址,需要手动添加
      sed -i '1inameserver 127.0.0.1' /etc/resolv.conf
      3 安装paas多处报错
      检查3台主机名是否相同,若相同需要修改
      4 CLUSTER_IP_LIST(-j) 不能为空,部署paas失败,提示Exited woth error code 1
      检查每台机器 cat /etc/blueking/env/local.env 配置是否有对应的ip
      检查 cat /data/install/bin/01-generate/dbadmin.env该文件中是否有 BK_CONSUL_KEYSTR_32BYTES 值
      若是没有dbadmin.env这个文件需要重新生成,请参考以下步骤

    chattr -i ~/.tag/
    rm -rf ~/.tag/
    rm -rf /data/install/bin/01-generate/
    rm -rf /data/install/bin/02-dynamic/
    rm -rf /data/install/bin/04-final/*
    echo "" > /data/install/.bk_install.step
    ./bk_install common
    机器上执行命令看是否能获取到正确的ip

    ip route get "10.0.0.1" | awk '{print $NF}'
    若是无法获取到,请自行修改 /data/install/bin/update_bk_env.sh 脚本第61行,只要能获取到ip即可
    若是以上均正常,请查看
    pcmd -m all "echo \$BK_CONSUL_KEYSTR_32BYTES"
    若是为空,说明 ./bk_install common 没生成dbadmin相关配置。需要重新生成
    5 安装paas的时候报错,Stderr: Command “python setup.py egg_info” failed with error code 1 in /tmp/pip-build-1vs9US/virtualenvwrapper/ Python工程安装virtualenvwrapper=4.8.4 报错
    source /data/install/utils.fc
    ssh $BK_PAAS_IP
    /opt/py27_e/bin/pip install --no-index --find-links=/data/install/pip stevedore==1.32.0
    /opt/py27_e/bin/pip install --no-index --find-links=/data/install/pip virtualenvwrapper==4.8.4"
    6.部署job报错
    all_iam_api fail,method: http_post path: /api/v1/model/systems/bk_job/actions error: bad request: action id [accessbusiness] related resource type [biz] not exists
    execute operation [ upsert action] bad request : action id [ access business ] related resource type [ biz ] not exists fail,error message : id = access busmigrate [ / data / src / job / support-files / bkiam / 0001 bk job 20200808-1000 iam ison ] failIta / src / job / Support-files / bkiam / 0001 bk job _ 20200808-1000_iam.json import err, Abort.
    解决思路
    (1)、检查iam服务是否正常
    systemctl status bk-iam.service
    若是iam服务一次请查看日志处理,启动iam服务
    若是iam正常,请检查是否可以正确获取业务id

    /data/install/health_check/check_cmdb_blueking_id

    若是获取失败请初始化下cmdb

    ./bkcli stop cmdb
    ./bkcli start cmdb
    pcmd -m cmdb "/data/install/bin/bks.sh cmdb" //服务均running则可以初始化cmdb
    ./bkcli initdata cmdb //若是initdata 失败请查看cmdb日志
    7.部署fta报错 登录到fta机器执行

    /opt/py27/bin/pip install --no-index --find-links=/data/install/pip stevedore==1.32.0
    /opt/py27/bin/pip install --no-index --find-links=/data/install/pip virtualenvwrapper==4.8.4
    8.安装pass平台报错CLUSTER_IP_LIST(-j)不能为空
    检查每台机器 cat /etc/blueking/env/local.env 配置是否有对应的ip
    检查 cat /data/install/bin/01-generate/dbadmin.env该文件中是否有 BK_CONSUL_KEYSTR_32BYTES 值
    若是没有dbadmin.env这个文件需要重新生成,请参考以下步骤
    chattr -i ~/.tag/
    rm -rf ~/.tag/
    rm -rf /data/install/bin/01-generate/
    rm -rf /data/install/bin/02-dynamic/
    rm -rf /data/install/bin/04-final/*
    echo "" > /data/install/.bk_install.step
    ./bk_install common

     

    8.部署job报错找不到bkid
    检查iam服务是否正常
    systemctl status bk-iam.service
    若是iam服务一次请查看日志处理,启动iam服务
    若是iam正常,请检查是否可以正确获取蓝鲸业务id
    /data/install/health_check/check_cmdb_blueking_id
    ./bkcli stop cmdb
    ./bkcli start cmdb
    pcmd -m cmdb "/data/install/bin/bks.sh cmdb" //服务均running则可以初始化cmdb
    ./bkcli initdata cmdb //若是initdata 失败./bkcli restart bkiam
    9.部署 bknodeman(节点管理)超时
    (1)、更改paas所在的主机
    /data/bkce/open_paas/paas/conf/settings_production.py
    EVENT_STATE_EXPIRE_SECONDS = 3600
    HISTORY_EVENT_STATE_EXPIRE_SECONDS = 9000
    (2)、更改appo所在的主机
    /data/bkce/paas_agent/paas_agent/etc/paas_agent_config.yaml
    EXECUTE_TIME_LIMIT: 3000
    ./bkcli restart appo
    ./bkcli restart paas

     

    10.请求系统'metadata_v3'错误,返回错误码: 400,返回消息: 400: {"results":[{"error":"get cluster failed"}]},请求URL: /get_ts_data/
    cd /data/install/
    ./bkcli start bkmonitorv3 influxdb-proxy
    或者

    systemctl start bk-influxdb-proxy.service
    11.安装job报错
    /etc/host手动添加地址

     

    12.安装组件时出现“SaaS App应用当前状态:正在上线,不能进行部署操作!”
    域名+/admin/app/app/ 选择相应saas进去修改应用开发状态为(测试中),可在终端重新部署。
    13.蓝鲸监控主机无上报数据
    (1). 手动启动basereport、processbeat进程
    /usr/local/gse/plugins/bin/start.sh basereport -c /usr/local/gse/plugins/etc/basereport.conf
    /usr/local/gse/plugins/bin/start.sh processbeat -c /usr/local/gse/plugins/etc/processbeat.conf
    (2). 检查monitor状态是否有异常
    ./bkcli check monitorv3
    ./bkcli status monitor3
    (3). 重启
    ./bkcli restart monitor3

     

    14../bk_install common 报错
    检查yum源及epel源,更换为腾讯
    wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.cloud.tencent.com/repo/centos7_base.repo
    wget -O /etc/yum.repos.d/epel.repo http://mirrors.cloud.tencent.com/repo/epel-7.repo
    15.安装到bk_install paas时consul 报错
    (1)、检查selinux 防火墙等是否关闭,或者策略是否开放
    (2)、检查consul 服务是否启动
    ./bkcli status consul
    (3)、consul 未组成集群
    install.config 中的ip必须有唯一对应的主机名
    时间需要同步
    consul members 查看集群状态
    (4)、可以查看consul日志

    /var/log/consul/consul.log
    15.安装itsm报错
    /data/bkce/logs/paasagent/agent.log appo机器看下部署日志
    查看各个状态是否正常,如果出现异常可重启后,都正常后再次安装
    ./bkcli status bkiam
    ./bkcli check bkiam
    ./bkcli status cmdb
    ./bkcli check cmdb
    16.JOB安装agent报错:get agent status error, [3800003] {'message': 'Fail to connect GSE service. Please check if GSE service is normal
    (1)、./bkcli restart gse
    再尝试部署agent
    (2)、agent机器查看是否能连接上gse的48533端口

    netstat -ptn | grep 48533
    17.社区版 6.0 基础包快速部署,执行./bk_install common 提示pssh不存在
    (1). 更新yum源
    wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.cloud.tencent.com/repo/centos7_base.repo
    wget -O /etc/yum.repos.d/epel.repo http://mirrors.cloud.tencent.com/repo/epel-7.repo
    yum clean all
    yum makecache
    (2). 更新后执行
    cd /data/install/
    ./bk_install common
    18.JOB安装:do migrate [/data/src/job/support-files/bkiam/0001_bk_job_20200808-1000_iam.json] fail
    /data/src/job/support-files/bkiam/0001_bk_job_20200808-1000_iam.json import err, Abort.
    解决方法:./bkcli restart bkiam
    ./bkcli initdata cmdb
    19.监控平台check错误信息:请求系统'metadata_v3'错误,返回错误码: 500,返回消息: b'{"results":[{"error":"no backend available now"}]}',请求URL: /get_ts_data/
    解决方法:cd /data/install/
    ./bkcli start bkmonitorv3 influxdb-proxy
    或者
    systemctl start bk-influxdb-proxy.service
    登录influxdb主机
    source /data/install/utils.fc
    ssh $BK_ZK_IP
    systemctl restart influxdb
    20.部署 蓝鲸SaaS(bk_fta_solutions) 1 分钟后报超时错误 ,日志显示APIError: rewrite request failed, oops, there is no topo can be used
    按顺序执行以下
    ./bkcli stop cmdb && ./bkcli start cmdb && ./bkcli initdata cmdb && ./bkcli restart cmdb
    21.安装saas时报错, "Can't connect to MySQL server on 'mysql-default.service.consul'
    cd /data/install && ./bkcli check consul
    有问题重启即可

    ##################################################################
    配置邮件通知参数
    (开发者中心-蓝鲸消息通知-发送邮件)
    smtp_host :smtp.qq.combr/>smtp_port:465
    smtp_user:xxx@qq.com
    smtp_pwd :kfumorvzmryqbjia
    br/>smtp_usessl:True
    smtp_usetls:False
    mail_sender:xxxx@qq.com
    #################################
    br/>admin常用邮箱:xxx@esharex.com
    登录密码:Nuonuo1314
    ##################################
    Postman测试:
    (示例:
    http://paas.bktencent.com:80/api/c/compapi/cmsi/send_mail/?bk_app_code=bk_sops&sender=275374785@qq.com&title=<吴佳桐>; 考试邮件测试&content=<XXX> 考试邮件测试&bk_app_secret=2cba76bc-b10f-437f-b40f-0bcfdb2cb69e&bk_token=WI8TO_mdtWeEgo_skrb0_d2EXhduCTCtgUXTM7pRT8E&receiver=xxx@esharex.com)
    GET http://paas.bktencent.com:80/api/c/compapi/cmsi/send_mail/br/>bk_app_code:bk_sops
    sender:xxx@qq.com
    title:<XXX> 考试邮件测试
    content:<
    XXX> 考试邮件测试
    bk_app_secret:开发者中心-S-mart应用-应用TOKEN
    bk_token:web页面-f12-f5-network-console-Cookies-bk_token
    receiver:xxx@esharex.com

  • 相关阅读:
    计算机网络基础
    计算机网络之应用层
    计算机网络之传输层
    计算机网络之网络层
    计算机通信之数据链路层
    fastjson =< 1.2.47 反序列化漏洞浅析
    你没有见过的加密
    CTF MD5之守株待兔,你需要找到和系统锁匹配的钥匙
    Redis 4.x 5.x 未授权访问
    redis安装
  • 原文地址:https://www.cnblogs.com/js1314/p/15810193.html
Copyright © 2020-2023  润新知