Elasticsearch安装以及用logstash数据同步

准备

  • centos系统
  • jdk环境
  • elasticserach版本6.5.3

新建linux用户

由于是在现有的基础上安装elasticserach,所以为了对云主机影响最小,我选择了新建linux用户,这样还有一个好处是 es不能用root用户新建
新建用户命令:

在root用户下 执行
useradd -d /es/release -m es

这样就创建好了es用户,切换到es用户并且回到es用户目录

su es 
cd ~

下载

  1. 下载elasticsearch安装包
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.3.tar.gz
  1. 解压安装包
tar -zxf elasticsearch-6.5.3.tar.gz
  1. 修改配置
vim  elasticsearch.yml

我是在云主机上面玩的,而且还是比阿里云更坑的聚石塔,云主机对外暴露端口有限,简单理解为云主机中的局域网,只开放了几个端口,并且公司业务用最小集群足够满足了,所以一下配置只供参考
现在基本的云服务(比如阿里云)是不支持多播的,所以即使你开启了多播模式你也仅仅只能找到本机上的节点。单播模式安全,也高效,但是缺点就是如果增加了一个新的机器的话,就需要每个节点上进行配置才生效了

#集群名字
cluster.name: guava
#节点名称
node.name: node-es1
#数据路径
path.data: /es/elasticsearch/data
#日志路径
path.logs: /es/elasticsearch/logs
discovery.zen.ping.unicast.hosts: ["IP1","IP2","IP3"]
discovery.zen.minimum_master_nodes: 2
#该节点是否能作为master节点
node.master: true
#该节点是否能作为data节点
node.data: true
#可以支持外网访问
network.host: 0.0.0.0
#外网端口配置
http.port:端口
#节点通信走内网
network.publish_host: 内网IP
#启用xpack
xpack.security.enabled: true
  1. 安装IK分词
打开 https://github.com/medcl/elasticsearch-analysis-ik/releases,找到自己es所对应的版本,复制下载地址
#下载ik
wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.5.3/elasticsearch-analysis-ik-6.5.3.zip
# 解压并且把解压出来的IK文件夹放入es的插件目录
unzip elasticsearch-analysis-ik-6.5.3.zip -d ik

x-pack安装

#启用trial license
curl -H "Content-Type:application/json" -XPOST  http://IP:9200/_xpack/license/start_trial?acknowledge=true
#初始化密码
在elasticsearch的bin目录下面执行
./elasticsearch-setup-passwords interactive
选择y 设置初始化密码

集成logstash-input-jdbc

  1. 参考以下博客
#mysql 准实时同步到 elasticsearch
https://blog.csdn.net/hatlonely/article/details/79945539

https://blog.csdn.net/q15150676766/article/details/75949679
#logstash的配置
https://www.jianshu.com/p/d127c3799ad1

2.安装logstash准备

#由于logstash是用ruby开发,所以需要
安装ruby
yum install ruby
#替换ruby镜像库为国内的库
gem sources --add https://gems.ruby-china.com/ --remove https://rubygems.org/
#检查是否替换成功
gem sources -l

3.下载logstash

#下载logstash
wget https://artifacts.elastic.co/downloads/logstash/logstash-6.5.3.tar.gz

#修改logstash的Gemfile
vi Gemfile,
换源https://gems.ruby-china.com
#安装logstash-input-jdbc
./bin/logstash-plugin  install logstash-input-jdbc
#安装logstash的es插件
./bin/logstash-plugin install  logstash-output-elasticsearch
#下载mysql驱动包
wget https://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.46.zip

4.编写logstash的

input {
  jdbc {
    #mysql驱动包地址
    jdbc_driver_library => "mysql-connector-java-5.1.46-bin.jar"
    #驱动名称
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    #mysql数据库地址
    jdbc_connection_string => "jdbc:mysql://IP:3306/itemcenter?useUnicode=true&characterEncoding=utf8&allowMultiQueries=true&useSSL=false"
    #账号
    jdbc_user => "guava"
    #密码
    jdbc_password => "guava"
    #是否开启分页
    jdbc_paging_enabled => "true"
    #分页大小
    jdbc_page_size => "1000"
    #乱码问题
    codec => plain { charset => "UTF-8"}
    #同步任务规则 cron表达式
    schedule => "* * * * *"
    #执行的sql
    statement => "select id,shop_id,title,price,list_time,delist_time,gmt_modify from tb_front_item  where gmt_modify >= :sql_last_value order by gmt_modify asc "
    #使用记录值
    use_column_value => true
    #类型
    tracking_column_type => "timestamp"
    #列名
    tracking_column => "gmt_modify"
    #同步记录的点
    last_run_metadata_path => "syncpoint_table"
  }
}

output {
  elasticsearch {
    hosts => ["IP:9200"]
    user => ""
    password => ""
    index => "front-item"
    document_id => "%{id}"
  }
}

在此记录以下自己遇到的坑

  1. 由于刚开始自己写的sql里面没有返回gmt_modify,所以在sql_last_value的值每次都是从1970-1-1开始
  2. syncpoint_table文件中记录的不是从最大的那一次时间,而是最后一条数据的时间,我偷懒改了下sql 按照时间排序,如果数据量大不推荐这么干

结束语

在elasticsearch整体的安装中,还算顺利,确实能做到开箱即用,而且es的生态比solrcloud要完善(自我感觉)
在网上看了很多x-pack的说明教程,可惜他们的es版本都不是最新的,所以我还需要自己专研以下,不过问题不大,打不了不用kibana,如果有知道怎么用的大佬请告知我一下 QQ:695234456

你可能感兴趣的