我在试着把一个Mesos的从属连接到它的主上。每当从服务器尝试连接到主服务器时,我都会收到以下消息:
I0806 16:39:59.090845 935 hierarchical.hpp:528] Added slave 20150806-163941-1027506442-5050-921-S3 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] (allocated: )
E0806 16:39:59.091384 940 socket.hpp:107] Shutdown failed on fd=25: Transport endpoint is not connected [107]
I0806 16:39:59.091508 940 master.cpp:3395] Registered slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000]
I0806 16:39:59.091747 940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected
I0806 16:39:59.091868 940 master.cpp:2203] Disconnecting slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092031 940 master.cpp:2222] Deactivating slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092248 939 hierarchical.hpp:621] Slave 20150806-163941-1027506442-5050-921-S3 deactivated错误似乎是:
E0806 16:39:59.091384 940 socket.hpp:107]在fd=25上关闭失败:传输端点未连接107
主机是使用以下命令启动的:
./mesos-master.sh --ip=10.129.62.61 --work_dir=~/Mesos/mesos-0.23.0/workdir/ --zk=zk://10.129.62.61:2181/mesos --quorum=1和奴隶
./mesos-slave.sh --master=zk://10.129.62.61:2181/mesos如果我在与主机相同的VM上运行从机,它工作得很好。
我在网上找不到太多的信息。我在VirtualBox 5上运行两个虚拟机器(debian8.1),主机是windows7。
编辑1:
主服务器和从服务器都在一个专用的VM上运行。
两个VMs都使用桥接网络进行配置。
来自master的ifconfig:
eth0 Link encap:Ethernet HWaddr 08:00:27:cc:6c:6e
inet addr:10.129.62.61 Bcast:10.129.255.255 Mask:255.255.0.0
inet6 addr: fe80::a00:27ff:fecc:6c6e/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:5335953 errors:0 dropped:0 overruns:0 frame:0
TX packets:1422428 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:595886271 (568.2 MiB) TX bytes:362423868 (345.6 MiB)来自从站的ifconfig:
eth0 Link encap:Ethernet HWaddr 08:00:27:56:83:20
inet addr:10.129.62.49 Bcast:10.129.255.255 Mask:255.255.0.0
inet6 addr: fe80::a00:27ff:fe56:8320/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:4358561 errors:0 dropped:0 overruns:0 frame:0
TX packets:3825 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:397126834 (378.7 MiB) TX bytes:354116 (345.8 KiB)编辑2:
从日志可以在http://pastebin.com/CXZUBHKr上找到
主日志可以在http://pastebin.com/thYR1par上找到
发布于 2015-08-13 07:23:11
我也遇到过类似的问题。我的从属日志会填满
E0812 15:58:04.017990 2193 socket.hpp:107] Shutdown failed on fd=13: Transport endpoint is not connected [107]我的主人会
F0120 20:45:48.025610 12116 master.cpp:1083] Recovery failed: Failed to recover registrar: Failed to perform fetch within 1mins并且主服务器将死亡,并且将发生新的选举,被杀死的主服务器将由upstart重启(我在Centos 6机器上),并被添加到潜在的主服务器池中。因此,我选择的主节点将以菊花链的形式围绕我的主节点。许多主机和从机的重新启动都没有做任何事情,问题会在主机选举后的1分钟内持续出现。
我的解决方案来自于一个this stackoverflow问题(谢谢)和github gist note中的一个提示。
它的要点是/etc/default/mesos-master必须指定一个仲裁数量(它需要正确的mesos主数量,在我的例子中是3)
MESOS_QUORUM=2这对我来说似乎很奇怪,因为我在文件/etc/mesos-master/quorum中有相同的信息
但我将其添加到/etc/default/mesos-master中,重新启动了mesos-master和slaves,问题没有再次出现。
我希望这对你有帮助。
发布于 2016-02-17 05:16:25
在升级mesos版本(例如0.20.0 -> 0.27.0)时,我在日志中遇到了这个错误。有时以前版本的数据与其他版本不兼容。
下面是我的补救方法:
首先确保所有节点停止mesos-master服务:
sudo service mesos-master stop然后清除所有潜在的旧数据:
$MESOS_WORK_DIR (我的例子是/var/mesos):sudo rm -rf /var/mesos
$ zkCli.sh WatchedEvent状态:同步连接类型:无路径:null zk: localhost:2181(已连接)0 rmr /mesos zk: localhost:2181(已连接)0退出...
完成这些步骤后,我在所有节点上启动了mesos-master服务,它又恢复了在线状态。
发布于 2016-04-18 19:51:45
I0806 16:39:59.091747 940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected这是错误提示。
您的slave暴露了错误的IP。
将--ip=10.129.62.49附加到从命令后,它就可以工作了。
https://stackoverflow.com/questions/31858937
复制相似问题