首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >传输端点未连接- Mesos从站/主站

传输端点未连接- Mesos从站/主站
EN

Stack Overflow用户
提问于 2015-08-06 22:49:10
回答 4查看 12K关注 0票数 19

我在试着把一个Mesos的从属连接到它的主上。每当从服务器尝试连接到主服务器时,我都会收到以下消息:

代码语言:javascript
复制
I0806 16:39:59.090845   935 hierarchical.hpp:528] Added slave 20150806-163941-1027506442-5050-921-S3 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] (allocated: )
E0806 16:39:59.091384   940 socket.hpp:107] Shutdown failed on fd=25: Transport endpoint is not connected [107]
I0806 16:39:59.091508   940 master.cpp:3395] Registered slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000]
I0806 16:39:59.091747   940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected
I0806 16:39:59.091868   940 master.cpp:2203] Disconnecting slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092031   940 master.cpp:2222] Deactivating slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092248   939 hierarchical.hpp:621] Slave 20150806-163941-1027506442-5050-921-S3 deactivated

错误似乎是:

E0806 16:39:59.091384 940 socket.hpp:107]在fd=25上关闭失败:传输端点未连接107

主机是使用以下命令启动的:

代码语言:javascript
复制
./mesos-master.sh --ip=10.129.62.61 --work_dir=~/Mesos/mesos-0.23.0/workdir/ --zk=zk://10.129.62.61:2181/mesos --quorum=1

和奴隶

代码语言:javascript
复制
./mesos-slave.sh --master=zk://10.129.62.61:2181/mesos

如果我在与主机相同的VM上运行从机,它工作得很好。

我在网上找不到太多的信息。我在VirtualBox 5上运行两个虚拟机器(debian8.1),主机是windows7。

编辑1:

主服务器和从服务器都在一个专用的VM上运行。

两个VMs都使用桥接网络进行配置。

来自master的ifconfig:

代码语言:javascript
复制
eth0      Link encap:Ethernet  HWaddr 08:00:27:cc:6c:6e
          inet addr:10.129.62.61  Bcast:10.129.255.255  Mask:255.255.0.0
          inet6 addr: fe80::a00:27ff:fecc:6c6e/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:5335953 errors:0 dropped:0 overruns:0 frame:0
          TX packets:1422428 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:595886271 (568.2 MiB)  TX bytes:362423868 (345.6 MiB)

来自从站的ifconfig:

代码语言:javascript
复制
eth0      Link encap:Ethernet  HWaddr 08:00:27:56:83:20
          inet addr:10.129.62.49  Bcast:10.129.255.255  Mask:255.255.0.0
          inet6 addr: fe80::a00:27ff:fe56:8320/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:4358561 errors:0 dropped:0 overruns:0 frame:0
          TX packets:3825 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:397126834 (378.7 MiB)  TX bytes:354116 (345.8 KiB)

编辑2:

从日志可以在http://pastebin.com/CXZUBHKr上找到

主日志可以在http://pastebin.com/thYR1par上找到

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2015-08-13 07:23:11

我也遇到过类似的问题。我的从属日志会填满

代码语言:javascript
复制
    E0812 15:58:04.017990  2193 socket.hpp:107] Shutdown failed on fd=13: Transport endpoint is not connected [107]

我的主人会

代码语言:javascript
复制
    F0120 20:45:48.025610 12116 master.cpp:1083] Recovery failed: Failed to recover registrar: Failed to perform fetch within 1mins

并且主服务器将死亡,并且将发生新的选举,被杀死的主服务器将由upstart重启(我在Centos 6机器上),并被添加到潜在的主服务器池中。因此,我选择的主节点将以菊花链的形式围绕我的主节点。许多主机和从机的重新启动都没有做任何事情,问题会在主机选举后的1分钟内持续出现。

我的解决方案来自于一个this stackoverflow问题(谢谢)和github gist note中的一个提示。

它的要点是/etc/default/mesos-master必须指定一个仲裁数量(它需要正确的mesos主数量,在我的例子中是3)

代码语言:javascript
复制
    MESOS_QUORUM=2

这对我来说似乎很奇怪,因为我在文件/etc/mesos-master/quorum中有相同的信息

但我将其添加到/etc/default/mesos-master中,重新启动了mesos-master和slaves,问题没有再次出现。

我希望这对你有帮助。

票数 12
EN

Stack Overflow用户

发布于 2016-02-17 05:16:25

在升级mesos版本(例如0.20.0 -> 0.27.0)时,我在日志中遇到了这个错误。有时以前版本的数据与其他版本不兼容。

下面是我的补救方法:

首先确保所有节点停止mesos-master服务:

代码语言:javascript
复制
sudo service mesos-master stop

然后清除所有潜在的旧数据:

  1. Remove $MESOS_WORK_DIR (我的例子是/var/mesos):

sudo rm -rf /var/mesos

  • Clear我们的中间数据在ZooKeeper中:

$ zkCli.sh WatchedEvent状态:同步连接类型:无路径:null zk: localhost:2181(已连接)0 rmr /mesos zk: localhost:2181(已连接)0退出...

完成这些步骤后,我在所有节点上启动了mesos-master服务,它又恢复了在线状态。

票数 2
EN

Stack Overflow用户

发布于 2016-04-18 19:51:45

代码语言:javascript
复制
I0806 16:39:59.091747   940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected

这是错误提示。

您的slave暴露了错误的IP。

--ip=10.129.62.49附加到从命令后,它就可以工作了。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31858937

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档