文章/答案/技术大牛

发布

社区首页 >问答首页 >传输端点未连接- Mesos从站/主站

问传输端点未连接- Mesos从站/主站
EN

Stack Overflow用户

提问于 2015-08-06 22:49:10

回答 4查看 12K关注 0票数 19

我在试着把一个Mesos的从属连接到它的主上。每当从服务器尝试连接到主服务器时，我都会收到以下消息：

I0806 16:39:59.090845   935 hierarchical.hpp:528] Added slave 20150806-163941-1027506442-5050-921-S3 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] (allocated: )
E0806 16:39:59.091384   940 socket.hpp:107] Shutdown failed on fd=25: Transport endpoint is not connected [107]
I0806 16:39:59.091508   940 master.cpp:3395] Registered slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000]
I0806 16:39:59.091747   940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected
I0806 16:39:59.091868   940 master.cpp:2203] Disconnecting slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092031   940 master.cpp:2222] Deactivating slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092248   939 hierarchical.hpp:621] Slave 20150806-163941-1027506442-5050-921-S3 deactivated

错误似乎是：

E0806 16:39:59.091384 940 socket.hpp:107]在fd=25上关闭失败:传输端点未连接107

主机是使用以下命令启动的：

./mesos-master.sh --ip=10.129.62.61 --work_dir=~/Mesos/mesos-0.23.0/workdir/ --zk=zk://10.129.62.61:2181/mesos --quorum=1

和奴隶

./mesos-slave.sh --master=zk://10.129.62.61:2181/mesos

如果我在与主机相同的VM上运行从机，它工作得很好。

我在网上找不到太多的信息。我在VirtualBox 5上运行两个虚拟机器(debian8.1)，主机是windows7。

编辑1:

主服务器和从服务器都在一个专用的VM上运行。

两个VMs都使用桥接网络进行配置。

来自master的ifconfig：

eth0      Link encap:Ethernet  HWaddr 08:00:27:cc:6c:6e
          inet addr:10.129.62.61  Bcast:10.129.255.255  Mask:255.255.0.0
          inet6 addr: fe80::a00:27ff:fecc:6c6e/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:5335953 errors:0 dropped:0 overruns:0 frame:0
          TX packets:1422428 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:595886271 (568.2 MiB)  TX bytes:362423868 (345.6 MiB)

来自从站的ifconfig：

eth0      Link encap:Ethernet  HWaddr 08:00:27:56:83:20
          inet addr:10.129.62.49  Bcast:10.129.255.255  Mask:255.255.0.0
          inet6 addr: fe80::a00:27ff:fe56:8320/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:4358561 errors:0 dropped:0 overruns:0 frame:0
          TX packets:3825 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:397126834 (378.7 MiB)  TX bytes:354116 (345.8 KiB)

编辑2:

从日志可以在http://pastebin.com/CXZUBHKr上找到

主日志可以在http://pastebin.com/thYR1par上找到

linux

debian

virtualbox

mesos

marathon

回答 4

Stack Overflow用户

回答已采纳

发布于 2015-08-13 07:23:11

我也遇到过类似的问题。我的从属日志会填满

    E0812 15:58:04.017990  2193 socket.hpp:107] Shutdown failed on fd=13: Transport endpoint is not connected [107]

我的主人会

    F0120 20:45:48.025610 12116 master.cpp:1083] Recovery failed: Failed to recover registrar: Failed to perform fetch within 1mins

并且主服务器将死亡，并且将发生新的选举，被杀死的主服务器将由upstart重启(我在Centos 6机器上)，并被添加到潜在的主服务器池中。因此，我选择的主节点将以菊花链的形式围绕我的主节点。许多主机和从机的重新启动都没有做任何事情，问题会在主机选举后的1分钟内持续出现。

我的解决方案来自于一个this stackoverflow问题(谢谢)和github gist note中的一个提示。

它的要点是/etc/default/mesos-master必须指定一个仲裁数量(它需要正确的mesos主数量，在我的例子中是3)

    MESOS_QUORUM=2

这对我来说似乎很奇怪，因为我在文件/etc/mesos-master/quorum中有相同的信息

但我将其添加到/etc/default/mesos-master中，重新启动了mesos-master和slaves，问题没有再次出现。

我希望这对你有帮助。

票数 12

Stack Overflow用户

发布于 2016-02-17 05:16:25

在升级mesos版本(例如0.20.0 -> 0.27.0)时，我在日志中遇到了这个错误。有时以前版本的数据与其他版本不兼容。

下面是我的补救方法：

首先确保所有节点停止mesos-master服务：

sudo service mesos-master stop

然后清除所有潜在的旧数据：

Remove $MESOS_WORK_DIR (我的例子是/var/mesos)：

sudo rm -rf /var/mesos

Clear我们的中间数据在ZooKeeper中：

$ zkCli.sh WatchedEvent状态:同步连接类型:无路径:null zk: localhost:2181(已连接)0 rmr /mesos zk: localhost:2181(已连接)0退出...

完成这些步骤后，我在所有节点上启动了mesos-master服务，它又恢复了在线状态。

票数 2

Stack Overflow用户

发布于 2016-04-18 19:51:45

I0806 16:39:59.091747   940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected

这是错误提示。

您的slave暴露了错误的IP。

将--ip=10.129.62.49附加到从命令后，它就可以工作了。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31858937

复制

相似问题

问传输端点未连接- Mesos从站/主站
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问传输端点未连接- Mesos从站/主站EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问传输端点未连接- Mesos从站/主站
EN