本周,我们在不同的服务器上看到了两次这种情况(一次分期,一次生产)。
2017-10-19T12:50:37.525-0400 I ACCESS [conn266] Successfully authenticated as principal ********* on admin
2017-10-19T13:00:42.782-0400 E STORAGE [thread2] WiredTiger (-28817) [1508432442:782769][1520:8790690042448], file:WiredTiger.wt, WT_SESSION.checkpoint: c:\mongo\data\WiredTiger.turtle.set to c:\mongo\data\WiredTiger.turtle: file-rename: rename: Cannot create a file when that file already exists.
2017-10-19T13:00:42.784-0400 E STORAGE [thread2] WiredTiger (-28817) [1508432442:784770][1520:8790690042448], checkpoint-server: checkpoint server error: Cannot create a file when that file already exists.
2017-10-19T13:00:42.785-0400 E STORAGE [thread2] WiredTiger (-31804) [1508432442:785770][1520:8790690042448], checkpoint-server: the process must exit and restart: WT_PANIC: WiredTiger library panic
2017-10-19T13:00:42.785-0400 I - [thread2] Fatal Assertion 28558
2017-10-19T13:00:42.785-0400 I - [thread2]
***aborting after fassert() failure
2017-10-19T13:00:42.805-0400 I - [conn259] Fatal Assertion 28559
2017-10-19T13:00:42.806-0400 I - [conn259]
***aborting after fassert() failure结果是管理数据库被删除。要恢复,我们需要禁用身份验证和重新创建所有用户。原始数据文件似乎包含数据,但在shell命令中不再可见。
两台服务器已经独立运行了几个月,运行正常。他们运行的是同一个版本的Mongo,但与之交互的软件版本却非常不同。
我想我有两个问题:
( 1)是什么导致了这一特殊的失败?
c:\mongo\data\WiredTiger.turtle显然不应该在这一点上存在,但它确实存在;是什么导致了这一点?他们有广泛的安全协议,包括Bit9和反病毒解决方案.我建议了一个排定的碎片整理作业(他们在运行SSD,所以碎片整理不应该运行,但是嘿.)但他们找不到任何证据表明在这两台服务器上都发生了碎片。
( 2)是什么原因使他们经历了一到两天的相同的碰撞?
这两种制度唯一的共同点是蒙古。顺便提一下,我们将建议日志记录和复制(它们的生产环境仍然处于测试推出阶段,因此这次的停机时间和数据丢失是可以接受的)。
发布于 2017-10-24 18:55:13
你用的是什么版本?这是已知臭虫,在3.2.13、3.4.4、3.5.6版本中进行了修正。
https://dba.stackexchange.com/questions/189216
复制相似问题