我需要导入维基百科转储(mysql表,解压的文件需要大约50 to )到Hadoop(hbase)。现在,我首先将dump加载到mysql中,然后将数据从mysql传输到hadoop。但是将数据加载到mysql需要大量的时间--大约4-7天。是否可以将mysql转储直接加载到hadoop中(通过转储文件解析器或其他类似工具)?
我在我的数据库中有许多表,我用下面的代码收集计算值,并希望将这些值插入到其他表中。我使用SELECT INTO方法,但是数据库告诉我“不正确的语法靠近关键字到行.”。我相信有些东西我错过了,但不知道在哪里。密码看上去没问题。这是我的密码。任何帮助都将不胜感激。tbl_machines.[manufacturer] As 'Manufacturer',
tbl_machines.[type] As
我已经创建了一个php/mysql刮板,它运行得很好,但我不知道如何将它作为cron作业来最有效地运行。我应该将其作为1个cron作业运行整个4-7个小时,还是每小时运行7次,或者每10分钟运行一次,直到完成?我用普通的PHP/mysql写的,它运行在只安装了lighttpd/mysql/php5的cut down d