文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用MatLab从这个特定的网站中读取文本来分析音乐偏好

问如何使用MatLab从这个特定的网站中读取文本来分析音乐偏好
EN

Stack Overflow用户

提问于 2018-12-03 07:12:17

回答 1查看 70关注 0票数 0

因此，荷兰每年都会举行一项名为"Top2000“的广播活动，人们可以投票选出他们最喜欢的艺术家和歌曲。我觉得分析一下音乐和艺术家的喜好会很酷。为此，我需要朗读投票列表上的艺术家/歌曲，这些列表是通过网址与我共享的，例如this one。我已经尝试了webread，urlread和wget来下载网页，如下所示：

url = 'https://stem.nporadio2.nl/top2000/share/c93732c2f20c266970eba7447931f25d865407ea'
Data1 = webread(url);
Data2 = urlread(url);
command = ['wget --no-check-certificate --page-requisites ' url];
system( command );

但它们输出的都是HTML元素，没有提到任何艺术家或歌曲，当导航到所述URL时，这些元素都会清楚地显示出来。有没有人对如何从这个网站上提取这些信息有一个想法或提示？提前感谢！注意:我不会问如何剥离HTML元素。然而，使用上面的方法，我正在寻找的实际信息似乎根本就不存在。

wget

matlab

web

extract

回答 1

Stack Overflow用户

发布于 2018-12-03 09:10:38

如果没有正确查看你的网站，我怀疑你想要的元素是动态加载的(例如通过JavaScript)。由于JavaScript不会在你的WGET等过程中运行，这就是为什么你看不到它们，因为所有这些都是抓取网站的HTML。

我知道这是一个Matlab语言的问题，但是我强烈推荐Python上的Selenium来解决你的问题。使用Selenium，程序可以等待网页完全加载，然后获取所需的正确元素。这非常简单，你可以看看这个tutorial。

如果你不喜欢使用Python，你可以找到你网站的Javascript用来抓取艺术家/歌曲列表的实际网址(我快速浏览了一下网站，艺术家似乎加载了main.js)。我在main.js中发现了这一行，它提示函数正在加载列表：

h = null !== n ? n : {
                    _id: "0",
                    _source: {
                        id: 0,
                        artist: s,
                        title: l,
                        image: d.freeChoiceImage
                    }
                };

在这里，您需要跟踪s和l的加载位置，这最终将引导您找到正确的数据库URL。正如您所看到的，这开始变得更加复杂，而使用Selenium，您只需几行代码就可以解决问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53585535

复制

相似问题

问如何使用MatLab从这个特定的网站中读取文本来分析音乐偏好
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用MatLab从这个特定的网站中读取文本来分析音乐偏好EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用MatLab从这个特定的网站中读取文本来分析音乐偏好
EN