我在这里问一个相当高的问题,希望在出发前了解一些陷阱。我正在计划一个应用程序,将访问特定的网站收集,处理和格式化表格数据。然后,它必须以某种方式采取特定的web浏览器操作(跟踪链接、发布表单、单击按钮等),以响应收集到的数据,并在过程中出现故障时给出反馈。一个核心要求是,它必须很容易适应不同的页面,即网页上的数据和菜单选项大致相同,但格式不同。页面的格式可以在没有通知的情况下改变,所以错误检测和处理必须是好的。
我考虑使用C#,并在.NET中简单地使用WebBrowser类,因为它至少有很好的工具来操作DOM和运行JavaScript,而不需要任何额外的配置。然而,我是合理的语言不可知论者。我主要担心的是,它的WebBrowser似乎没有像实际执行操作(鼠标点击等)那样紧密地开发。我想知道这会不会让我大吃一惊。此外,如果从服务器端看到程序与人类用户的行为没有区别,则这是一个加号。
这里有人做过这类工作吗?我必须强调的是,我在这里不做web应用程序的测试,这更像是一个机器人。在灵活性和易用性方面,是否有比.NET标准库更适合的库/框架?有什么重大的隐患需要注意吗?
发布于 2011-05-31 13:07:42
我建议您将机械化与漂亮的汤结合起来,它是perl或python,但这正是您所需要的。
https://stackoverflow.com/questions/6184290
复制相似问题