selenium获取js加载的网页(selenium获取href)

茫然知了 • 2023-09-23 13:17 • 生活指南 • 阅读 76

如何用python爬虫直接获取被js修饰过的网页Elements?

对于这种动态加载的网站，建议使用第三方库selenium爬取。它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

打开浏览器，以google chrome为例，输入你上面的网址。然后按F12打开调试窗口，然后尝试勾选左边某一个选项，马上可以看到右边的调试窗口有东西输出。找到第一个输出的行，点击header，可以看到每一个都是用的post方法。

模拟请求网页。模拟浏览器，打开目标网站。获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

chrome出了headless浏览器，无头就是没有界面，据说出了这东西后phantomjs都宣布停止更新了，不过phantomjs还是能用的，也是headless浏览器。

通常是先获取相关源码，然后参考js源码，利用python伪造一个请求（带上所需的参数）再向服务器获取一次内容。动态内容的爬取，也是爬虫面临的一个比较大的难题。很多动态请求事实上并不是那么容易伪造的。

asp代码是在服务端执行的，要获取js执行的结果，只能用js通过ajax提交给后端对应的接口。或者通过url跳转，把数据带在url中，asp去解析url。或者通过表单提交。

需要获取网页中的javascript执行后生成的完整的网页源码（通常使用的右键-查看源代码是看不到js执行后的内容的，用firefox的firebug看到的代码就是js执行后的代码），从中提取一些有用的数据。

对于这种动态加载的网站，建议使用第三方库selenium爬取。它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

第一步，查看网页源代码，找到ajax请求的URL。

有两种方式供选择我推荐第一种，一：去阅读相关的网页里的js和网页请求之后的header，通过hander知道这个获取这个信息的接口。通过httpclient来获知你想要的信息。

一般js文件或css文件都在网页的头部head与/head之间加载，为超链接形式，点击，会以新页面形式显示js文件或css文件的源代码，再右键菜单上选择”另存为“可以存到本地硬盘。

找到你所需的页面，F12打开控制台，可以在source 下面找到加载的文件。如果不行的话，点开network，会有该页面的加载的一系列的资源文件。找到js文件或者HTML文件打开。然后，点开查看，文件中的信息。

代码比较简单，直接看就可以了，需要注意的是，由于浏览器查询需要时间，在查询的过程中，应该让主线程休眠一段时间，才能保证htmlunit浏览器已经查询完毕。

在浏览器中打开要调试的网页，然后点击”F12 Developer Tools“，也可以使用快捷键F12。弹出的工具窗口中，默认选择是Dom Explorer功能，它会列出网页的源代码和CSS样式列表。

1、法1：直接分析ajax调用的接口。然后通过代码请求这个接口。法2：使用Selenium+chromedriver模拟浏览器行为获取数据。Selenium 相当于是一个机器人。

2、selenium通过获取渲染后的网页源码，并通过丰富的查找工具，个人认为最好用的就是find_element_by_xpath(xxx)，通过该方式查找到元素后可执行点击、输入等事件，进而向服务器发出请求，获取所需的数据。

3、用dryscrape库动态抓取页面 js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。

4、网页爬取不一定要用Selenium，Selenium是为了注入浏览器获取点击行为的调试工具，如果网页无需人工交互就可以抓取，不建议你使用selenium。

以上内容为新媒号(sinv.com.cn)为大家提供！新媒号，坚持更新大家所需的前端知识。希望您喜欢！

版权申明：新媒号所有作品（图文、音视频）均由用户自行上传分享，仅供网友学习交流，不声明或保证其内容的正确性，如发现本站有涉嫌抄袭侵权/违法违规的内容。请发送邮件至 k2#88.com(替换@) 举报，一经查实，本站将立刻删除。