Python怎么执行网页的js(浏览器执行python)

茫然知了 • 2023-09-23 13:34 • 生活指南 • 阅读 68

如何用Python爬虫抓取JS动态筛选内容

用dryscrape库动态抓取页面 js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。

对比一下过滤和没有过滤的标签，看看哪些属性不同，根据这些不同的属性来选择。

方法/步骤在做爬取数据之前，你需要下载安装两个东西，一个是urllib，另外一个是python-docx。

对于这种动态加载的网站，建议使用第三方库selenium爬取。它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

模拟请求网页。模拟浏览器，打开目标网站。获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

re匹配目标内容前后的特征值，比如多篇文章页面，都在一个标签中，那么写正则抓取这部分内容。beautifulsoup有选择节点的方法，可以去看看手册，用beautifulsoup里面的方法，选择目标节点。

打开浏览器，以google chrome为例，输入你上面的网址。然后按F12打开调试窗口，然后尝试勾选左边某一个选项，马上可以看到右边的调试窗口有东西输出。找到第一个输出的行，点击header，可以看到每一个都是用的post方法。

查看相应的js代码，用python获取原始数据之后，模仿js编写相应的python代码。通过接口api获得数据，直接使用python获取接口数据并处理。三。终极方法。

js代码是需要js引擎运行的，Python只能通过HTTP请求获取到HTML、CSS、JS原始代码而已。不知道有没有用Python编写的JS引擎，估计需求不大。我一般用PhantomJS、CasperJS这些引擎来做浏览器抓取。

对于这种动态加载的网站，建议使用第三方库selenium爬取。它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

你要运行js，一个是调用浏览器，比如直接调webkitgtk，或者用selenium。也有python写的解释器，我知道一个pynarcissus，其它你可以百度看看。

调用js方法 execute_script(script， *args)在当前窗口/框架同步执行javaScript 脚本：JavaScript的执行。参数：适用任何JavaScript脚本。

在Python中，可以使用json模块来处理json文件，并使用json.dumps()函数将json文件转换成字符串，然后再将字符串写入js文件中。

首先在项目根路径下新建一个static文件夹，然后在static文件夹下可以新建相应的css、imgs、js等文件夹，用于存放css、img、js等静态文件。

用dryscrape库动态抓取页面 js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。

还有一点可以试试用nodejs跑js代码当然前提是那个代码不涉及浏览器的一些内容比如扣扣空间的密码加密代码它就是将输入的代码加密成密文这样我们可以把这段加密函数直接保存下来爬虫时每次调用下就好。

用dryscrape库动态抓取页面 js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。

让Python去调用该程序，通过读文件方式获得内容。

找到第一个输出的行，点击header，可以看到每一个都是用的post方法。所以只需要构造相应的header并post上去，就可以得到你想要的数据了。

以上内容为新媒号(sinv.com.cn)为大家提供！新媒号，坚持更新大家所需的前端知识。希望您喜欢！

版权申明：新媒号所有作品（图文、音视频）均由用户自行上传分享，仅供网友学习交流，不声明或保证其内容的正确性，如发现本站有涉嫌抄袭侵权/违法违规的内容。请发送邮件至 k2#88.com(替换@) 举报，一经查实，本站将立刻删除。