您当前的位置:首页 > linux > Wget快速扒网站源码

Wget快速扒网站源码

日期:2021-07-13 09:00:35    浏览:308

wget -r -p -k -np -e robots=off --no-cookie --no-check-certificate  https://www.baidu.com/ 


参数说明:
-r   :  递归下载
-p  :  下载所有用于显示 HTML 页面的图片之类的元素
-k  :  把已下载文件中的所有链接都转换为本地引用,不在依赖原始或在线内容
-np:   不追溯至父目录

--no-cookie --no-check-certificate  忽略ssl

--user-agent =""

--referer  http://www.qin500.com  

-e robots=off 可以,忽略robots.txt文件

wget -H --load-cookies ./c.txt --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67" -r -p -k -np -e robots=off 

2、wget -r -np -nd http://example.com/
这条命令可以下载 http://example.com网站根目录中的所有文件。其中,-np 的作用是不遍历父目录,-nd 表示不在本机重新创建目录结构。

3、wget -m -k (-H) http://www.example.com/
该命令可用来镜像一个网站,wget 将对链接进行转换。如果网站中的图像是放在另外的站点,那么可以使用 -H 选项。

Tags: linux

世事无常

要有遥不可及的梦想,也要有脚踏实地的本事