意外的收获

最近几天一直找整站下载的软件,找了很多,没有一个比较完美的。。。现在网站论坛什么的登陆验证机制比较复杂,用这些老软件爬登陆验证都有一些问题,后来我终于认识到,只能自己写爬虫了。

测试了很多扒站软件,却有一个比较意外的收获,就是:仿站小工具+V8.2, 这个软件用来扒Lander真是太合适了。虽然ctrl + S 能搞定大部分Lander下载,但是没有这个小工具清晰

使用winhttrack整站下载(扒站)

虽然我学了一段时间的python爬虫,但是水平是个半吊子。而且定制爬虫比较费时间,最近有整站下载的需求,就找现成的解决方案(免费的)。找到了httrack和Cyotek, httrack是一个历史悠久的整站下载软件,多平台,功能丰富。而cyotek是比较新的软件,功能不太完善,目前20180929最新的版本是1.6beta, 但是我看了一下的roadmap他们在1.7版才计划引入cookie import, 没有cookie 导入显然弱爆了啊。所以我最后选择了httrack

winhttrack是window平台下的解决方案,按照我的理解,性能可能会比Linux平台下弱一些,但是操作比较方便。winhttrack这个软件,操作比较简单,就不详细介绍了,比较麻烦的两个点是:1) 很多网站内容需要登陆后浏览,需要获取登陆(password auth)后的页面 2.) 默认的采集规则是整站下载,会爬很多我们不需要的东西,所以需要学习采集URL规则的设置

这里记录一下我使用winhttrack采集XX论坛为例子,记录一下:

1. 新建一个项目,捕获登陆URL需要设置代理,需要说明的是ipv6地址需要在浏览器里面设置成[ipv6]:port 格式,简单来说就是要加上[]。先不设置代理,找到登陆入口 www.domain.com/login.php 然后填写账户密码,再设置代理,点击网页登陆按钮,网页跳转失败,winhttrack就捕获到登陆信息了,这里需要检查一下域名是不是对的。然后下面还要填上账户密码。

2. 然后设置选项, 比较重要的几个点就是, 禁用robots.txt?,然后设置scan rules, 这里推荐选择include模式会快很多,同时避免采集不需要的信息,详细的文档看官方的,不是很难:https://www.httrack.com/html/filters.html。 还需要设置browser ID( UA) ,在hts-post0文件中可以找到。

3. 导入cookie文件,chrome浏览器可以使用这个插件导出到文件cookies.txt。https://chrome.google.com/webstore/detail/cookiestxt/njabckikapfpffapmjgojcnbfjonfjfg, 导出以后放到项目对应的文件夹里面,属性设置为只读。

完成上面三点以后就可以开干了。

最后贴一下discuz论坛的include scan rules, 只采集帖子,不采集乱七八糟的东西。
-* +*www.advertcn.com/forum*.html +*www.advertcn.com/thread*.html

参考资料:https://forum.httrack.com/readmsg/34537/33962/index.html

Linode DD 安装 windows

在服务器上DD安装windows是我在hostloc学习到的技术,在vultr上面安装windows系统很简单,vultr提供了一个Custom IOS的功能,但是我一直觉得vultr不如linode高端,无论是机器性能还是SLA的角度。所以我尝试在linode上面安装windows。在linode上面安装windows比vultr复杂一些,需要通过一个叫DD的技术安装,关于DD我没有深入研究,按照我的理解DD是Direct Disk的缩写,这是一种直接复制硬盘的技术,简单粗暴有效。现在记录一下在Linode DD大概的流程,新建一个linode以后:

1.) Create a new Disk

默认的ext4格式即可

2.) Create a new Configuration Profile

Virtual Machine Mode ==》 Full-virtualization
Kernel ==》 Direct Disk
/dev/sda ==》 刚刚你新建磁盘的标签名

3.)进入Rescue模式
点击reboot to resuce mode 按钮

4.)进入 Remote Access
点击Launch Lish Console » Lish via Browser

1).raw后缀DD命令

wget -O- ‘http://wget.la/Windows/windows2008.R2.raw’ | dd of=/dev/sda

Username: administrator
Password: Changeme!!!

2).gz 后缀DD命令
wget -O- ‘http://youdomain.com/dd/win10xiaofd.gz’ | gunzip | dd of=/dev/sda

谷歌网盘地址:https://drive.google.com/file/d/1TmErU8F4SDePUfXixyGJyPDCj4EfTqat/view?usp=sharing 下载后上传到自己的服务器

用户名:xiaofd
密码:xiaofd.win

5.) DD完成以后,网上很多教程说输入reboot命令,按照我的经验好像不行,得在linode面板里面点击reboot按钮

再进入 Glish Launch Graphical Web Console » 这样就可以远程看到安装好的windows了

技术比较简单,不过DD包需要自行收集制作

军哥lnmp wordpress 折腾SSL redirect too much time

博客环境从vestacp换成了军哥lnmp

wordpress对ssl支持好像一般般,加了ssl以后不能加载js css,懒得折腾了,安装了一个“SSL 不安全内容修复器”的插件搞定”

设置http跳转https的时候总是有问题,设置301跳转以后,浏览器提示redirect too much time 。。。太折腾了。。。

搜了半天,终于在军哥论坛找到了解决方案https://bbs.vpser.net/thread-17210-1-1.html

这位仁兄说是cloudflare的锅,我也懒得折腾了,按照他的提示,删除了vhost的,重新生成了vhost,这一次生成vhost的时候,hostname写了两个,默认www.thincliff.com, 还加上了thincliff.com,重新生成以后一切正常了,http跳转https也自动搞定了。。。

具体什么原理就不研究了,浪费了太多时间。。。cloudflare看来是个大坑