谈火车头采集器的由来火车头：关于采集网站的经验

网络整理 2022-05-17 07:13

一、说说机车收藏家的由来

机车：我们的收藏家从2005年底第一次有这个想法。当时和大家一样，作为个人站长，添加、管理和维护网站非常困难。一开始联系dede，发现他有一个外部c#收集器。不知道有多少人还记得，我的想法基本上是从这个无赖的人那里学来的。一开始我真的什么都不懂。后来学了php和.net，所以只要大家有兴趣，技术上的问题都是可以克服的。收藏到现在，其实收藏只能替代部分站长的手工操作。我们不建议大规模创建垃圾站（完全收集和复制别人的网站），所以我们现在的软件功能越来越多，但新用户使用的可能性越来越小。

搜索外网：

我们现在有一群非常忠诚的成员，他们一直依靠爬虫来更新网站。快速采集然后百度搜索带来巨大流量的时代已经一去不复返了，站长们还是要关注内容，还要关注采集者收集到的数据。前期只能作为数据填充，可以稍大一些。但时间久了，目标还是把垃圾数据变成优质产品，否则不会长久。

二、关于收集网站的经验

机车：我们现在正在更新这个采集器，积累了一些数据采集的经验，增加了更多的功能来适应新的采集形式

1.不要使用别人经常使用的网站

2.不要选太容易选的网站

3.不要一次收集太多，一定要注意后期处理（这个后面再说）

4.做好关键词和标签的收集和分析

5.你的网站要有自己的定位火车头采集能修改关键词吗火车头采集能修改关键词吗，不要使用与自己网站无关的内容

6.采集也要持续不断，更新频繁，我们也有自动采集功能，但还是建议大家手动参与一些审核，或者定期乱序发布

在后期处理中，一定要尽量让搜索引擎看不出两篇文章是一样的。里面应该有很多SEO专家，我才不会丑。先说一下我们现在正在实现的功能。您可以混合这些以实现内容的伪原始更改：

1.给出标题。内容细分

2.使用同义词替换同义词，排除敏感词，不同标签之间的数据融合，比如标题内容之间的数据相互替换

3.为文章添加摘要

4.为文章标题等生成拼音地址。

5. 收集其他一些编码网站，可以简繁体转换，可以收集中文网站翻译成英文（虽然比较垃圾，但应该算原创）

我们还发现，难以收集的网站的内容质量一般都很好。其实收藏有时候是一件很有趣的事情，需要学习一些收藏的知识。

三、关于防止收集的方法

机车：我们来说说一些主要的反收集方法。可以说是一场攻守兼备的战斗。打开网页其实就是一个Http请求浏览器。百度蜘蛛，小到我们的采集器用同样的原理来模拟http请求，所以我们也可以模拟浏览器。百度蜘蛛出来了，所以完全不存在绝对反采集，只是难度级别而已。或者您认为搜索引擎搜索不再重要。你可以使用一些非常强大的activex、flash、全图文本形式，我们无能为力。

常见的反催收方法包括

1、来源判断

2、登录信息判断cookie

3、判断请求数。比如一段时间内有多少请求，IP会被阻塞进行非常规操作

4、发送方法使用JS、Ajax等判断POST GET的内容。

例子：

1.2 论坛、下载网站等不用说了。

3、一些大型网站需要配置服务器，单纯依靠脚本资源消耗比较大

4、比如一些招聘网站，asp.net的分页，网页的ajax请求内容2.0网站

当然后面我们也发现了一些杀手锏，今天就在这里第一时间公布~~有优质内容需要收藏的朋友可以考虑试试

1、网页默认deflate压缩输出（gzip更简单，容易解压）我们普通浏览器和百度都支持识别gzip和deflate输出内容

2、网页内容不规范？内容被自动截断。这两点基本可以阻止大部分主流软件采集和网络采集程序~