新闻资讯

新闻资讯

代理ip国外(代理ip国外有什么用)

时间:2023-11-17 信途科技新闻资讯

作者 | 前嗅 来源 | 前嗅大数据(xintu.forenose.com)

今天为大家介绍一下:如何在ForeSpider数据采集器中设置代理IP。

前嗅ForeSpider数据采集引擎,一款通用的数据采集系统,还带有数据挖掘、清洗分类及筛选导出的功能,能够满足绝大多数客户的数据采集及数据挖掘需求。

ForeSpider爬虫软件采集速度可高达8000万条/天,支持多线程并行采集。采集限制IP的网站时,为保证采集质量及速度需要设置代理IP。

ForeSpider数据采集系统有成熟的代理IP接口,可接入市场上绝大多数的代理IP,兼容性强,操作简单,可自行设置调用IP的频率,灵活控制调用频率,有效降低成本,提高采集效率。

-01- 创建代理IP

打开ForeSpider数据采集引擎,IP代理设置,如下图所示创建代理IP。

1.名称:自定义即可,可由文字、字母、其他符号等组成;

2.类型:有静态代理和动态代理,ForeSpider采集系统中动静态与市场上不同,ForeSpider爬虫软件中代理IP动静态代理可以通过代理IP接入形式来区分静态和动态。

①动态代理:爬虫使用的代理IP是变化的,一般情况是通过代理IP服务商提供的一个API链接来获取代理IP,这种情况是动态代理。在系统中,在如下图标记位置填入API链接。

②静态代理:爬虫使用的代理IP是固定一个/多个IP地址,一般代理IP服务商会提供IP地址、端口、用户名、密码,这种情况是静态代理IP。有的代理IP服务商只有IP地址和端口,这类也是属于静态代理,遇到这种情况时用户名和密码为空即可。

3.请求频率:是指ForeSpider运行时调用每个代理IP的频率,爬虫运行时,线程数目=请求频率*代理IP数。

比如:接入了一个每秒请求10个IP的代理,设置的请求频率为5。那么爬虫运行时,每秒请求50次代理IP,这时候采集运行速度中的线程数目最佳为50。

-02- 代理IP设置

1.动态代理IP设置

在ForeSpider爬虫中,新建一个动态代理IP后,填写以下几个基本参数:

①协议类型:默认http/https,两种协议均支持;

②返回格式:是指返回IP格式,包括TXT和未知格式,选择TXT格式即可返回TXT格式,TXT格式可以不用写脚本获取IP;

③刷新周期:请求调用API的频率,单位是毫秒,根据实际购买情况来填写即可。

④请求地址:填写API链接即可。

填写完以上信息后可点击【测试】按钮进行测试,测试结果会显示在屏幕下方。测试成功后,确认勾选所用代理IP,点击保存按钮,如下图所示:

保存好之后,就可以开始进行数据采集了。

2.静态代理IP设置

在ForeSpider爬虫中,新建一个静态代理IP后,需要填写以下参数:

①IP地址:由代理IP服务商提供。

②端口:由代理IP服务商提供。

③类型:根据要采集网站类型来选择,有http和https类型;

④有效时长:可理解为到期时长,非必填。

当同时使用多个代理IP且到期时长不一致时可以根据实际情况填写,有效期到则自动停止使用该代理IP;

当有效时间在1天以内时,建议填写,防止出现代理IP到期,ForeSpider爬虫还在运行而导致采集失败的情况。

如果不填写,需要在代理IP到期之前手动关闭,否则会导致采集失败。如下图所示:

⑤用户名:由代理IP服务商提供。

⑥密码:由代理IP服务商提供。

填写完之后在需要使用的代理IP前打上对勾,打开代理IP按钮,后保存。如下图所示:

-03- 脚本设置

在ForeSpider数据采集系统中,当代理IP接入情况不属于以上描述静态/动态接入方式时,使用脚本设置代理IP。

脚本设置与动态设置类似,需要先把以下几项根据实际情况来进行设置,具体如下:

①协议类型:默认http/https,两种协议均支持;

②返回格式:选择未知格式即可,脚本可获取TXT格式。

③刷新周期:请求调用API的频率,单位是毫秒,根据实际购买情况来填写即可。

④请求地址:填写代理商提供的API链接。

⑤POST DATA:根据代理不同,post请求的情况下填写该内容。

⑥代码编辑区:需要填写一段脚本,以调用代理IP。代码如下:

ips = DOWNDATA.Split('\n'); var t; for(i=0;i<ips.size;i++) { t = ips[i].TrimAll(); this.Insert(t,"","",60, "https");  //60秒有效期, 如果有效期为其他,则改相应的数}

将以上的代码粘贴到编辑框后,通常仅需修改最后一句脚本,括号里分别填写:IP地址+端口、用户名、密码、有效时长、http/https即可。

-04- 其他设置

ForeSpider爬虫系统中,代理IP混用策略有以下三个:

1.采集禁用本地IP

设置后采集只用代理IP,如果代理IP失效或未开启,则会采集失败。

2.代理失败使用本地IP

代理IP失效或者失败后会直接使用本地IP进行采集。

3.只使用本地IP

设置后采集时仅用本地IP。

注意事项

①在采集过程中修改代理IP,需要暂停/停止采集然后再修改。

②当请求代理IP的api地址是变化的,比如链接地址中有时间戳的情况时,ForeSpider中代理IP暂不支持接入。

③当返回内容不带密码,但要求必须提供密码时,可以使用脚本设置来接入。

④在不知道代理IP的请求数时,请求频率最好填1,也可填写1-10中任意数。

⑤请求到一批新的代理IP时,在有效期内的旧代理IP依然可以使用。

作者简介

前嗅,企业级大数据供应商,多年来致力于大数据技术研究与开发,自主研发了一套数据采集、挖掘、清洗、分析及可视化的数据处理系统,拥有上万家企业用户。热衷于为大家解决各种数据问题,服务号“前嗅”,微博“@前嗅大数据”,欢迎关注。

扫描二维码推送至手机访问。

版权声明:本文由信途科技转载于网络,如有侵权联系站长删除。

转载请注明出处https://www.xintukeji.cn/xintu/15740.html

标签: 代理ip国外

相关文章

泉州关键词排名系统(泉州关键词自然排名)

要“大牌”不要“白牌”:国货品牌能否久红不衰?在海外因疫情生产滞缓、国内大循环持续畅通的背景下,国货消费引领潮流,成为促进我国经济增长的重要内生力量。国货崛起开辟了消费市场的一条新赛道,国货品牌正呈现...

格力空调网络营销发帖次数多少的简单介绍

格力空调长期以技术作为自身的核心竞争力,但在营销传播方面的投入和产出存在一些 通过对品牌定位,市场细分,广告传播,网络传播,品牌文化传播,渠道传播,数据库。格力空调线下零售额同比微降12%,其市场份额...

关于东胜网站怎么优化的信息

4月12日,东胜召开优化营商环境大会市委常委区委书记张占林出席会议并讲话区长马玉清主持会议区人大常委会主任郝军海。特别是习总书记关于优化营商环境的重要论述精神,全面落实自治区党委市委和东胜区委有关优化...

网站seo优化方案(seo整站优化外包服务)

在制定SEO优化方案,你需要主要以下几点 1你的目标市场在哪里有哪些目标人群 如今的网站SEO优化排名不仅仅是要引入尽可能多的流量,而是引入。...

区域性关键词怎么快速上排名(怎么快速优化关键词)

在做SEO的过程中区域性关键词怎么快速上排名,你可能遇到这样的问题区域性关键词怎么快速上排名:你的网站并没有布局一些相关的关键词区域性关键词怎么快速上排名,而在搜索结果中区域性关键词怎么快速上排名,这...

从事网络营销的成功人士的简单介绍

脑白金体网络事件营销 一执行公司上海欧赛斯文化创意有限公司 二推广周期20141~20142 三推广目的网络事件营销,四大平台炒作。大概是卫龙辣条了吧,卫龙辣条的成功在于其网络上整合营销的成功,论坛上...

现在,非常期待与您的又一次邂逅

我们努力让每一次邂逅总能超越期待

  • 效果付费
    效果付费

    先出效果再付费

  • 极速交付
    极速交付

    响应速度快,有效节省客户时间

  • 1对1服务
    1对1服务

    专属客服对接咨询

  • 持续更新
    持续更新

    不断升级维护,更好服务用户