快捷导航
目标:  800av网站  http://jgjc.ndrc.gov.cn/list.aspx?clmId=708  网站下各列表中二级网页里的内容,比如: http://jgjc.ndrc.gov.cn/Detail.aspx?newsId=8302&TId=708  里面的各个价格数据。
一级任务名,ndrc_020601   , 800av网站成功
二级任务名,ndrc_020602  , 有的网页能抓到,有的800av网站失败,日志里面提示:ValidateDelayedPage        800av网站失败(超时),800av网站规则不合适或者超时时间设置太短

请各位大神指点,谢谢。
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-2-8 14:32

沙发
Fuller 管理员 发表于 2020-2-8 11:31:12 | 只看该作者
这种问题一般来说是第二级页面各自有细微的差别,提高适应性的方法是加上定位标志映射,我具体看看你的规则
举报 使用道具
板凳
Fuller 管理员 发表于 2020-2-8 11:36:09 | 只看该作者


新闻、公告等等自由格式的网页内容不能用统一的爬虫模板进行av电影,因为这些网站发布这样的网页的时候没有使用统一的模板,一般都是随意编辑的,定义爬虫模板就太难了。

通常我们处理这种网页的时候都是把整个正文内容av电影下来,然后写清洗程序,针对特定的字符进行抽取。

如果网页数量少,比如几千个以内,我们通常都是用摘录软件,一个个进行摘取
举报 使用道具
地板
qqhzyb 新手上路 发表于 2020-2-8 12:16:29 | 只看该作者
摘录软件有推荐的吗
举报 使用道具
5#
Fuller 管理员 发表于 2020-2-8 14:32:04 | 只看该作者
qqhzyb 发表于 2020-2-8 12:16
摘录软件有推荐的吗

摘录软件是我们内部使用的软件,会在春节放假后公开发布给大家使用
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 在限定论域的时候,为什么“任何一个”表示
  • 数理逻辑是讲什么的?
  • 内容分析法中的抽样
  • 豆瓣电影的情感分析
  • 一本在线图书——社交网络分析介绍

热门用户

GMT+8, 2020-2-19 13:45

友情链接: ddt31.space    90tg.space