javascript采集,js并查集

关于火车头正则表达式采集数据

正确的正则:

成都创新互联坚持“要么做到,要么别承诺”的工作理念,服务领域包括:成都网站设计、成都网站建设、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的墨玉网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!

document\.write\('a\s+href="(?content([^\/"]*\/)*[^"]*\.jpg)"\s+id="jqzoomMain"\s+class="jqlightbox"

你的正则的错误在于:

1. (?content.*\/+.*\.jpg)中.*使用了贪婪匹配,匹配了所有的内容,而不光是/前的内容,正确的写法是[^/"]所有非/非"的内容。

2. (?content.*\/+.*\.jpg)中\/+加号修饰的是\/,而非.*\/也就是说只有斜杠可以重复N次,正确的写法是([^/"]*\/)+

网站数据采集

把简单易用做到极至, 任何人都能做数据采集, 根本不需要做什么配置,在网页上点击几下就可以采集数据。推荐使用小白都能用的网页数据采集神器 “爬一爬” 数据采集器 , 轻量高效,还可以跨平台!!多种采集模式:http快速, javascript引擎加载异步数据, 点击翻页模式让您不用担心分页问题

火车头能采集网页中javascript代码吗

应该也是可以的,你给他设置相应的规则,图片和javascript原理应该是一样的

如何使用JAVA脚本(JavaScript)控制查询页面获取要采集的内容

楼主看一下我写的吧

其实是可以的,页面加载完成之后给指定的文本框填入文字

然后用脚本触发那个按钮,提交表单,试试下面的代码

!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"

html

head

title new document /title

/head

body

form name="t" action="post" onsubmit="return check()" action=""

select name="s1"

option value="1" selected所有分类/option

option value="2"2222/option

/select

input id="tt" type="text" name="tt" value=""

select name="s2"

option value="1" selected所有分类/option

option value="2"2222/option

/select

input type="submit" id="btn" value="ok" /

/form

script type="text/javascript"

document.getElementById('tt').value = "我自动输入的关键词";

//document.t.submit();

document.getElementById('btn').click();

function check()

{

var text = document.t.tt.value;

alert("您输入的关键词是:"+text);

return false;

}

/script

/body

/html

如何采集javascript 生成的网页

phantomjs和casperjs

Casperjs是基于Phantomjs的,而Phantom JS是一个服务器端的 JavaScript API 的 WebKit

可以做到采集javascript 生成的网页

当然你也可以去分析js然后直接通过接口获取网页的数据。

如何采集JAVASCRIPT生成的页面的文本内容

用webBrowser控件载入网页,等它的js执行完成,再取得webbrowser1.document.body.innerHTML,再进行内容筛选。


分享文章:javascript采集,js并查集
分享网址:http://ybzwz.com/article/dscdiii.html