您的位置:程序门 -> .net技术 -> c#



新闻自动采集系统做完了,散分


[收藏此页] [打印本页]选择字色:背景色:字体:[][][]


新闻自动采集系统做完了,散分[已结贴,结贴人:tigerlgf]
发表于:2007-03-23 23:42:08 楼主
系统采用c#编写,需要.net   framework   2.0环境,可以按照你设定的规则采集不同网站的新闻,不过要求你对正则表达式比较熟悉。
目前系统中还存在一些小缺陷,一是对分页的新闻网页无法提取;二是对一些需要用户登录的网页不能采集。需望高手指点。
发表于:2007-03-23 23:50:351楼 得分:3
分页的还不知道怎么好处理
只有遍历以下链接了

用户登录那种,最好程序内嵌一对用户名和密码
提交后去抓新闻
发表于:2007-03-23 23:53:282楼 得分:3
还要了解人家做网页的习惯~~哈哈~~~
发表于:2007-03-24 00:35:293楼 得分:0
vengair(韦恩):
用遍历的方法感觉不是很好,比较麻烦。
发表于:2007-03-24 08:16:494楼 得分:3
分页根据页面的规则很多分页网页地址都是?page=1?page=2的
发表于:2007-03-24 09:00:555楼 得分:3
怎么做的,能把大体的思想说一下不
发表于:2007-03-24 09:03:536楼 得分:3
对于分页的要看人家分页的方法,用遍历就比较通用。。

对于要用户名和密码的,实际是加了个权限,如果能绕过,就可以方便达到目的。不然只有用合法用户名和密码登陆。
发表于:2007-03-24 09:04:107楼 得分:5
正在做这方面的.也搜集了比较多的资料.
系统已架起,正在优化...
发表于:2007-03-24 09:08:108楼 得分:3
恭喜
发表于:2007-03-24 09:09:509楼 得分:3
jf
发表于:2007-03-24 09:11:5610楼 得分:3
恭喜,jf
发表于:2007-03-24 09:56:5711楼 得分:3
to:一是对分页的新闻网页无法提取

那也只能分析一下链接了,根据分页的网页url的特点,来判断是否是同一则新闻...

to:对一些需要用户登录的网页不能采集

这个没办法,你得知道登录的用户名和密码,才能进行采集...


另外恭喜一下,接分...
发表于:2007-03-24 10:18:4412楼 得分:0
不知还有谁做过这方面的系统没有?
希望与之交流
发表于:2007-03-24 10:29:1613楼 得分:3
我做了一个采集阿里巴巴企业信息的东东。具体思路如下:
首先搜索一个你想要的关键字获得列表,获取这个列表的html,然后用正则得到每个企业的公司主页链接,关于分页可以分析一下他的url,其实只有一个变量,用一个循环就可以搞定。得到的链接放到一个txt中,然后一行一行的读取,再次获得html,正则得到你需要的信息。后面的...
发表于:2007-03-24 10:30:4114楼 得分:5
楼主能对不同的新闻系统采集么?
发表于:2007-03-24 10:31:0915楼 得分:3
我现在研究搜索引擎方面的,不过刚起步...
发表于:2007-03-24 10:31:2116楼 得分:3
对每个不同页做不同的正则表达式
发表于:2007-03-24 10:34:1017楼 得分:0
to:对一些需要用户登录的网页不能采集

自己先注册一个,登陆名和密码,写入数据库.
在需要去下载网页的时候,运用登陆名和密码   post过去得到cookie
发表于:2007-03-24 10:46:5618楼 得分:3
没做过,想学习一下。
发表于:2007-03-24 10:48:5519楼 得分:3
jf,顶
发表于:2007-03-24 10:58:4020楼 得分:0
twinkly(我本逍遥)   :我的思路和你差不多。
但现在感觉有点问题,在提取网页内容的时候,我用正则表达式不能完全达到功效,并且对一般的用户使用很难操作。这方面可能还需要进一步的改进。
发表于:2007-03-24 11:00:2021楼 得分:0
smbeng(mw):你指的不同,是什么不同?
只要不要登录的内容什么都可以采集
发表于:2007-03-24 11:15:3322楼 得分:3

用户登录那种,最好程序内嵌一对用户名和密码
提交后去抓新闻
发表于:2007-03-24 11:18:2423楼 得分:3
没做过,想学习一下
发表于:2007-03-24 11:29:2824楼 得分:0
需要登录的怎么做?即如果我已在配置文件保存了用户名和密码,怎么登录呢?你还要知道在哪里登录?提交哪些数据。而且现在许多网页都在验证码,这个是很大的问题啊。
发表于:2007-03-24 11:42:3725楼 得分:3
jf   ,还学习一下
发表于:2007-03-24 11:52:1126楼 得分:0
大家要的话可以到c#   study群里面下载,
qq群号:25920992
发表于:2007-03-24 11:54:1027楼 得分:5
记号,学习.
发表于:2007-03-24 11:54:3828楼 得分:0
来着了,都是高手啊
发表于:2007-03-24 12:00:2429楼 得分:3
jf
发表于:2007-03-24 12:07:1130楼 得分:3
是不同的网页,比如新浪和163的新闻页格式应该是不一样的?
发表于:2007-03-24 12:15:4531楼 得分:3
jf
发表于:2007-03-24 12:19:1632楼 得分:3
没研究过这类项目,只开发一些常用的小应用系统,也一直想做点有意思的东西.学习
发表于:2007-03-24 12:33:5333楼 得分:0
smbeng(mw):这没有不什么不同,因为系统是根据你设定的正则表达式去提取内容,不需要的内容过滤掉。
发表于:2007-03-24 12:52:3634楼 得分:2
jf
发表于:2007-03-24 12:56:3035楼 得分:2
jf
发表于:2007-03-24 13:19:3236楼 得分:0
做得差不多,给大家开源,好么?
发表于:2007-03-24 14:48:0137楼 得分:0
对每个不同页做不同的正则表达式


正则表达式   我还看不懂。。
发表于:2007-03-24 14:51:5738楼 得分:0
恭喜 jf~~~~~~~~
发表于:2007-03-24 14:56:2339楼 得分:0
关注中!!!!11
发表于:2007-03-24 15:04:2840楼 得分:0
jf   强烈要求开源
发表于:2007-03-24 15:22:2141楼 得分:0
恭喜恭喜!~~
接分!《-
发表于:2007-03-24 16:16:4142楼 得分:3
加油,
恭喜。
发表于:2007-03-24 17:29:1343楼 得分:3
谢谢.....
发表于:2007-03-24 17:41:1444楼 得分:0
学习谢谢
发表于:2007-03-24 17:45:4945楼 得分:0
实现自动分析抓取分页好像很难实现啊

做过几个采集的,只能是手动分析目标网站的页面结构,然后再写代码。

看到南湖就想到华农。
发表于:2007-03-25 01:03:0046楼 得分:2
用一个笨方法:
搜索源码中包含 <a   href=#> 下一页 </a> 或> > 或2等带链接的文字,其实分页也就那么几种格式写发,你可以写个正则判断是否符合。一般不是下一页就是2或则> > 也许还有几种其他写发,我感觉这里用这个笨法应该还是比较有效和省事的
关于需要登陆的我就没办法了,总之不可能开发一个自动注册并登陆的程序,因为现在多数都有验证码,表单内容也不一样
发表于:2007-03-25 08:18:1547楼 得分:0
我接分哈
发表于:2007-03-25 09:52:0748楼 得分:0
自动登录的我在考虑是不是伪造一个cookie能否实现?如果是这样的话,那事情要简单些。
发表于:2007-03-25 09:54:0949楼 得分:0
ssdx(未来啊未来):原来一直在武汉南湖花园,故纪念之。
发表于:2007-03-25 10:21:3350楼 得分:0

恭喜~~~~   jf   ~~~
发表于:2007-03-25 13:14:4351楼 得分:0
up一下
发表于:2007-03-26 18:03:0452楼 得分:0
还有一个问题,不知怎么解决,即如果要提取的内容中如果含有图片文件或者其他文件,那又怎么把它保存起来呢?
发表于:2007-03-26 18:09:2853楼 得分:0
jf
发表于:2007-03-26 18:13:5854楼 得分:2
采用模拟登陆
发表于:2007-03-26 18:20:5455楼 得分:0
怎么模拟?
能否具体说说?
发表于:2007-03-26 20:32:0756楼 得分:2
恭喜恭喜  
接分了~~~~
发表于:2007-03-26 20:40:0057楼 得分:2
恭喜,接分
发表于:2007-03-26 20:44:4858楼 得分:2
up
发表于:2007-03-26 20:54:0159楼 得分:2
恭喜   接分
发表于:2007-12-01 17:21:0760楼 得分:0
楼主,登陆怎么解决的啊?


快速检索

最新资讯
热门点击