VC/MFC
VB
Delphi
C++ Builder
C/C++
Java
.NET技术
MS-SQL Server
PowerBuilder
DB2
Oracle
Web 开发
Linux/Unix社区
硬件/嵌入开发
移动平台
您的位置:
程序门
->
.net技术
-> c#
新闻自动采集系统做完了,散分
[
收藏此页
] [
打印本页
]选择字色:
默认
灰色
红色
黄色
绿色
橙色
紫色
蓝色
褐色
墨绿
深蓝
赭石
粉绿
淡绿
黄灰
翠绿
综红
砖红
淡蓝
暗红
玫瑰红
紫红
桔黄
军黄
烟灰
深灰
灰蓝
背景色:
默认
黑色
红色
黄色
绿色
橙色
紫色
蓝色
褐色
墨绿
深蓝
赭石
粉绿
淡绿
黄灰
翠绿
综红
砖红
淡蓝
暗红
玫瑰红
紫红
桔黄
军黄
烟灰
深灰
灰蓝
字体:[
大
][
中
][
小
]
新闻自动采集系统做完了,散分
[已结贴,结贴人:tigerlgf]
发表于:
2007-03-23 23:42:08
楼主
系统采用c#编写,需要.net framework 2.0环境,可以按照你设定的规则采集不同网站的新闻,不过要求你对正则表达式比较熟悉。
目前系统中还存在一些小缺陷,一是对分页的新闻网页无法提取;二是对一些需要用户登录的网页不能采集。需望高手指点。
发表于:
2007-03-23 23:50:35
1
楼 得分:
3
分页的还不知道怎么好处理
只有遍历以下链接了
用户登录那种,最好程序内嵌一对用户名和密码
提交后去抓新闻
发表于:
2007-03-23 23:53:28
2
楼 得分:
3
还要了解人家做网页的习惯~~哈哈~~~
发表于:
2007-03-24 00:35:29
3
楼 得分:
0
vengair(韦恩):
用遍历的方法感觉不是很好,比较麻烦。
发表于:
2007-03-24 08:16:49
4
楼 得分:
3
分页根据页面的规则很多分页网页地址都是?page=1?page=2的
发表于:
2007-03-24 09:00:55
5
楼 得分:
3
怎么做的,能把大体的思想说一下不
发表于:
2007-03-24 09:03:53
6
楼 得分:
3
对于分页的要看人家分页的方法,用遍历就比较通用。。
对于要用户名和密码的,实际是加了个权限,如果能绕过,就可以方便达到目的。不然只有用合法用户名和密码登陆。
发表于:
2007-03-24 09:04:10
7
楼 得分:
5
正在做这方面的.也搜集了比较多的资料.
系统已架起,正在优化...
发表于:
2007-03-24 09:08:10
8
楼 得分:
3
恭喜
发表于:
2007-03-24 09:09:50
9
楼 得分:
3
jf
发表于:
2007-03-24 09:11:56
10
楼 得分:
3
恭喜,jf
发表于:
2007-03-24 09:56:57
11
楼 得分:
3
to:一是对分页的新闻网页无法提取
那也只能分析一下链接了,根据分页的网页url的特点,来判断是否是同一则新闻...
to:对一些需要用户登录的网页不能采集
这个没办法,你得知道登录的用户名和密码,才能进行采集...
另外恭喜一下,接分...
发表于:
2007-03-24 10:18:44
12
楼 得分:
0
不知还有谁做过这方面的系统没有?
希望与之交流
发表于:
2007-03-24 10:29:16
13
楼 得分:
3
我做了一个采集阿里巴巴企业信息的东东。具体思路如下:
首先搜索一个你想要的关键字获得列表,获取这个列表的html,然后用正则得到每个企业的公司主页链接,关于分页可以分析一下他的url,其实只有一个变量,用一个循环就可以搞定。得到的链接放到一个txt中,然后一行一行的读取,再次获得html,正则得到你需要的信息。后面的...
发表于:
2007-03-24 10:30:41
14
楼 得分:
5
楼主能对不同的新闻系统采集么?
发表于:
2007-03-24 10:31:09
15
楼 得分:
3
我现在研究搜索引擎方面的,不过刚起步...
发表于:
2007-03-24 10:31:21
16
楼 得分:
3
对每个不同页做不同的正则表达式
发表于:
2007-03-24 10:34:10
17
楼 得分:
0
to:对一些需要用户登录的网页不能采集
自己先注册一个,登陆名和密码,写入数据库.
在需要去下载网页的时候,运用登陆名和密码 post过去得到cookie
发表于:
2007-03-24 10:46:56
18
楼 得分:
3
没做过,想学习一下。
发表于:
2007-03-24 10:48:55
19
楼 得分:
3
jf,顶
发表于:
2007-03-24 10:58:40
20
楼 得分:
0
twinkly(我本逍遥) :我的思路和你差不多。
但现在感觉有点问题,在提取网页内容的时候,我用正则表达式不能完全达到功效,并且对一般的用户使用很难操作。这方面可能还需要进一步的改进。
发表于:
2007-03-24 11:00:20
21
楼 得分:
0
smbeng(mw):你指的不同,是什么不同?
只要不要登录的内容什么都可以采集
发表于:
2007-03-24 11:15:33
22
楼 得分:
3
用户登录那种,最好程序内嵌一对用户名和密码
提交后去抓新闻
发表于:
2007-03-24 11:18:24
23
楼 得分:
3
没做过,想学习一下
发表于:
2007-03-24 11:29:28
24
楼 得分:
0
需要登录的怎么做?即如果我已在配置文件保存了用户名和密码,怎么登录呢?你还要知道在哪里登录?提交哪些数据。而且现在许多网页都在验证码,这个是很大的问题啊。
发表于:
2007-03-24 11:42:37
25
楼 得分:
3
jf ,还学习一下
发表于:
2007-03-24 11:52:11
26
楼 得分:
0
大家要的话可以到c# study群里面下载,
qq群号:25920992
发表于:
2007-03-24 11:54:10
27
楼 得分:
5
记号,学习.
发表于:
2007-03-24 11:54:38
28
楼 得分:
0
来着了,都是高手啊
发表于:
2007-03-24 12:00:24
29
楼 得分:
3
jf
发表于:
2007-03-24 12:07:11
30
楼 得分:
3
是不同的网页,比如新浪和163的新闻页格式应该是不一样的?
发表于:
2007-03-24 12:15:45
31
楼 得分:
3
jf
发表于:
2007-03-24 12:19:16
32
楼 得分:
3
没研究过这类项目,只开发一些常用的小应用系统,也一直想做点有意思的东西.学习
发表于:
2007-03-24 12:33:53
33
楼 得分:
0
smbeng(mw):这没有不什么不同,因为系统是根据你设定的正则表达式去提取内容,不需要的内容过滤掉。
发表于:
2007-03-24 12:52:36
34
楼 得分:
2
jf
发表于:
2007-03-24 12:56:30
35
楼 得分:
2
jf
发表于:
2007-03-24 13:19:32
36
楼 得分:
0
做得差不多,给大家开源,好么?
发表于:
2007-03-24 14:48:01
37
楼 得分:
0
对每个不同页做不同的正则表达式
正则表达式 我还看不懂。。
发表于:
2007-03-24 14:51:57
38
楼 得分:
0
恭喜 jf~~~~~~~~
发表于:
2007-03-24 14:56:23
39
楼 得分:
0
关注中!!!!11
发表于:
2007-03-24 15:04:28
40
楼 得分:
0
jf 强烈要求开源
发表于:
2007-03-24 15:22:21
41
楼 得分:
0
恭喜恭喜!~~
接分!《-
发表于:
2007-03-24 16:16:41
42
楼 得分:
3
加油,
恭喜。
发表于:
2007-03-24 17:29:13
43
楼 得分:
3
谢谢.....
发表于:
2007-03-24 17:41:14
44
楼 得分:
0
学习谢谢
发表于:
2007-03-24 17:45:49
45
楼 得分:
0
实现自动分析抓取分页好像很难实现啊
做过几个采集的,只能是手动分析目标网站的页面结构,然后再写代码。
看到南湖就想到华农。
发表于:
2007-03-25 01:03:00
46
楼 得分:
2
用一个笨方法:
搜索源码中包含 <a href=#> 下一页 </a> 或> > 或2等带链接的文字,其实分页也就那么几种格式写发,你可以写个正则判断是否符合。一般不是下一页就是2或则> > 也许还有几种其他写发,我感觉这里用这个笨法应该还是比较有效和省事的
关于需要登陆的我就没办法了,总之不可能开发一个自动注册并登陆的程序,因为现在多数都有验证码,表单内容也不一样
发表于:
2007-03-25 08:18:15
47
楼 得分:
0
我接分哈
发表于:
2007-03-25 09:52:07
48
楼 得分:
0
自动登录的我在考虑是不是伪造一个cookie能否实现?如果是这样的话,那事情要简单些。
发表于:
2007-03-25 09:54:09
49
楼 得分:
0
ssdx(未来啊未来):原来一直在武汉南湖花园,故纪念之。
发表于:
2007-03-25 10:21:33
50
楼 得分:
0
恭喜~~~~ jf ~~~
发表于:
2007-03-25 13:14:43
51
楼 得分:
0
up一下
发表于:
2007-03-26 18:03:04
52
楼 得分:
0
还有一个问题,不知怎么解决,即如果要提取的内容中如果含有图片文件或者其他文件,那又怎么把它保存起来呢?
发表于:
2007-03-26 18:09:28
53
楼 得分:
0
jf
发表于:
2007-03-26 18:13:58
54
楼 得分:
2
采用模拟登陆
发表于:
2007-03-26 18:20:54
55
楼 得分:
0
怎么模拟?
能否具体说说?
发表于:
2007-03-26 20:32:07
56
楼 得分:
2
恭喜恭喜
接分了~~~~
发表于:
2007-03-26 20:40:00
57
楼 得分:
2
恭喜,接分
发表于:
2007-03-26 20:44:48
58
楼 得分:
2
up
发表于:
2007-03-26 20:54:01
59
楼 得分:
2
恭喜 接分
发表于:
2007-12-01 17:21:07
60
楼 得分:
0
楼主,登陆怎么解决的啊?
下一篇:
怎样将图片设置成内嵌的?然后,怎样通过相对路径引用?
上一篇:
小弟跪求一gridview显示数据问题
相关文章
textbox问题
datagrid添加修改一列的问题,请教大大...(
combox
封装成dll的winform工程如何运行画面?
想做一个考试系统,如何判断选择题的对错
用javascript代码怎样实现加入一个空格?对于下面...
一道难题请教高手
能通过viewstate判断某个控件的某个属性是否为空...
求救,关于框架
vs2003的奇怪问题. 江湖救急!!!! 百分...
当一篇文章可属于多个类,而类又是无限分类时的检...
asp.net(vb) gridview问题
求一过滤思想,谢谢
asp.net下ajax控件timer 能不能只控制一个u...
关于datalist 的问题?????????????????????...
如何快速检测一个sqlserver是否可以访问
关于反射的一些问题,请教高手!
把网站放在家里行吗?(有交换机的)
网站突然变得很慢了,是不是被攻击了,有什么办法...
buffer中的字符串查找
其他资讯
关于button的onclick和onserverclick
aspx网页上,使用textbox等控件后,点击保存按钮...
招聘兼职分析设计人员(mis系统)一人,月薪3000...
用vb.net访问odbc访问sp的问题?
新服务器,10m带宽,大家测试一下速度如何,帮顶有...
关于编译的问题,对你们来说很简单
请教各位大哥,有谁做过集成winform和webform系统...
panel的显示和隐藏
在asp.net中如何来编写日志
关于执行命令行
.net论坛完整程序需要多少钱
ienumerable.getenumerator 方法
c#打印问题
太郁闷了,到底为什么啊?
vs.net2003有没有自带什么数据库建模工具?大家一...
如何觉得刷新问题???
出大事啦!快点救命阿!
感染超强病毒,完了,救命
excel导出后第一次无法正确打开文件
高手进来,散分
快速检索
分类导航标签a
其他数据库开发VFP
其他数据库开发Studio Visual
《程序员》杂志广告咨询
Linux/Unix社区程序开发区
《MSDN开发精选》杂志意见建议
Web 开发应用服务器
palm os技术讨论
Web 开发应用服务器
WebSphereServer
C++ Builder网络及通讯开发
其他开发语言其他开发语言
社区支持支持专区
DelphiVCL组件开发及应用
Web 开发非技术区
Web 开发Apache
最新资讯
使用distinct如何去掉重复记录,并查询所有字段?...
silverlight 1.1 安装问题
怎样用delphi对base64邮件主题进行解码?在线等
上网问题,关于防火墙
请教:在播放声音的同时滚动图片怎么处理好?
单步调试时,位置不准确,为什么啊?
向懂appweb的达人请教!
mapx5.0.2.19中文支持有问题!有没有别的版本下在...
疑问?jdbc连接sqlserver2000
<font color=red>ora-12641: 验...
请问command对象的prepared属性使用问题?
如何隐藏水晶报表查看器中的主报表按钮?
动态文本框中的nan
请问各位, xmlspy 是否提供基于 ...
单双击响应的问题?
text 的回车事件
如何点iframe里的一个按钮,使父窗体的地址改变
在vb中如何查看所有全局变量的值?
去除网页注释的正则式
存储过程参数问题
问个简单问题,关于datagrid分页功能的
各位大虾,救命啊,关于小计小计再总计的报表``
【公告】vc致精永恒团队交流平台公告!
麻烦大家给介绍一本spring的书
散40分
指针变量和指针类型的关系
用程序产生的excel文件,用程序怎样在excel中单元...
convert excel to pdf
win2003 企业版不能显示4g已经上的内存?
在线图片编辑
老问题,但找了半天资料,没有一个能符合我的要求...
关于随机数发生器的问题
ftp中的socket的连接问题
sfsfsfsfs
在局域网内如果知道a机器的登陆名和管理员密码,那...
发"a5",接收到"35",串口接收...
下面的例子总提示4:无法访问httpservlet.class,可...
remoting高手过来.我怎么获得remoting收到的数据...
文思创新软件技术有限公司急聘测试pm和srqa
请教大侠,我的visual c++ 6.0编译器坏...
热门点击
紧急求助!!!!!!启动盘做的总是有问题
问个关于pdf生成工具adobe output des...
大家来帮助大家,如何隐藏listview的滚动条,同时...
const有关的问题
c# listview的问题 有开发经验的过来指...
问个struts的小菜问题
请指导一道关于数组和函数得题!
怎样使插入word的full control控件
serializable为什么要将类序列化
[求职 广州] .net开发 5年软件经...
有关replace()的问题
批量更新数据库的问题
还原数据库出现问题了,请教各位了!
手头有个小程序,有兴趣兼职的请联系我
select 毕(肄)业时间 from tabl...
大侠帮忙:service问题
再求一条sql语句更新问题
怎样在客户端区分用户使用的是ie还是myie?
symbian客户端发出的中文请求,javaweb如何转成中...
不好意思,问个简单的问题
struts 中的validator 框架如何指定er...
什么是数据源?什么是dataset?新手问题
怎样在dos里运行scheduled tasks里的每个项...
c语言或者vcmfc有没有函数直接可以把10进制整数化...
新人求助:mfc里有什么函数可实现不经过tcp/ip的...
开发群收人中,速度抢位置,来晚了就关门了
视频下载问题?高分求救!
在线等 告急
数据库中实现分页???
请教:如何将mscomm得到的数据拿来画曲线?
如何在模式窗口中点链接不会打开新窗口
一个关于cdosys的问题
怎样多线程写同一张表?
谁有或者哪有用gdi+做的曲线等图表的例子啊?给俺...
如何筛选表中相似记录中日期值最大的记录
请问如何为jsp页面添加快捷键
类成员函数指针问题,急!
在linux下获取物理硬盘序列号
关于局域网中不同网络设备的兼容问题
asp 调用 sqlserver2005 存储过程...