JAVA 用URL把网页中的内容读取出来然后写入TXT文件中 最后用正则表达式把网址或超链接显示出来 5
展开全部
1.“用URL把网页中的内容读取出来”
你指的是,给定一个url,然后获取其html源码内容?
2.“最后用正则表达式把网址或超链接显示出来”
把哪个“网址”显示出来???
要处理的内容中,包含你要的网址?
如果是,相关部分的内容是什么?
有什么规律?
你这啥都不说清楚,想帮你也没法帮啊。
你指的是,给定一个url,然后获取其html源码内容?
2.“最后用正则表达式把网址或超链接显示出来”
把哪个“网址”显示出来???
要处理的内容中,包含你要的网址?
如果是,相关部分的内容是什么?
有什么规律?
你这啥都不说清楚,想帮你也没法帮啊。
追问
不是的。。。不是有个URL方法么。。。随便读取那个网页。。把网页中的网址所有网址。。相关内容就是超链接啊全部用正则表达式抓出来。。。没有规律。。。
追答
1. “不是有个URL方法么”
哪个url方法???
至少我没听说过。而且去搜了下,也没有什么URL方法。
倒是有url相关处理的库,这是本来就知道的,和你说的什么URL方法,没关系。
2.想要把一个网页(的html源码)中的url都提取出来。
可以是可以的。
但是如果没有规律,那么只能写个相对通用的,不精确的。
比如:
http(s)?://[\.\w/]+
就可以匹配:
以http或https开头的,后面是 ://
然后后面跟着,尽可能多个:点,字符,数字,下划线
就可以匹配,大多数的url的。
还是那句话没有规律,没有要求,就没法写精确的。
对此,建议你去看看:
【教程】以Python中的re模块为例,手把手教你,如何从无到有,写出相对复杂的正则表达式
(此处不给贴地址,请自己用google搜标题,即可找到帖子地址)
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询