
R 抓取网页怎么能一次抓取完第一页之后“下一页”的内容
展开全部
一般在页面代码里能看到下一页的链接或者信息,然后你可以直接引用或者组合,下面是我写过的一个很简单的例子,你可以看下。
library(rvest)
library(base)
library(XML)
start_url <- "http://movie.douban.com/subject/6126442/comments"
x <- data.frame(review="")
x$review<- as.character(x$review)
#initial condition startup
condition="hello"
review_count=0
while(length(condition)>0)
{
page <- html(start_url)
review <- html_nodes(page, "#comments p")
for(i in 1:length(review)){
x[review_count+i, 1]=as.character(html_text(review[i]))
}
table_urls <- page %>%
html_nodes(".next") %>%
html_attr("href") %>%
XML::getRelativeURL(start_url)
good <- as.character(table_urls)
bad <- substr(good,start = 41,stop = 96)
start_url <- paste("http://movie.douban.com/subject/6126442/comments", bad, sep="")
review_count=review_count+length(review)
condition <- as.character(html_text(html_nodes(page, ".next")))
}
library(rvest)
library(base)
library(XML)
start_url <- "http://movie.douban.com/subject/6126442/comments"
x <- data.frame(review="")
x$review<- as.character(x$review)
#initial condition startup
condition="hello"
review_count=0
while(length(condition)>0)
{
page <- html(start_url)
review <- html_nodes(page, "#comments p")
for(i in 1:length(review)){
x[review_count+i, 1]=as.character(html_text(review[i]))
}
table_urls <- page %>%
html_nodes(".next") %>%
html_attr("href") %>%
XML::getRelativeURL(start_url)
good <- as.character(table_urls)
bad <- substr(good,start = 41,stop = 96)
start_url <- paste("http://movie.douban.com/subject/6126442/comments", bad, sep="")
review_count=review_count+length(review)
condition <- as.character(html_text(html_nodes(page, ".next")))
}

2024-09-02 广告
Play Video 七鑫易维是致力于机器视觉和人工智能领域的高新科技企业,迄今已专注眼球追踪技术的研发、创新与应用超过14年,拥有完全自主知识产权,全球专利总量655余项。 作为眼球追踪技术领域的全球知名品牌,七鑫易维的产品体系覆盖眼动分...
点击进入详情页
本回答由七鑫易维信息技术提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询