python 在NCBI上抓取文献利用POST提交表单进行翻页动作

LZ想利用python在NCBI主页上查询thyroid相关的文献PMID号，但是每页只能显示20篇文献，无奈下只能写程序通过提交表单实现翻页操作。自己写了代码但是总是提... LZ想利用python在NCBI主页上查询thyroid相关的文献PMID号，但是每页只能显示20篇文献，无奈下只能写程序通过提交表单实现翻页操作。自己写了代码但是总是提交失败，希望懂python的朋友帮帮忙.
http://www.ncbi.nlm.nih.gov/pubmed/
以下是自己尝试写的代码
import urllib,urllib2,socket
socket.setdefaulttimeout(30)
headers={ooo}
post_data={xxx}
params=urllib.urlencode(post_data)
url='http://www.ncbi.nlm.nih.gov/pubmed/'
req=urllib2.Request(url,params)
f=urllib2.urlopen(req)
print f.read() 展开

 我来答

1个回答

#热议# 为什么有人显老，有人显年轻？

wanghan519
2013-10-11 · TA获得超过7820个赞

知道小有建树答主

回答量：1285

采纳率：60%

帮助的人：560万

我也去答题访问个人页

关注

展开全部

post_data怎么写的，用firefox里面的firebug控件看这个网页的post动作，post_data超多，里面好几项是关于翻页的。

更多追问追答
追问

我是用火狐httpfox抓包的，post data里的确超多，由于本人对HTTP协议也了解的不是很多，所以没敢摘选，就是全部摘过来做成dict.
追答

你抓几个不同的页数，会发现有几个数正好是你翻到的页数，找出规律，用python一页页翻吧。
另外，有个display settings，里面选xml，一页显示200条，就没有广告了，更方便python解析。

而且，我用get方法，直接把那超长的postdata加个问号放到url里面后，一样能行。

还有，你有没有想过不用python，用yql一句话搞定。。。
追问

我记得get方法不是有字节数限制吗 所以习惯用post了 大神能麻烦给展示一下python的代码吗 我参考一下呗 我自己在这里纠结好久了 代码怎么写都不对 还有我不是专门学编程的 python也是刚学的 yql实在没接触过
追答

我没写python啊，倒是可以用yahoo pipes 加上 yql写，打开http://developer.yahoo.com/yql/console/，
select * from html where url="http://www.ncbi.nlm.nih.gov/pubmed/?粘贴那一堆postdata" and xpath="//PMID"
这样就列出来了20条PMID值
追问

原来还可以这样啊 呵呵 谢谢哈 那个postdata的格式是什么样的啊 需要处理成字典吗 还是字符串
追答

试了半天只有xml可以，必须把display settings设成xml，再等下。

yql有长度限制，悲剧

不过试成功用python发post，接收xml格式的网页了，headers里面必须包含cookie信息，也就是说python必须用cookielib配合urllib2才行。。。
追问

方便的话能提供一下代码吗 万分感谢 虽然大概知道思路 但是自己动手写还是有困难
追答
我只试了获取xml，即，你要先打开网站，搜test，dispaly settings选xml，200条，apple，用firefox获取这一页的postdata，再同样获取另一页的postdata，里面的不同就是翻页，下面是我试成了的，获取一页xml的代码，多是从网上找的，呵呵。
import urllib,urllib2,cookielib
cookie = cookielib.CookieJar()
cookieProc = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(cookieProc)
urllib2.install_opener(opener)
postdata = 'term=test&等一堆。。。'
header = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Encoding":"deflate","Accept-Language":"zh-cn,en-us;q=0.7,en;q=0.3","Connection":"keep-alive"}#去掉了Accept-Encodig里面的压缩，否则收到压缩后的乱码
tmp = urllib2.Request(url='居然不让发网址/pubmed/?term=test',headers=header)
tmp = urllib2.urlopen(tmp).read()#这两步随便搜了个test，获取了cookie
req = urllib2.Request(url='居然不让发网址/pubmed',data=postdata,headers=header)
res = urllib2.urlopen(req).read()

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python 在NCBI上抓取文献 利用POST提交表单进行翻页动作

为你推荐：

python 在NCBI上抓取文献利用POST提交表单进行翻页动作