日文在线翻译

整理了个演讲稿应付演讲，我日语不行，专业名词太多，翻译器没啥用，求哪位大哥帮帮忙。网络爬虫技术1.什么是网络爬虫？网络爬虫，就是通过网页的链接地址来寻找网页，从网站某一个... 整理了个演讲稿应付演讲，我日语不行，专业名词太多，翻译器没啥用，求哪位大哥帮帮忙。

网络爬虫技术

1.什么是网络爬虫？
网络爬虫，就是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到按照某种策略把互联网上所有的网页都抓取完为止的技术。主要用于网络资源的收集工作。

2.网络爬虫的基本工作流程：
2-1.首先选取一部分精心挑选的种子URL；
2-2.将这些URL放入待抓取URL队列；
2-3.从待抓取URL队列中取出待抓取URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。
2-4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

3.网页搜索策略
广度优先搜索
广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。当要覆盖尽可能多的网页时，一般使用广度优先搜索方法。

最佳优先搜索
最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。

深度优先搜索
深度优先搜索策略从起始网页开始，选择一个URL进入，分析这个网页中的URL，选择一个再进入。如此一个链接一个链接地抓取下去，直到处理完一条路线之后再处理下一条路线。而过度深入抓取到的网页却价值很低。同时，这种策略抓取深度直接影响着抓取命中率以及抓取效率，对抓取深度是该种策略的关键。相对于其他两种策略而言。此种策略很少被使用。展开

 我来答

2个回答

#热议# 发烧为什么不能用酒精擦身体来退烧？

善佩杉诗贝
2019-12-09 · TA获得超过3万个赞

知道大有可为答主

回答量：1.1万

采纳率：33%

帮助的人：758万

我也去答题访问个人页

关注

展开全部

低洼的谷脚抹去（关闭）了树人的想法，失踪于古迹之中
我们只是耍耍伎俩，无声的分隔在思维的两侧

已赞过 已踩过<

评论收起

英联翻译

广告2024-11-23

专业日语翻译人工翻译，行业口碑翻译公司，130+语种互译，涉及50多翻译行业。日语翻译人工翻译，ISO质量体系认证，海量文件翻译案例，大型会议同传经验，品质保证。

www.odbsr.com

匿名用户
2015-07-22

展开全部

ネット爬虫技术
1 .何はネット爬虫？
ネットの爬虫类は、ホームページのリンクのアドレスを探してウェブサイトからあるページから読み取り、ホームページの内容をWebページ中のその他のリンクのアドレスを、そしてこれらのリンクのアドレスを探して次のページに、ずっと循环し続けて、ある策略に写真までインターネット上のすべてのページを取る完売までの技术。主にネットの资源の収集。
2 .ネット爬虫类の基本的な作业の流れ：
2 - 1 .まず选取一部厳选种子URL、
2 - 2 .これらのURLを待クロールURL行列、
2 - 3 .待クロールURLから取り出し待クロールURL行列解析DNS、それがホストip URL対応のホームページをダウンロードして、メモリにはダウンロードページ库。また、これらのURLを入れてすでにクロールURL行列。
6。分析はクロールURL列にURLを分析し、そのほかのURLを入れ、そしてURL待クロールURL列に入ることによって、次の循环。
ウェブ検索戦略3。
広さ优先検索
広さ优先検索戦略は、クロールの过程の中で、完成の现在のレベルの検索した後、次の段阶の検索。ときにはなるべく多くのホームページに覆われ、一般に使用広さ优先検索方法。
最优先の検索
最优秀优先検索策略を一定のホームページ解析アルゴリズム、予测候补とホームページのURL目标相似度、あるいはとテーマとの関连性を评価する最高のまたはいくつかのURLを掴み取る。それだけを経てホームページを访问解析アルゴリズムを予测に「人の役に立つ」のホームページ。
深さ优先検索
深さ优先検索策からはスタートページから选べるURLに入り、分析のこのホームページの中のURLを再突入。このリンクのリンクにクロールし続けて、処理が终瞭まで路线を後にする次のルート。过ぎまで深くクロールのホームページは価値が低い。同时に、この戦略はクロールの深さに直接影响してクロール命中率やクロール効率、クロールの深さはこの种の策略の键。他の2つの策略に対し。この策略が少ない使用される。


本回答被提问者和网友采纳






已赞过已踩过<

你对这个回答的评价是？
评论收起