Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三）

当前位置：主页 > 站长学堂 > dede教程 >

时间：2020-02-22 12:30 作者：菜鸟哥浏览：次收藏挑错打印

前言：本文是“含有分页的普通文章的采集方法“的第三节，在前两节的基础上，将会对“如何采集指定节点”和“如何导出采集内容”做详细的介绍。为了与前文保持一致，本文将延续使用前文的章节标记。

上接第二节。

3.1采集指定节点

单击“保存并开始采集“后，将会进入”采集指定节点“界面，如（图29）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三）

图29-采集指定节点

每页采集：这是设置每页所需采集的条数，并可根据网站是否有防刷新功能，设置采集间隔时间。

特殊选项：设置是否检测重复图片，默认为“检测”。

附加选项：此选项一共有3种采集模式可供选择：第一种为“监控采集模式（检测当前或所有节点是否有新内容）”，选取后，系统只会采集指定节点中更新的内容；第二种为“重新下载全部内容”，选取后，系统会采集指定节点中的全部内容；第三种为“下载种子网站的未下载内容”，选取后，系统只会采集指定节点中未下载过的内容，包括以前没下载的和更新的内容。

设置完成并确定无误后，可单击“开始采集网页”或者“查看种子网址”。此时，如果单击“查看种子网址”会看到列表是空的，这是因为新建立的采集节点从未采集过，如（图30）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三）

图30-查看节点的种子网址

单击“开始采集网页”后，系统便会开始采集节点中设置的网址，并出现相关提示，如（图31）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三）

图31-采集进程中提示信息

采集结束后，再次单击“查看种子网址”或者单击页面右上角的“查看已下载”，便可看到已采集到的网址信息，如（图32）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三）

图32-查看节点的种子网址

成功采集以后，可以根据实际需要选择页面右上角的单击“采集节点管理”或者“导出数据”。单击“导出数据“后，便可进入” 采集管理> 采集内容导出“界面，如（图33）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三）

图33-采集内容导出

“默认导出栏目“：设置要把采集到的内容导入到的栏目

“批量采集选项”：如果在采集规则中已指定栏目ID，则可使用此功能，若指定的栏目ID为0，系统会把采集内容导入到“默认导出栏目”所选择的栏目中。

“发布选项“：有发布成“普通文档”和“保存为草稿”可供选择。

“每批导入“：设置每批导入的条数，此数不宜过大。

“附带选项“：此处为多选。如果不希望采集到重复的文章标题，可选中“排除重复标题”；如果希望被采集到的内容直接生成HTML的话，可选中“完成后自动生成导入内容HTML”；如果希望系统在采集列表页时自动识别标题名，可选中“使用列表索引的标题”，一般不建议勾选。

“随机推荐”：填入一个数字，代表文档篇数。在所填入的文档篇数内随机出现一篇推荐文档，若填入“0”，则表示为不推荐。

设置完成后，可单击“确定”，就可以把下载的导入到所选的栏目中了，如（图34）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三）

图34-设置完成后的采集内容导出页面

同时，系统将会有导出进程提示，如（图35）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三）

图35-采集内容导出中的提示信息

导出采集内容提示“完成所有栏目列表更新”后，单击“浏览栏目”，便可进入网站的相关页面查看到采集到的文章列表及其具体内容。也可在后台管理界面的主菜单中单击“核心”，然后单击“普通文章”，进入“文档列表”页面，查看所采集到的文章列表，如（图36）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三） 0

图36-文档列表

在文档列表中，单击“用最简单网络学习IP和ARP协议”的预览按钮，可打开文章内容页面，找到页面的换页部分，如（图37）所示，

Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三） 1

图37-分页

由此可知，含有分页文章内容已经被成功采集到了。

总结，本文详细地叙述了如何采集一个含有分页的普通文章类型的页面，并简单地涉及到了过滤规则。对于采集更为复杂的普通文章类型的页面和使用过滤规则，将会在今后文章中介绍。

本文的采集规则：

{dede:listconfig}
{dede:noteinfo notename="采集测试（二）" channelid="1" macthtype="string"
refurl="http://www.bitscn.com/network/protocol/201105/193110.html" sourcelang="gb2312" cosort="asc"
isref="no" exptime="10" usemore="0" /}
{dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.bitscn.com/network/protocol/list_(*).html"
startid="1" endid="1" addv="1" urlrule="area" musthas=""
nothas="" listpic="1" usemore="0"}
{dede:addurls}{/dede:addurls}
{dede:batchrule}{/dede:batchrule}
{dede:regxrule}{/dede:regxrule}
{dede:areastart}<div class="list-cc">{/dede:areastart}
{dede:areaend}</div>{/dede:areaend}
{/dede:listrule}

{/dede:listconfig}

{dede:itemconfig}
{dede:sppage sptype='full' srul='1' erul='5'}<div class="page next-page">[内容]</div>{/dede:sppage}
{dede:previewurl}http://www.bitscn.com/network/protocol/201105/193110.html{/dede:previewurl}
{dede:keywordtrim}{/dede:keywordtrim}
{dede:deｓｃｒｉｐｔiontrim}{/dede:deｓｃｒｉｐｔiontrim}
{dede:item field='title' value='' isunit='' isdown=''}
{dede:match}<h1 class="title">[内容]</h1>{/dede:match}

{dede:function}{/dede:function}
{/dede:item}{dede:item field='writer' value='' isunit='' isdown=''}
{dede:match}{/dede:match}

{dede:function}{/dede:function}
{/dede:item}{dede:item field='source' value='' isunit='' isdown=''}
{dede:match}<span>来源：[内容]</span>{/dede:match}

{dede:function}{/dede:function}
{/dede:item}{dede:item field='pubdate' value='' isunit='' isdown=''}
{dede:match}时间:[内容] <span>{/dede:match}

{dede:function}{/dede:function}
{/dede:item}{dede:item field='body' value='' isunit='1' isdown='1'}
{dede:match}[内容]{/dede:match}
{dede:trim replace=""}<div class="contentgg">(.*)</div>{/dede:trim}
{dede:trim replace=""}<div align="center" style="padding-top:20px;">(.*)</div>{/dede:trim}
{dede:trim replace=""}<div class="page next-page">(.*)</div>{/dede:trim}
{dede:function}{/dede:function}
{/dede:item}
{/dede:itemconfig}

本文标题：Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（三）

本文地址：https://www.cniaoba.com/10894.html

上一篇：Dedecms采集功能的使用方法 --- 不含分页的普通文章（一）

下一篇：Dedecms采集功能的使用方法 --- 含有分页的普通文章的采集（二）

本文标签：菜鸟吧源码文章功能采集普通 dedecms 分页前言使用方法含有 ---

郑重声明：
本站所有内容均由互联网收集整理、网友上传，并且以计算机技术研究交流为目的，仅供大家参考、学习，不存在任何商业目的与商业用途。若您需要商业运营或用于其他商业活动，请您购买正版授权并合法使用。
我们不承担任何技术及版权问题，且不对任何资源负法律责任。
如无法下载，联系站长索要。
如有侵犯您的版权，请给我们来信：cainiaovip8@qq.com，我们尽快处理。

织梦中TAG标签字数长度限制解决方法

dedecms 问答模块时间显示

织梦后台突然打不开或打开后空白的解决

推荐资讯: [dede教程] 织梦中TAG标签字数长度限制解决方法; [dede教程] dedecms 问答模块时间显示; [dede教程] 织梦后台突然打不开或打开后空白的解; [dede教程] 怎么修改关于DEDE5.7文章描述英文长度; [dede教程] 织梦系统解决后台“DEDECMS安全提示”; [dede教程] 织梦系统安装在二级目录文件夹内设置; [dede教程] DEDECMS自动锚文本设置方法、教程、详; [dede教程] 织梦DEDE5.7搜索出现404错误怎么解决; [dede教程] Dede后台验证码不显示解决方法详解(de; [dede教程] dedecms性能选项与其它选项

热点资讯: [dede教程] 织梦中TAG标签字数长度限制解决方法; [dede教程] dedecms 问答模块时间显示; [dede教程] 织梦后台突然打不开或打开后空白的解; [dede教程] 怎么修改关于DEDE5.7文章描述英文长度; [dede教程] 织梦系统解决后台“DEDECMS安全提示”; [dede教程] 织梦系统安装在二级目录文件夹内设置; [dede教程] DEDECMS自动锚文本设置方法、教程、详; [dede教程] 织梦DEDE5.7搜索出现404错误怎么解决; [dede教程] Dede后台验证码不显示解决方法详解(de; [dede教程] dedecms性能选项与其它选项