适用于 WordPress 的 Crawlomatic Multisite Scraper Post Generator 插件源代码

2022-10-14 0 1,162

适用于 WordPress 的 Crawlomatic Multisite Scraper Post Generator 插件源代码

你能用这个插件做什么?
Crawlomatic Multisite Scraper Post Generator Plugin for WordPress 是一个突破性的网站抓取和抓取,帖子生成器自动博客插件,它使用网站抓取和抓取将您的网站变成自动博客甚至赚钱机器!
从几乎任何网页获取内容!您不再需要需要注册并提供有限访问权限的 API,您也可以从不提供 API 的网站检索数据。安排一次,让它像大师一样为您自动驾驶您的帖子 7/24!
它是如何工作的?
这个插件会爬取你给它的种子 URL(爬取意味着它会搜索网页包含的所有链接),并且会访问并从每个爬取的 URL 中提取内容。爬取过程是可定制的:您可以设置爬取深度、爬取速率、最大爬取文章数、仅爬取具有特定类或 ID 的链接以及更多自定义设置。

Crawlomatic v2.0 更新
在 v2.0 更新中,插件中添加了一个新的实时抓取短代码:[crawlomatic-scraper]。这个新功能使这个插件成为一个易于实现的 WordPress 网络数据提取器。因此,它可用于将来自任何网站的实时数据直接显示到您的帖子、页面或侧边栏中。它还会临时缓存抓取的内容,因此您的网站不会过度使用资源。您可以使用此插件来包含实时股票报价、板球或足球比分或来自公共领域的任何其他通用内容!
此更新中包含的新功能:

抓取的输出可以通过自定义模板标签、页面中的简码、帖子和侧边栏(通过文本小部件)显示。
抓取数据的可配置缓存。可以为每个抓取的数据以分钟为单位定义缓存超时。
可以为每次抓取设置刮板的可配置用户代理。
可配置的默认设置,例如启用、用户代理、超时、缓存、错误处理。
多种查询内容的方法——CSS 选择器、XPath 或正则表达式、自动检测。
用于解析内容的各种参数。
将发布参数传递给要抓取的 URL 的选项。
将抓取的内容动态转换为指定的字符编码,以使用不同的字符集从站点抓取数据。
使用动态生成的 URL 动态创建抓取的页面,以根据页面的获取或发布参数来抓取或发布参数。
用于高级解析抓取数据的回调函数。
查看 v2 更新的官方文档,浏览示例并查看常见问题解答,以制作完美优化的网络爬虫。

更多关于插件
您可以从浏览器中打开的几乎每个网站中抓取内容。如果内容是使用 JavaScript 加载的,则该插件可以与 PhantomJS 结合以抓取 JavaScript 生成的内容。
此外,您可以自动生成无限数量的自定义网站抓取和抓取。
其他插件功能:
v2.5.1 更新:从其他 WooCommerce/Shopify 商店抓取 WooCommerce 产品变体
v2.5.0 更新:从 Google 或 Bing 抓取自定义关键字搜索的搜索引擎结果。查看此新功能的教程视频。
v2.4.1 更新:为 WooCommerce 产品刮取产品图像画廊(对于非产品帖子类型,将从刮取的图像创建帖子附件)
v2.3.5 更新:在抓取的 HTML 上执行您自己的 JavaScript 代码并抓取结果 – 此功能仅在使用无头浏览器进行抓取 (Puppeteer/Tor/PhantomJS) 或 HeadlessBrowserAPI 时可用
v2.2.1 更新:为链接抓取 RSS 提要并抓取其中列出的文章
v2.2.0 更新:使用 HeadlessBrowserAPI 从 Internet 上的任何网站抓取 JavaScript 生成的 HTML 内容,而无需在您的服务器上安装任何东西(除了这个插件) – 教程视频
v2.1.0 更新:使用 Tor 浏览器和 Puppeteer 从暗网上抓取 .onion 网站! – 教程视频
v2.0.0 更新:添加了 Live Scraper 短代码以实现更多的抓取控制和抓取能力:[crawlomatic-scraper]
v1.7.1 更新:支持站点地图抓取 – 视频教程
v1.6.5 更新:添加了视觉内容选择器支持 – 视频教程
v1.6.0 更新:添加抓取页面截图并在生成的帖子内容中使用的功能 – 视频教程
v1.5.2 更新:能够使用 Shorte.st 链接缩短服务缩短传出(发布源)链接(并通过它们获利) – 缩短链接示例

适用于 WordPress 的 Crawlomatic Multisite Scraper Post Generator 插件源代码

v1.4.8 更新:添加了对爬取页面的 JavaScript 执行支持 – 需要在服务器上安装 PhantomJS – 如何安装 PhantomJs? – 视频教程
v1.4.4 更新:增加了设置多个代理爬取页面的功能。该插件将在每个页面访问时随机选择一个
v1.4.0更新:增加了分页爬取的功能(对文章的爬取将在种子页的下一页继续)。
v1.4.0更新:增加了为抓取的产品导入产品价格的能力(兼容WooCommerce)+ dropshipping价格自动修改-视频教程
v1.4.0 更新:增加了将进口产品价格增加一个固定数字或将其与预定义数字相乘的功能(对于直销来说很有价值!)
v1.2.8 更新:添加分页帖子导入支持(到单个爬网帖子中)检查:VIDEO。
v1.2.4 更新:增加设置代理爬取页面的功能
v1.2.3 更新:增加了直接抓取失败(被阻止)时从谷歌缓存抓取页面的选项
谷歌翻译支持 – 选择您想发表文章的语言
文本微调器支持 – 自动修改生成的文本,使用同义词更改单词 – 内置、最佳微调器、SpinRewriter、WordAI、TurkceSpin 和其他 – 伟大的 SEO 价值!
可自定义生成的帖子状态(已发布、草稿、待处理、私人、垃圾)
列出此插件生成的所有帖子的简码: [crawlomatic-list-posts type => ‘any’, order => ‘ASC’, ‘orderby’ => ‘date’, ‘posts’ => 50, ‘category’ = > ”, ‘ruleid’ => ”]
可以设置抓取和抓取以尊重网站的 robots.txt 文件和抓取页面的机器人 HTML 标头
从市场项目自动生成帖子类别或标签
手动将帖子类别或标签添加到项目
选择是否要更新已发布的帖子
将带有请求的自定义 cookie 发送到已爬取的网页(身份验证)
生成帖子或页面或任何自定义帖子类型
使用网站抓取和抓取嵌入来自 YouTube、Vimeo、Flickr、IGN、Ustream.tv 和 DailyMotion 的视频
定义发布约束:不要发布没有图片的帖子、带有短/长标题/内容的帖子
自动为帖子生成特色图片
为生成的帖子启用/禁用评论、pingbacks 或 trackbacks
自定义帖子标题和内容(包括各种相关的帖子短代码)
“关键字替换工具” – 其目的是定义自动替换为您的会员链接的关键字,无论它们出现在您网站内容中的任何位置。

“随机句子生成器工具”(相关句子——如您所定义的那样)
一段时间后自动删除生成的帖子的选项
详细的插件活动记录
计划的规则运行
生成帖子的自定义字段支持
自定义分类法支持生成的帖子
无限制的爬取变量导入(被爬取页面的无限制导入部分)
选择在本地复制或不复制图像
使用正则表达式解析 JSON 数据的能力
将规范元标记添加到生成的帖子的选项
最大/最小标题长度帖子限制
最大/最小内容长度发布限制
仅当在标题/内容中找到预定义的必需关键字时才添加帖子
仅当在标题/内容中未找到预定义的禁止关键字时才添加帖子
从文件保存和恢复插件规则列表

测试这个插件
您可以使用“测试站点生成器”测试插件的功能。在这里您可以尝试插件的全部功能。请注意,生成的测试博客将在 24 小时后自动删除。

适用于 WordPress 的 Crawlomatic Multisite Scraper Post Generator 插件源代码

变更日志:
版本 1.0 发布日期 2017-08-15
第一个版本发布!
版本 1.1 发布日期 2017-08-16
修复了一些小问题
版本 1.2 发布日期 2017-08-17
添加了按 div 类或 id 抓取页面的功能
版本 1.2.1 发布日期 2017-08-18
修复了与某些 WordPress 安装不兼容的问题
版本 1.2.2 发布日期 2017-08-22
添加了一个短代码来显示此插件生成的帖子
版本 1.2.3 发布日期 2017-08-30
添加了当直接抓取失败(被阻止)时从谷歌缓存抓取页面的选项
版本 1.2.4 发布日期 2017-08-31
添加了为抓取页面设置代理的功能
版本 1.2.5 发布日期 2017-09-04
为生成的文章添加了规范化
版本 1.2.6 发布日期 2017-09-13
使插件时区感知
版本 1.2.7 发布日期 2017-09-14
固定非 GMT 博客的发布日期
版本 1.2.8 发布日期 2017-09-23
添加了分页帖子导入支持
版本 1.2.9 发布日期 2017-09-27
Bug修复
版本 1.3.0 发布日期 2017-09-28
固定规则恢复
版本 1.3.1 发布日期 2017-10-20
固定特色图像生成
版本 1.3.2 发布日期 2017-10-22
添加了抓取助手
版本 1.3.3 发布日期 2017-11-06
修复了内存问题
版本 1.3.4 发布日期 2017-11-07
Bug修复
版本 1.3.5 发布日期 2017-12-14
固定类选择器在所有情况下都不起作用
版本 1.3.6 发布日期 2017-12-18
添加了为每个爬网网页指定自定义用户代理的功能
版本 1.3.7 发布日期 2018-01-20
添加了新的文本微调器服务:Spinrewriter
版本 1.3.8 发布日期 2018-01-22
插件现在可以连续导入内容
版本 1.3.9 发布日期 2018-02-02
修复了指定多个爬网类时的问题
版本 1.4.0 发布日期 2018-02-22
主要更新:增加了抓取进口产品价格的能力(兼容 WooCommerce)
新增爬取连载内容的能力(分页爬取——文章的爬取将在下一页继续)
版本 1.4.1 发布日期 2018-03-07
Bug修复
版本 1.4.2 发布日期 2018-03-21
修复了重复发布问题
版本 1.4.3 发布日期 2018-03-22
修复了多个规则运行的关键问题
版本 1.4.4 发布日期 2018-04-04
添加了定义多个代理的能力。该插件将在每个页面访问时随机选择一个
版本 1.4.5 发布日期 2018-07-13
更新的内置可读性模块
版本 1.4.6 发布日期 2018-07-16
关键错误修正
版本 1.4.7 发布日期 2018-07-19
添加了不翻译链接的功能
版本 1.4.8 发布日期 2018-09-05
添加了对已爬取页面的 JavaScript 执行支持 – 需要在服务器上安装 PhantomJS
版本 1.4.9 发布日期 2018-09-18
Bug修复
版本 1.5.0 发布日期 2018-09-24
添加了从爬网内容添加自定义帖子分类法的功能
添加了向帖子的内容/元/分类添加无限爬取变量的功能
版本 1.5.1 发布日期 2018-10-16
修复导入大页面时的问题
版本 1.5.2 发布日期 2018-10-24
添加了使用 Shorte.st 缩短链接的功能
版本 1.5.3 发布日期 2018-10-29
修复了导入分页帖子时的问题
版本 1.5.4 发布日期 2018-11-06
添加了按标签名称(div、a、span 等)去除 HTML 元素的功能
版本 1.5.5 发布日期 2018-11-07
添加了 WooCommerce 产品类别创建支持
版本 1.5.6 发布日期 2018-12-16
添加了嵌套导入支持 – 从 CodeRevolution 创建的多个插件将混合内容导入单个帖子

版本 1.5.7 发布日期 2018-12-16
添加了定义要跳过抓取和导入的 URL 列表的功能
版本 1.5.8 发布日期 2019-01-08
添加了为创建的帖子导入免版税图像的功能
版本 1.5.9 发布日期 2019-01-12
添加了古腾堡块支持
版本 1.6.0 发布日期 2019-02-01
添加了对抓取的页面进行截图的功能
版本 1.6.1 发布日期 2019-02-06
改进了与某些已抓取页面的兼容性
版本 1.6.2 发布日期 2019-04-19
安全更新
版本 1.6.3 发布日期 2019-05-15
修复了一些最近发现的后分页错误
版本 1.6.4 发布日期 2019-05-17
添加了对 TurkceSpin 内容微调器的支持
版本 1.6.5 发布日期 2019-05-27
添加了一个非常需要的新功能:用于分配抓取页面内容的可视内容选择器
添加了从下到上抓取页面的功能
添加了替换抓取内容中的单词的功能
其他小错误修复和功能改进
版本 1.6.6 发布日期 2019-07-26
修复了一些抓取页面的超时问题
修复了许多小问题并改进了功能
版本 1.6.7 发布日期 2019-08-05
修复了谷歌翻译的问题
版本 1.6.8 发布日期 2019-11-15
WordPress 5.3 兼容性更新
版本 1.6.9 发布日期 2020-05-11
为内容模板添加的新功能
错误修复更新
版本 1.7.0 发布日期 2020-07-21
添加了对抓取更多网站的支持
版本 1.7.1 发布日期 2020-09-28
添加了抓取站点地图并抓取其中链接的帖子的功能
添加了遵守 robots.txt 文件中设置的指令的功能
版本 2.0.0 发布日期 2020-12-08
添加了一个新的简码和古腾堡块替代方案,可以实时抓取任何网站
主要性能改进
修复了报告的错误
版本 2.1.0 发布日期 2021-01-02
添加了对使用 Tor 浏览器抓取黑暗网站的支持!像抓取任何其他公共网站一样抓取 .onion 网站!
版本 2.1.1 发布日期 2021-01-04
添加了使用 POST 请求抓取和抓取页面的功能(POST 表单提交抓取支持)
版本 2.2.0 发布日期 2021-01-14
添加了对 HeadlessBrowserAPI 的支持以轻松抓取 JavaScript 呈现的内容
版本 2.2.1 发布日期 2021-01-16
PHP 8 兼容性更新
添加了对从 RSS 提要中抓取链接的支持
版本 2.2.2 发布日期 2021-01-28
修复了在某些 PHP 8 配置上保存导入规则设置时的罕见问题
版本 2.2.3 发布日期 2021-02-01
改进的内容提取算法
版本 2.2.4 发布日期 2021-02-17
添加了不旋转由特定规则生成的帖子的功能
版本 2.2.5 发布日期 2021-03-07
添加了输入多个 URL(每行一个)进行爬取和抓取的功能
版本 2.2.6 发布日期 2021-03-07
视觉选择器改进 – 现在它将能够使用 HeadlessBrowserAPI/Puppeteer/PhantomJS/Tor 来可视化抓取内容
版本 2.2.7 发布日期 2021-04-02
修复了抓取带有 URL 参数的链接时的罕见问题
版本 2.2.8 发布日期 2021-04-07
修复了抓取内容中相对 URL 路径的罕见问题
版本 2.2.9 发布日期 2021-05-03
添加了在未找到图像时跳过发布新帖子的功能(分别针对每个规则)
版本 2.3.0 发布日期 2021-05-19
添加了使用 HeadlessBrowserAPI 功能制作网站屏幕截图的功能
版本 2.3.1 发布日期 2021-06-10
修复了某些具有动态生成内容的网站的内容提取/剥离
版本 2.3.2 发布日期 2021-07-15
添加了多个正则表达式支持(用于内容剥离和替换)
版本 2.3.3 发布日期 2021-07-18
将 SpinnerChief 添加到受支持的高级文本微调器(SpinRewriter、The Best Spinner、WordAI、TurkceSpin)
版本 2.3.4 发布日期 2021-07-19
添加了 Bing 翻译器支持(在 Google 翻译器和 DeepL 翻译器旁边)
版本 2.3.5 发布日期 2021-08-06
添加了在使用无头浏览器(PhantomJS/Puppeteer/Tor)或 HeadlessBrowserAPI(XSS – 跨站点脚本功能)时在抓取的页面上执行您自己的自定义 JavaScript 并抓取生成的 HTML 内容的能力
版本 2.3.6 发布日期 2021-08-30
添加了从网站截图设置帖子特色图片的功能
添加了删除 XPath 匹配内容的 HTML 内容(仅保留文本)的功能
版本 2.3.7 发布日期 2021-09-02
添加了在抓取网站时设置本地存储对象的功能(这些类似于 cookie,仅在使用无头浏览器或与插件配合使用 HeadlessBrowserAPI 时才支持它们的使用)
版本 2.3.8 发布日期 2021-09-15
添加了将 WPML 语言设置为创建的帖子的功能

版本 2.3.9 发布日期 2021-10-19
WooCommerce 产品抓取相关改进
版本 2.4.0 发布日期 2022-02-28
添加了对创建 WooCommerce 产品属性并从抓取的数据中为其分配值的支持
版本 2.4.1 发布日期 2022-03-05
添加了为 WooCommerce 产品抓取图片库的功能
版本 2.4.1.1 发布日期 2022-03-21
错误修复更新
版本 2.4.2 发布日期 2022-04-20
修复了由最近的 Google API 更新引起的 Google 翻译问题
版本 2.5.1 发布日期 2022-05-06
添加了从 Shopify 和其他 WooCommerce 产品中抓取 WooCommerce 产品变体的功能
增加了自动检测产品价格的能力
改进的可读性模块
修复和改进
版本 2.5.2 发布日期 2022-06-14
添加了第三次翻译帖子的功能(如果内容被翻译回原始语言,则类似于 Word Spinner
版本 2.5.3 发布日期 2022-06-23
修复了 WooCommerce 价格抓取相关问题
版本 2.5.4 发布日期 2022-09-12
添加了从 TXT 文件中抓取链接的功能
您已经是客户了吗?
如果您已经购买并试用过,请在该项目的评论部分与我联系并给我反馈,以便我将其打造为更好的 WordPress 插件!
WordPress 6.0 和 PHP 8.1 测试!

免责声明
通过此插件,您可以从各种网站上获取不必要属于您或不受您控制的内容。如果您在未经作者许可的情况下获取受版权保护的材料,插件开发者不对您的行为承担任何责任。此外,插件的开发人员无法控制这些网站的性质、内容和可用性。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 适用于 WordPress 的 Crawlomatic Multisite Scraper Post Generator 插件源代码 https://www.7claw.com/45502.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务