终究还是交了智商税,AI原创文章生成器不好使!
最近域名卖的不好,想要变现只能通过自己做网站搞收录了。对于我来说,并没有尝过采集的甜头,所以不敢贸然去采集。于是纠结来纠结去,还是选择使用购买了文某狗AI原创文章生成器。
买之前看文案宣传真的是让人非常心动,但是买之后就感觉自己还是太天真了,需要做的东西很多,而且结果也并不一定有用。今天就我个人的实践经历来跟大家讲一件这款AI生成文章的工具。
AI原创文章生成器使用过程:
采集语料->预处理->训练模型->整理标题->文章生成
按照这个文章生成逻辑,我们首先需要采集很多文章作为机器学习的“语料”。我们看到文某狗的官网上出售的训练模型,大都是使用几十万、上百万的语料训练的模型。所以,按照官方的说明,我们需要采集几十万的数据。
数据采集何其难!很多朋友都说,采集数据有啥难度,不就是采集器一挂就行了嘛!其实不然,要知道我们作为语料的数据只能是行业数据,对于大部分的行业来说,我们可能根本找不到这么多的数据。而且,也不能单靠堆积数量,我们还需要挑选好的内容,不然生成的肯定也是垃圾。
同行业、优质数据这两点限定让我们的采集工作不会那么轻松,另外我们采集过来的数据还需要“清洗”。就是保证内容里面没有乱七八糟的格式、去掉一些带有别人联系方式的广告,而且还要严格按照“语料”的格式要求:txt文档首列是标题,第二列空白,第三列是正文且不能为空。
为了实现语料的整理,我不得不重拾了荒废已久的基础Python,写了三个工具:excel转txt、文件名作为标题插入内容中且换行、过滤广告整理格式。
经过我的工具处理,我的语料可谓相当干净,格式也很棒。那我果断开始了预处理以及训练(我总共采集了3W+的内容)。3万多的数据,训练将近1天的时间就到了100轮,期间每隔几轮我几乎都会进行一些测试,但是每次的生成结果都令我相当不满。
重新再来生成一次
这两篇文章生成的还算可以,但是如果再看一下下面的这篇文章,我们是不是就要崩溃了?
格式错乱、标点符号乱用,语句不通等问题真的让人很无语,使用这样的工具真的有助于我们的SEO优化吗?
看到这样的结果我感觉非常失望了,但有感觉是自己没有物尽其用,如果我多采集一些文章是不是就能训练更好的结果呢?还是说浪费时间呢?