
python筛选seo相似词叠词分词重复,众所周知,在建设词库的时候,会采集到很多,叠词,和分词重复的词,这类的词,聚合页,往往搜索的结果是一致的,造成重复页面,怎么去掉这类的词,成了比较困难的问题,所以小编写了下面的一个小小的脚本解决这个问题。
import jieba
for line in open('cibiao','urllist+',encoding='utf-8'):
seg_list = jieba.cut(line.strip())
list1=list(seg_list)
print(list1)
list2=list(set(list1))
list2.sort(key=list1.index)
print(list2)
if len(list1)==2 and list1 !=list2:
print(list1,list2)
with open('dieci.txt', 'a+', encoding='utf8')as f:
f.writelines(str(list1[0].strip())+str(list2[0].strip()+'\n'))
ps,词库量超过十万,不建议用这个低级的脚本,因为七万的词,跑了将近两天才跑完,如果大家有更好的关于python筛选seo相似词叠词分词重复的解决方案,请于下方留言。
微信号:irenyuwang
关注微信公众号,站长免费提供流量增长方案。
复制微信号
关注微信公众号,站长免费提供流量增长方案。
复制微信号
标签: python分词 Python和seo
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
评论列表
万分感谢分享!