流量研究

首页>流量研究>#6

#web_cpc

#商业模式分析 Ins是个巨型垃圾场,Google是个垃圾收集贩,ins拒绝Google收他的垃圾(通过robots屏蔽),所以有了很多分销商,分销商通过修ins到Google的路把ins的垃圾送给Google然后赚取Google的广告费,而我们就是分销商,通过修路赚广告费 #站群开发 编写复制站开发流程文档 #加服务器的原则 先需统计爬虫请求频率,是否影响用户访问,收录增长流量增长则继续观察,如果增长平缓可考虑加服务器测试流量变化 目前测试当服务器每日流量达20GB的时候可加一台服务器分担请求 #提升加载速度从平均9秒至4秒内 #竞品查找 通过Alexa的SIMILAR SITES BY AUDIENCE OVERLAP寻找相似站点 #研究导流技术 提高流量价值,变废为宝 #系统流量监控 接入GA✔️ 接入goaccess,每小时生成当天小时报告与昨日报告并按日期命名,单独生成爬虫、用户报告分开存储,每日定时生成报告目录 自建服务器接入ELK 接入Logz.io(保留3天日志)✔️ 监控消息邮件通知 监控消息slack通知 #api接口优化 增加10个账号随机访问✔️ 增加redis ttl至9000秒✔️ 增加负载均衡(nginx多后端节点)✔️ 增加不登陆获取ins数据功能✔️ 增加不登陆通过代理(stormproxies)获取ins数据功能✔️ 增加分布式获取ins数据(p2p多节点拉取)功能/降低网络流量 ip qps为1/20,窗口期为30分钟✔️ 加入旋转住宅代理IP获取ins数据✔️ Ins对非登陆ip限流更高,效果不如登陆ip好✔️ ins账号新号容易被封杀,需养号后使用 Google爬虫爬取量暴跌可能因为代理速度太慢,超过3秒响应导致,如果在1秒内响应,爬虫爬取量会立即加大一倍 #seo优化 禁止除Googlebot外的所有bot抓取页面✔️ 控制Googlebot最多一秒抓取一次(通过log发现目前每秒抓取几十次),超限后返回429错误✔️ robots.txt设置Crawl-delay为2✔️ 设置用户请求qps最大为5,超限后跳转首页✔️ 429与404分开处理(只有当ins返回429时才返回429,其余一律按404返回,只有在用户请求时4xx才做302跳转至首页,这样还可以让用户刷广告)✔️ 优化instaghub TKD/用户页、Tag词页与相关Post页Title重复✔️ 404占比不能太高,如果太高则转化成429 #内存优化 热点页面统计/GA✔️ 升级redis至v5✔️ 设置最大内存及LRU清除不常用key✔️ 页面json裁剪后压缩序列化/lz4 集群分片横向扩展/redis_cluster #网络优化 nginx负载均衡✔️ 服务器内部流量走局域网✔️ nginx bot流量分发至特定upstream服务器✔️ #遇到的坑 Nginx一开始考虑到用户体验,使用了ip_hash策略,这样同一用户可以访问同一服务器,但是最终发现爬虫只会打到一台服务器上,导致那台服务器压力巨大,产生过多429,最终切换到轮询策略

© 构建我的被动收入