[精讚] [會員登入]
70

來自網路的爬蟲分析

分析最近來自網路上的爬蟲

此文完整連結 http://n.sfs.tw/12812

複製連結 來自網路的爬蟲分析@新精讚
(文章歡迎轉載,務必尊重版權註明連結來源)
2018-10-13 02:05:55 最後編修
2018-10-13 01:48:15 By 瘦河馬
 

我好奇分析了精讚最近的180萬次訪客記錄。

資料是自有的,並非來自 google analytics之類的記錄,同時也有過濾掉三天內重複的來源。

訪客來源

爬蟲或機器人比正常人來得多,從數據分析可看出53%是屬於爬蟲或機器人,可能是人類的比例約為47%。

有些擬人類的爬蟲或機器人可能混進來,因此實際比例可能人類更少。

 

爬蟲的來源

我分析出的爬蟲大約有50-100種之多(事實上可能更多),某些偶爾來幾次的爬蟲就直接歸納到其它項目中,分析出前幾大爬蟲數量和所占爬蟲的比例

前幾大中排第一名的是 google的爬蟲。

第二名的 ahrefsbot https://ahrefs.com/robot ;;; 不知是什麼來頭的公司

第三名是微軟的 bing

第四名是semrush https://www.semrush.com/bot/

此四大爬蟲就約占了爬蟲來源的 79%,也就是說這四隻是超級大爬蟲。

 

爬蟲的來訪對網站的曝光是好事,但會吃掉不少頻寬也是壞事。

還好網站當初在建置的時候我就有考慮過,只要是被判定是爬蟲的來源,在「正被關注」的地方會標注一個大寫的B,表示我知道你的來訪,但是不會列入點擊次數。

 

裝置的來源

藉由 google的分析這近12個月的資料,可以知道本站有約 31.6+1.9=33.5(%)的使用者是來自於行動裝置

 

以上是簡單的分析資料,大概知道就好。By Alexa 的分析 https://www.alexa.com/siteinfo/sfs.tw

到目前為止本站的排名約

參考參考。

你可能感興趣的文章

W3C 的檢測及規範 w3c和一個Mozilla基金會提供的線上檢測w3c的網站

常用1200字簡體字 為了加速正簡互換的效能,我針對常見的簡體字做了挑選,花了六個小時,整理出最常用的1200個簡體中文字及正體中文字對照

git 中的 git(git 次模組) 版本控制引擎git 中的 git(git 次模組) / git inside git/ git submodule

HP SAS硬碟leds燈號說明 HP SAS硬碟leds燈號(hp g7/g6系統適用)說明

銅網路線路UTP測試名詞解釋 一條銅網路線的品質好不好得經過測試,測試也是有學問的

2016 網頁設計的8項觀念 我觀察了這近網頁設計的趨勢,寫出8點設計上應該要注意的給大家參考

程式、函數、資料庫命名的風格 程式或資料庫自己定義統一的命名規則,可以防止因為一個拚字的錯誤花了半個小時來找,也可說是提升工作效率的關鍵。

使用Google尋找你的手機 這近發現google竟然可以用來找android的手機,而且不需要經過什麼設定或安裝軟體。

我有六顆硬碟,該設定 RAID5, RAID50 還是 RAID6? 我有六顆硬碟,該設定 RAID5, RAID50 還是 RAID6?

移除google 的頁庫存檔--移除在google中保存的網頁資料 我的網頁或文件被google保存了,但我不想給別人下載要怎麼做?

我有話要說


限制:留言最高字數1000字,超過部分會被截掉。請注意:留言不可帶有網址,會被濾掉。 限制:未登入訪客,每則留言間隔需超過10分鐘,每日最多5則留言。

訪客留言

[無留言]

隨機好文

UTF-8 BOM (Byte Order Mark) 的問題 在 Michael Kaplan 那看到 Every character has a story #4: U+feff

[Win7] 燒錄 iso 檔 在Windows7 中內建燒錄程式,可以直接把檔案拉到光碟機裡,再執行燒錄。

好用的3+2碼郵遞區號查詢系統推薦 網路上找到用地址輸入判斷3+2碼郵遞區號的辨識率不高,除了這個網站…

設計的工作絕不接受比價 拿買陽春麵的價格想買牛肉麵,寧願倒掉也不賣

APACHE的記錄檔格式 LogFormat 語法 在APACHE中有定義一些記錄的語法模版 在 /etc/httpd/conf/httpd.conf 中: LogForm