分類信息網站防范垃圾信息的方法有哪些
2022-03-11
一、通過提取聯系信息的聯系方式,建立聯系方式黑名單
????♀?垃圾信息制造者無論IP如何變化,內容如何變化, ?????聯系方式是不變的。我們可以基于這點建立聯系方式黑名單數據庫。目前,中國最常用的通信方式是電話號碼、QQ號碼、網址、電子郵件地址等。這些都具有一定特征 ?????,容易通過正則表達式提取。
嗯
那么如何構建黑名單呢?如果一個信息被用戶惡評了五次 ???♀?,那么該信息就被自動標記為惡評狀態并隱藏。當一條信息被放在惡評中時 呀, ??該惡評信息中的所有聯系信息都被存儲在黑名單數據庫中, 呀并且出現頻率字段加1。這樣 呢,我們就有了聯系信息的黑名單數據庫。這個數據庫有聯系信息出現的頻率和最新出現時間。除了用戶投訴需要人工辨別之外 ???♀?,所有這些操作都是由機器自動進行的。 呢
?????二、識別并刪除異地商家信息 ??
分類信息網站的特點之一是地方性 ???♀?, ??本地用戶來到分類信息網站查看本地出租、朋友、服務等信息。因此,如果信息中有異地電話號碼,則應將其看作垃圾信息處理。這可以通過手機歸屬地數據庫和電話區號數據庫來判斷 ???♂?,但不是所有的類別都采用這種方法 ???♂?,比如交友、尋人等都不應該使用這種方法。但是 呀, 呀像二手車類別和服務類別完全可以用來這種方法過濾異地信息。
呢三、限制某些類別在同一天一個用戶只能發布一條消息 ??
重復的信息太多 嗯,對用戶體驗不好。這里重復信息的定義是指相同的用戶或企業(包括企業雇傭的信息發布者)發布相同或相似的信息。這些類別包括生活服務、商務服務、培訓、交友、車輛等。 嗯
??四、關鍵字過濾
呀最后,不要忘記關鍵字過濾。一些有害和敏感的關鍵字必須被過濾掉。 ??
以上這些方法是能夠被分類信息網站采用的簡單有效的反垃圾郵件信息的方法 呀, ??如果能夠用貝葉斯算法對垃圾郵件進行過濾 ??,將是更完美的。