技術交流:邪黨為阻真象傳播動用OCR過濾

Twitter Facebook 轉發 打印
關注度:
【明慧網2005年6月12日】

  • 技術交流:邪黨為阻真象傳播動用OCR過濾

  • 微軟中文的自動升級SP2補丁包是否含有臭名昭著的3721?

  • 技術交流:邪黨為阻真象傳播動用OCR過濾

    最近,大陸的宣傳工具在傳邪黨政府要用圖象識別技術攔截「黃色」圖象,把它和網址劫持、IP攔截、關鍵詞過濾並列。事實上,邪黨自身腐爛不堪,不會真正的去打擊色情活動。

    OCR (Optical Character Recognition)視覺化字符識別,查一下資料可以知道,到目前為止,在理想狀態下,漢字印刷體識別可以達95%以上(還經常9和g不分,1和l不分)。在辦公自動化上多有應用。而手寫體識別分:聯機手寫體識別(通常的手寫板),脫機手寫體。按難易成度來看,手寫體識別的難度高於印刷體識別,而在手寫體識別中,脫機手寫體的難度又遠遠超過了聯機手寫體識別。除了脫機手寫體數字(0~9)的識別已有實際應用外,漢字等文字的脫機手寫體識別還處在實驗室階段。

    一份清晰的印刷體文件稿,在合適的亮度、對比度時掃描儀在300dpi分辨率可以有滿意的識別結果。低於300dpi的分辨率,OCR軟件不容易識別了,高於300dpi的分辨率對提高OCR軟件識別率不明顯。

    有資料提到,有些OCR軟件也可以從屏幕抓取軟件抓取的圖象中識別文字。筆者認為,過濾、截屏等功能很可能被整合與OCR在一起用。

    讓機器分辨一個現成的手寫體漢字圖象那麼難,何況讓機器去識圖分辨人的行為根本不可能的。

    邪黨如此不計代價的應用OCR技術只有一個目地,就是阻擋真象傳播。我們就有同修通過網絡在用圖片傳真象,讓OCR過濾失效很簡單的----加擾。讓機器無法把圖象簡單化成「白紙黑字」或「黑紙白字」來識讀,就印刷體而言,筆畫粗細有別的宋體比粗細一致的黑體難分辨,細字體比粗字體難分辨。加上色彩繽紛的「紙張」背景,我們可以宣告OCR過濾失效了。


    微軟中文的自動升級SP2補丁包是否含有臭名昭著的3721?

    據我的一位做網管的朋友介紹,最近臭名昭著的3721收買了微軟中國,將這一間諜程序整合到微軟中文的自動升級SP2補丁包裏去了(其它語種的不這樣),因為帶在主板上,所以從表面上根本看不出來。請具有這種技能的同修核實。

    答: 我們是沒有聽說過,應該不太可能有這樣的情形。

    本文章或節目明慧網版權所有,非盈利轉載請註明
    來源明慧網,並包含明慧網原文標題及原文鏈接。