chuyên gia MAV (Machine Learning Approach to Anti-virus Expert System). Kê t qua thu.. c

Similar documents
KHI X L T SÔNG H NG VÀO SÔNG ÁY

Google Apps Premier Edition

PH NG PH P D¹Y HäC TÝCH CùC TRONG GI O DôC MÇM NON

KH O SÁT D L NG THU C TR SÂU LÂN H U C TRONG M T S CH PH M TRÀ ACTISÔ

Luâ t Chăm So c Sư c Kho e Mơ i va Medicare

NG S VIÊN TRONG CH M SÓC

1. chapter G4 BA O CA O PHA T TRIÊ N BÊ N VƯ NG

NGHIÊN C U XU T XÂY D NG H H TR RA QUY T NH KHÔNG GIAN CHO THOÁT N C Ô TH B NG CÁC GI I PHÁP CÔNG TRÌNH

Th vi n Trung Tâm HQG-HCM s u t m

GIÁO H I PH T GIÁO VI T NAM TH NG NH T

Ngô Nh Khoa và cs T p chí KHOA H C & CÔNG NGH 58(10): 35-40

À N. á trong giáo d. Mã s HÀ N NGHIÊN C ÊN NGÀNH TÓM T

Bài 3: Mô phỏng Monte Carlo. Under construction.

CH NG IV TH C HI N PH NG PHÁP T NG H P CHO QUY HO CH S D NG B N V NG NGU N TÀI NGUYÊN T AI

CHƯƠNG TRÌNH DỊCH BÀI 14: THUẬT TOÁN PHÂN TÍCH EARLEY

Thông tin mang tính a lý trên m t vùng lãnh th bao g m r t nhi u l p d li u khác nhau (thu c n v hành chánh nào, trên lo i t nào, hi n tr ng s d ng

PHÂN TÍCH DỮ LIỆU BẰNG PHẦN MỀM SPSS 12.0 * PHẦN 4

TH TR NG HÀNG KHÔNG, KHÔNG GIAN VI T NAM

Phâ n thông tin ba o ha nh cu a ASUS

BÁO CÁO THỰC HÀNH KINH TẾ LƯỢNG

C M NANG AN TOÀN SINH H C PHÒNG THÍ NGHI M

Why does the motion of the Pioneer Satellite differ from theory?

Đánh giá: ❶ Bài tập (Quiz, In-Class) : 20% - Quiz (15-30 phút): chiếm 80%; 5 bài chọn 4 max TB - In-Class : chiếm 20% ; gọi lên bảng TB

VieTeX (21) Nguy ên Hũ, u Ðiê, n Khoa Toán - Co, - Tin học

log23 (log 3)/(log 2) (ln 3)/(ln2) Attenuation = 10.log C = 2.B.log2M SNR db = 10.log10(SNR) = 10.log10 (db) C = B.log2(1+SNR) = B.

ĐƠN KHIÊ U NA I/THAN PHIỀN CU A HÔ I VIÊN. Đi a chi Tha nh phô Tiê u bang Ma zip

5 Dùng R cho các phép tính đơn giản và ma trận

VÔ TUYẾN ĐIỆN ĐẠI CƯƠNG. TS. Ngô Văn Thanh Viện Vật Lý

M C L C. Thông tin chung. Ho t ng doanh nghi p. Báo cáo & ánh giá BÁO CÁO THƯỜNG NIÊN Thông tin công ty. 3 Quá trình phát tri n c a INVESTCO

Ban Tô Chư c ĐH6 không ngưng ơ đo ma đa đăng pho ng a nh Passport cu a Tha i Văn Dung lên trang ma ng cu a ĐH6.

Thông Tin An Toàn V n Ph m AAM704 INTERGARD 345 DUSTY GREY PART A. 1.2 Cách dùng ng nh t có liên quan c a các ch t ho c h n h p và cách dùng ng c l i

SÁNG TH T, NGÀY

GIÁO TRÌNH LÝ THUY T C B N V M NG LAN

NH NGH A C C THU T NG 4 PH N I NHI M HUẨN ỆNH VIỆN V VỆ SINH TAY 6 PH N II TH C H NH HU N UYỆN V GI M S T VỆ SINH TAY 9

hoctoancapba.com Kho đ ề thi THPT quốc gia, đ ề kiểm tra có đáp án, tài liệu ôn thi đại học môn toán

System AR.12_13VI 01/ with people in mind

DANH T NG VI T NAM TI U S DANH T NG VI T NAM TH K XX - T P II

Năm 2015 O A O OB O MA MB = NA

Các Phương Pháp Phân Tích Định Lượng

Chapter#2 Tính chất của vật chất (Properties of Substances)

Mục tiêu. Hiểu được. Tại sao cần phải định thời Các tiêu chí định thời Một số giải thuật định thời

Saigon Oi Vinh Biet (Vietnamese Edition) By Duong Hieu Nghia chuyen dich READ ONLINE

Thông Tin An Toàn V n Ph m

KHÁI niệm chữ ký số mù lần đầu được đề xuất bởi D. Chaum [1] vào năm 1983, đây là

KHÁM PHÁ CHI C CHEVROLET COLORADO DÀNH RIÊNG CHO NH NG CH NHÂN KHÔNG NG I B T PHÁ

15 tháng 06 năm 2014.

Thông Tin An Toàn V n Ph m

TẠO PAN ĐỘNG CƠ Ô TÔ ĐIỀU KHIỂN BẰNG MÁY TÍNH

L i m. v m ng, lá có hai th : m t lo i ph t lo i thô nhám. C hai lo u dài 4,5 t u nh ng

GIÁO TRÌNH Mô phỏng và mô hình hóa (Bản nháp) Trịnh Xuân Hoàng Viện Vật lý, Viện Hàn lâm KHCN VN Hà Nội 2015

NGUỒN THÔNG TIN MIỄN PHÍ TRÊN INTERNET : ĐÁNH GIÁ VÀ SỬ DỤNG DƯƠNG THÚY HƯƠNG Phòng Tham khảo Thư viện ĐH Khoa học Tự nhiên TP.

T i tr ng t p trung (tr t i tr ng t p trung trên Frame). riêng c a nút. Nút có các lo i h to riêng cho: liên k t, b c t do, l c t p trung, kh i

QCVN 19: 2009/BTNMT QUY CHUN K THUT QUC GIA V KHÍ THI CÔNG NGHIP I V I BI VÀ CÁC CHT VÔ C

THÔNG TIN LUẬN ÁN TIẾN SĨ

PHÂN TÍCH T & CÂN BẰNG B

H íng DÉN Sö DôNG MéT Sè PHÇN MÒM VUI CH I, HäC TËP TH NG DôNG CHO TRÎ MÇM NON MODULE MN HOÀNG CÔNG DỤNG

FINITE DIFFERENCE METHOD AND THE LAME'S EQUATION IN HEREDITARY SOLID MECHANICS.

LÝ LỊCH KHOA HỌC. CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI. 1. Họ và tên: Vũ Đặng Hoàng

I H C QU C GIA HÀ N I I H C KHOA H C XÃ H NGUY N TH THÚY H NG U TH K XX VÀ TI N TRÌNH HI

TỐI ƯU HÓA ĐA MỤC TIÊU ỨNG DỤNG XÁC LẬP CHẾ ĐỘ CÔNG NGHỆ SẤY THĂNG HOA (STH) TÔM THẺ

HƯỚNG DẪN SỬ DỤNG PHẦN MỀM DIỆT VIRUS AVIRA

Danh s ch B o c o. H i th o T i u và Tính toán khoa h c l n th 8,

HÀ N I - HÀ TÂY TT Tên làng ngh Tên ng i li n h

TÓM TẮT ĐỀ TÀI NGHIÊN CỨU

sao cho a n 0 và lr(a n ) = Ra n X a n với X a n R R. Trong bài báo này, chúng Z r (R) (t.ư., Z l (R)).

Mã khối không thời gian trực giao và điều chế lưới

X AC DI.NH VI. TR I C AC GI A D O H ` ANG

TÍNH TOÁN ĐỊNH HƯỚNG CHẾ TẠO CẤU TRÚC UVLED CHO BƯỚC SÓNG PHÁT XẠ 330nm

Nguyễn Thị Huyền Trang*, Lê Thị Thủy Tiên Trường Đại học bách khoa, ĐHQG tp Hồ Chí Minh,

- Cài đặt hệ số CT: 1/5-999 KA. - Nguồn cấp: AC: 240V AC ±20%, (50 / 60Hz) - 110V AC ±20%, (50 / 60Hz) - Mạng kết nối: 1 pha 2 dây hoặc 3 pha 3/4 dây

22 Quy lu t b t bi n c a Marketing Al Ries & Jack Trout

NGHIÊN CỨU TIÊU CHUẨN VÀ PHƯƠNG PHÁP TỐI ƯU CÔNG SUẤT PHÁT CỦA HỆ THỐNG ĐIỆN MẶT TRỜI NỐI LƯỚI: XÉT CHO TRƯỜNG HỢP LƯỚI ĐIỆN HẠ THẾ 1 PHA

TÀI CHÍNH DOANH NGHIP

Medi-Cal. S tay h i viên Medi-Cal

Linux cho ngu ò i dùng. Tác gia : Kostromin V. A. Di ch bo i: Phan Vĩnh Thi nh

BẢNG GIÁ THIẾT BỊ SELEC

DỰ BÁO TƯỚNG THẠCH HỌC VÀ MÔI TRƯỜNG TRẦM TÍCH CHO ĐÁ CHỨA CARBONATE PHÍA NAM BỂ SÔNG HỒNG, VIỆT NAM

HỆ THỐNG BÁO CÁO VÀ HỌC HỎI VỀ SAI SÓT LIÊN QUAN ĐẾN THUỐC: VAI TRÒ CỦA CÁC TRUNG TÂM CẢNH GIÁC DƯỢC

CƠ SỞ VẬT LÝ HẠT NHÂN

NHẬT BÁO THẲNG TIẾN 11

AMERICAN INTERNATIONAL SCHOOL IS A LIFE-LONG COMPANION IN YOUR POSITIVE FUTURE AND WE ALL BEGIN WITH A YES

Nhiễu và tương thích trường điện từ


SỞ GD & ĐT BẮC NINH ĐÊ TẬP HUẤN THI THPT QUỐC GIA NĂM Đề bài y x m 2 x 4. C. m 2. có bảng biến thiên như hình dưới đây:

PHÂN TÍCH PHÂN BỐ NHIỆT HYDRAT VÀ ỨNG SUẤT TRONG CẤU TRÚC BÊ TÔNG ĐỂ KIỂM SOÁT SỰ GÂY NỨT CỦA CÔNG TRÌNH BÊ TÔNG CỐT THÉP

Hà Nội, ngày 22 tháng 1 năm 2012 (ngày Tất niên năm Nhâm Thìn) Đại diện nhóm biên soạn Chủ biên Hoàng Minh Quân Phan Đức Minh

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN HÀ MY

AIR SLEEP MODE With the air sleep sensor, the air conditioner can monitor the activity/movement level in a room and adjust the temperature and humidit

i h c Tây Nguyên, 2 H i Khoa h t Vi t Nam 3 Vi n Quy ho ch và Thi t k Nông nghi p *:

ĐH BÁCH KHOA TP.HCM. Bài giảng: NĂNG LƯỢNG TÁI TẠO. Giảng viên: ThS. Trần Công Binh

THÔNG TIN VỀ LUẬN ÁN TIẾN SĨ

Đầu Nối Cáp T 630A 93-EE9X5-4-Exp-A-3/C Series Đầu Nối T : 24 kv 125 kv BIL Đáp ứng các tiêu chuẩn : IEC 502-4, VDE 0278 Hướng Dẫn Sử Dụng

cách kết hợp thuật toán Fuzzy C-Means (FCM) với giải thuật di truyền (GA). Sau đó, HaT2-FLS

CP PHA NHÔM SAMMOK SAMMOK HI-TECH FORM VINA CO., LTD

Nguồn điện một chiều E mắc trong mạch làm cho diode phân cực thuận. Gọi I D là dòng điện thuận chạy qua diode và V D là hiệu thế 2 đầu diode, ta có:

Làm vic vi XML trên Android

h ng Gi i thi u ower oint 010

PHAN DANH CHO CO QUAN QUAN LY PHIEU CONG BO SAN PHAM MY PHAM TEMPLATE FOR NOTIFICATION OF COSMETIC PRODUCT THONG TIN SAN PHAM PARTICULARS OF PRODUCT

Tháng Giao d ch th an toàn. B n ã bi t v Vay 24 phút?

SỬ DỤNG PHƯƠNG PHÁP ĐO SÂU ĐIỆN XÁC ĐỊNH CẤU TRÚC ĐỊA CHẤT VÀ QUY MÔ PHÂN BỐ CỦA THAN TRONG TRẦM TÍCH ĐỆ TAM VÙNG TRŨNG AN NHƠN - BÌNH ĐỊNH

Transcription:

Tạp chí Tin học và Diều khiê n học, T.24, S.1 (2008), 32 41 CO. CHÊ MÁY HỌC CHÂ N DOÁN VIRUS MÁY TÍNH HOÀNG KIÊ M 1, TRU. O. NG MINH NHẬT QUANG 2 1 Tru. ò. ng Dại học Công nghệ Thông tin, DHQG TP.HCM 2 Trung tâm Dào tạo Dại học Tại chú. c Cần Tho. Abstract. When computer virus wide spreads in the world nowadays, anti-virus needs to improve their identifying methods to enhance the performance. In this paper, we introduce a new method to diagnose computer virus. First, we analyse the characteristics of viral data type to define virus classes through object-oriented methods. Second, we study the machine learnning mechanism for each virus class. Finally, we apply these learning forms to a data processing stage of a machine learning anti-virus expert system. The experimentation results show that the machine learning approach is suitable for anti-virus to identify the computer virus. This approach also gives a new aspect of anti-virus technology. Tóm tă t. Trong bô i ca nh các hệ thô ng máy tính thu. ò. ng xuyên bị virus tâ n công, các hệ phòng chô ng virus máy tính cần ca i tiê n phu. o. ng pháp nhận dạng và tăng cu. ò. ng hiệu qua châ n doán. Trong bài viê t này chúng tôi gió. i thiệu phu. o. ng pháp mó. i dê châ n doán virus máy tính. Dầu tiên, virus máy tính du. o.c. dịnh nghĩa hu. ó. ng dô i tu. o.ng. theo dặc tru. ng dũ. liệu. Kê tiê p, xây du.. ng các mô hình học thích ho.. p cho tù. ng ló. p virus. Cuô i cùng, áp dụng các bài toán học vào giai doạn xu. lý cu a một hệ phòng chô ng virus máy tính hu. ó. ng tiê p cận máy học và hệ chuyên gia. Kê t qua thu.. c nghiệm cho thâ y phu. o. ng pháp này thích ho.p. cho bài toán nhận dạng virus máy tính, mo. ra hu. ó. ng nghiên cú. u mó. i trong công nghệ anti-virus ngày nay. 1. GIÓ. I THIỆU Internet là môi tru. ò. ng thuận lo.i. cho virus máy tính lây lan trên diện rộng. Mặc dù các hệ phòng chô ng virus (AV, Anti-virus software) không ngù. ng cập nhật và phát triê n, các hệ thô ng máy tính vâ n thu. ò. ng xuyên bị virus xâm nhập, dánh că p và phá hu y dũ. liệu. Do dó cần nghiên cú. u ca i tiê n co. chê nhận dạng virus máy tính, ba o vệ an toàn dũ. liệu cho các hệ thô ng công nghệ thông tin (CNTT). Khác vó. i các phu. o. ng pháp dã biê t, chúng tôi gia i quyê t bài toán nhận dạng virus máy tính theo hu. ó. ng tiê p cận máy học. Dầu tiên chúng tôi dịnh nghĩa hu. ó. ng dô i tu. o.ng. 5 ló. p virus co. ba n A, B, C, D và E du.a. vào dặc tru. ng dũ. liệu cu a chúng. Sau dó xây du.. ng các bài toán học cho các ló. p virus du.a. vào các kỹ thuật học quy nạp, học chı dâ n, học vẹt, học tu. o. ng tu.. và học tình huô ng. Dê dánh giá tiê p cận, chúng tôi tích ho.p. 5 bài toán học vào hệ phòng chô ng virus máy tính hu. ó. ng tiê p cận máy học và hệ chuyên gia MAV (Machine Learning Approach to Anti-virus Expert System). Kê t qua thu.. c nghiệm cho thâ y hệ nhận dạng chính xác các virus dã cập nhật và du.. doán trên 91% biê n thê virus mó. i.

CO. CHÊ MÁY HỌC CHÂ N DOÁN VIRUS MÁY TÍNH 33 2.1. Khái niệm về virus máy tính 2. TÔ NG QUAN Virus máy tính (computer virus, trong bài này gọi tă t là virus) là loại chu. o. ng trình máy du. o.. c thiê t kê dê thu.c. hiện các chı thị cu a nó sau chu. o. ng trình khác [1]. Bí mật sao chép ba n thân nó vào các hệ thô ng máy tính, virus lây tù. máy này sang máy khác, làm suy gia m năng lu.. c hoạt dộng hệ thô ng và xâm phạm dũ. liệu ngu. ò. i dùng. Theo Bordera [2], virus máy tính là: bâ t cú. chı thị, thông tin, dũ. liệu hoặc chu. o. ng trình làm suy gia m tính hoàn thiện cu a tài nguyên máy tính, làm vô hiệu, gây nguy hiê m hoặc phá hu y, hoặc ghép ba n thân nó vào tài nguyên cu a máy tính khác và thi hành khi chu. o. ng trình máy tính thi hành. Chúng tôi phân loại virus du.a. vào dặc tru. ng dũ. liệu theo 5 ló. p nhu. sau: - Ló. p A (stand Alone program): các loại sâu trình có dịnh dạng ú. ng dụng dộc lập. - Ló. p B (Boot record): các loại virus lây vào mâ u tin kho. i dộng hệ thô ng. - Ló. p C (ascii text): các loại virus, sâu trình có mã nguồn dạng script. - Ló. p D (Document): các loại macro virus lây vào tu. liệu Microsoft Office. - Ló. p E (Executable): các loại virus lây vào các tập tin thi hành. 2.2. Tô ng quan về bài toán nhận dạng và du.. báo virus máy tính Nhận dạng virus máy tính là quá trình tìm kiê m các mô ta dặc tru. ng virus trong thu. viện mâ u trên tập châ n doán [3]. Năm 1995, Lo và cộng su.. [4] gió. i thiệu phu. o. ng pháp lọc mã dộc du.. a vào phân tích dặc tru. ng và thuộc tính. Phu. o. ng pháp này có u. u diê m là do. n gia n nhu. ng kha năng du.. báo virus mó. i còn hạn chê. Năm 1996, IBM dề xuâ t phu. o. ng pháp thô ng kê dê trích chọn chuô i nhận dạng tu.. dộng [5]. Do dầu ra chı là các chuô i mã trích chọn nên chu. a du.. báo du. o.. c dô i tu. o.ng. có pha i là mã dộc hay không. Năm 1998, Spafford gió. i thiệu phu. o. ng pháp phân tích quá trình lây lan cu a sâu trình Internet trên co. so. dũ. liệu (CSDL) mã thu.. c thi, cách lây và vị trí các nút mạng bị tâ n công dê du.. báo các tình huô ng tu. o. ng tu.. trên các nút khác [6]. Phu. o. ng pháp này chạy chậm, chi phí cao, dê quá ta i khi mo. rộng danh sách các nút mạng và sâu trình. Năm 2000, IBM su. dụng mô hình mạng trí tuệ nhân tạo ANN (Artificial Neural Networks) phân ló. p các mâ u tin kho. i dộng (MTKD). Kê t qua nhận dạng du. o.. c 80 85% các virus lạ vó. i sai sô du. ó. i 1% trên các mâ u du. o. ng [7]. Tuy nhiên khi áp dụng ANN cho các dô i tu. o.ng. thi hành Win32, các chuyên gia IBM cũng chu. a du. a ra du. o.c. minh chú. ng thuyê t phục nào cho hu. ó. ng nghiên cú. u này [8]. Năm 2001, G. Matthew và cộng su.. công bô kê t qua nhận dạng mã dộc Win32 bằng kỹ thuật học quy nạp Find-S (dạt 87.35%) và phân ló. p Nave Bayes (dạt 96.7%) [9]. Tuy nhiên do các thuật toán chuâ n hóa dũ. liệu phú. c tạp, cần dê n 1 GB bộ nhó. cho 4266 mâ u thu. (3265 mã dộc và 1001 ú. ng dụng) nhu. ng hoạt dộng kém hiệu qua trên các dô i tu. o.ng. chu. a du. o.. c phân ló. p nên phu. o. ng pháp này có hạn chê về mặt thu.. c tiê n. 3. CO. CHÊ MÁY HỌC CHÂ N DOÁN VIRUS MÁY TÍNH 3.1. Tô chú. c co. so. tri thú. c Máy học (machine learning) là lý thuyê t xây du..ng các hệ chu. o. ng trình tu.. khám phá tri

34 HOÀNG KIÊ M, TRU. O. NG MINH NHẬT QUANG thú. c bằng các câ u trúc dũ. liệu và thuật gia i dặc biệt, giúp phân tích, xu. lý, trích chọn, chi tiê t hóa dũ. liệu và hô tro.. quyê t dịnh liên quan dê n kinh nghiệm cu a con ngu. ò. i. Một sô kỹ thuật học có thê sinh luật chuyên gia, thích ho.p. cho các tru. ò. ng ho.p. cần tham kha o ý kiê n chuyên gia trong các lĩnh vu.. c cụ thê và chuyên sâu [10]. Nguyên liệu dành cho các hệ học là co. so. tri thú. c (CSTT, knowledge base), chú. a các su.. kiện mô ta dũ. liệu và các luật nhận dạng. Trong tiê p cận máy học, tri thú. c virus chú. a thông tin về loại virus cần xu. lý, các mô ta hành vi cu a virus trên dô i tu. o.ng,. các luật nhận dạng và dạng thú. c dũ. liệu mà virus nhă m vào. MAV su. dụng mô hình ló. p (class) chú. a các virus có cùng dặc tru. ng dũ. liệu. Mô i ló. p virus tu. o. ng ú. ng vó. i một ló. p dũ. liệu châ n doán [11] du. o.c. dịnh nghĩa hu. ó. ng dô i tu. o.ng. nhu. o. Hình 1. Dạng tri thú. c thú. hai du. o.. c mô ta trong CSTT là tập luật nhận dạng. MAV su. dụng một thu. viện mô ta dặc tru. ng virus du. ó. i dạng tập các vector V K = {v 1, v 2,..., v k } và áp dụng phép truy vâ n các vecto. v i trong tập dũ. liệu S theo các luật dâ n xuâ t dạng: R : p1 p2... p n q, trong dó p i dặc tru. ng cho tập thuộc tính virus, q là kê t luận cu a quá trình suy diê n. 3.2. Phân hoạch bài toán châ n doán virus máy tính Du.. a vào dặc tru. ng nhận dạng cu a các ló. p dũ. liệu, bài toán châ n doán virus máy tính du. o.. c phân thành các bài toán con, su. dụng các kỹ thuật học tù. do. n gia n dê n phú. c tạp nhu. sau: - Bài toán 1: châ n doán ló. p C (ascii text files) theo co. chê học vẹt. - Bài toán 2: châ n doán ló. p D (Document files) theo co. chê học tu. o. ng tu... - Bài toán 3: châ n doán ló. p B (Boot record) theo co. chê học chı dâ n. - Bài toán 4: châ n doán ló. p E (Executable files) theo co. chê học tình huô ng. - Bài toán 5: châ n doán ló. p A (stand Alone program) theo co. chê học quy nạp. Mô i bài toán su. dụng co. so. dũ. liệu (CSDL) virus mâ u dặc thù tu. o. ng ú. ng cu a ló. p: S = {S A, S B, S C, S D, S E } vó. i S A, S B, S C, S D và S E là CSDL virus mâ u cu a các ló. p; aobject, bobject, cobject,dobject và eobject là các diê m dũ. liệu trong không gian châ n doán cu a mô i bài toán, theo thú. tu.. dó. 3.3. Các bài toán châ n doán virus máy tính 3.3.1. Bài toán 1: châ n doán ló. p virus C-class Virus ló. p C lây nhiê m bằng cách chèn hoặc tạo mó. i câu lệnh script vào dô i tu. o.ng.. Gọi: T = {a i, c i = 32,..., 127; c N} là dô i tu. o.ng. châ n doán. V = {b j, m i = 32,..., 127; n N} là dô i tu. o.ng. lây nhiê m (virus). trong dó a i là tập ký tu.. cu a T, c là kích thu. ó. c (sô ký tu.. ) cu a T, b j là tập ký tu.. cu a virus V, m là kích thu. ó. c cu a V và N là tập sô nguyên du. o. ng. T nhiê m virus V khi và chı khi

CO. CHÊ MÁY HỌC CHÂ N DOÁN VIRUS MÁY TÍNH 35 V T. Gọi S C = {V 1, V 2,..., V n } là CSDL ló. p C. Ú. ng vó. i mô i dô i tu. o.. ng châ n doán T, xác dịnh: Tru. ò. ng ho.p. 1: T V i i = 1..n, kê t luận T nhiê m virus V i (tú. c là T = T 0 V ): - Xác dịnh T 0 = C T (V i ) = T \V i C T (V i ) là phần bù cu a V i trong T - Loại bo virus: V i {φ}. Tru. ò. ng ho.p. 2: T = V i i = 1..n, kê t luận dô i tu. o.ng. T là sâu trình V i. Do sâu trình không có vật chu (T 0 = {φ}) nên thu.. c hiện V i {φ}. Ba n châ t cu a bài toán châ n doán C-class là học vẹt. Tri thú. c virus du. o.c. chuyên gia cung câ p du. ó. i dạng <<Mâ u dũ. liệu, Khă ng dịnh virus>>. Thuật gia i do. n gia n, có dộ phú. c tạp O(n) ty lệ vó. i kích thu. ó. c dũ. liệu và sô mâ u virus có trong S C. Tuy nhiên thuật toán không du. a ra khă ng dịnh du. o. ng khi có virus mó. i. Do virus text có tập lệnh hạn chê và ít phô biê n nên học vẹt là lu.. a chọn phù ho.p. trong giai doạn hiện nay. Trong tu. o. ng lai khi lu. o.. ng virus text du ló. n, có thê thay bằng các mô hình học du.a. xác suâ t trên dũ. liệu văn ba n nhu. Nave Bayes. 3.3.2. Bài toán 2: châ n doán ló. p virus D-class D class là ló. p các virus macro su. dụng tập mã lệnh VBA (Visual Basic Application) dê lây nhiê m trên môi tru. ò. ng MSOffice [12]. Khác vó. i các macro thông thu. ò. ng thi hành nhò. lệnh Run, các virus macro tu.. thi hành bằng các thu tục trigger (nhu. AutoExec). Chı có các tu. liệu nào su. dụng macro mó. i có nguy co. chú. a virus macro (Hình 2). Trong mô hình học khám phá tu. o. ng dồng, các hàm R nhận dạng có dạng: (X i = V i )... (X k = V k ) trong dó mô i X j là các biê n, V j là các giá trị có thê có cu a các biê n này, các phép tuyê n cu a nhũ. ng giá trị có thê có, hoặc tập cu a nhũ. ng giá trị này. Một hàm R có trị TRUE dô i vó. i dô i tu. o.ng. châ n doán dobject khi các giá trị cu a các biê n cu a dobject là một trong nhũ. ng hàm dó. Ngoài ra, hàm tra về trị FALSE. Trong không gian châ n doán N dô i tu. o.ng,. khi hàm R nhận dạng nhiều ho. n một dô i tu. o.ng,. tập con cu a các giá trị mà nó nhận dạng gọi là du. o.c. nhận dạng bo. i R. Ngu. o.. c lại, cho một tập con các dô i tu. o.ng,. ta có thê tạo một hàm nhận dạng du. o.. c phát sinh bo. i tập con này bằng cách lâ y phép tuyê n các giá trị cu a các biê n cu a chúng [13]. Trong không gian SD, hệ sẽ xây du.ng. các hàm R cho mô i dô i tu. o.ng. dobject. Nê u R nhận dạng du. o.c. Vj (tu. o. ng ú. ng vó. i nút lá Virus macro ), kê t luận dobject nhiê m virus dã biê t: R : (X 1 = true) (X 2 = true) (X 3 = true) (X 4 = true) (X 4+i = true) i = 1..n. Ngu. o.. c lại, có thê kê t luận dobject nhiê m một loại virus macro mó. i. Hình 3a và 3b mô ta các luật nhận dạng virus macro cũ và mó. i theo co. chê học tu. o. ng tu... Bài toán châ n doán D class có thê nhận dạng dê n 98% các macro lạ (2% thâ t bại do password cu a ngu. ò. i dùng). Tuy nhiên kỹ thuật này không phát hiện du. o.c. các virus chen giũ. a các macro tu.. tạo. Hu. ó. ng gia i quyê t là thiê t lập bộ tinh chı nh luật du. ó. i dạng tùy chọn diều khiê n trạng thái các mệnh dề dobject không có macro tu.. tạo và Dồng ý xóa macro.

36 HOÀNG KIÊ M, TRU. O. NG MINH NHẬT QUANG Hình 2. Phân loại tu. liệu MSOffice và các hàm R nhận dạng virus macro 3.3.3. Bài toán 3: châ n doán ló. p virus B-class Ló. p B chú. a các boot virus lây vào các MTKD trên sector dầu tiên cu a tô chú. c dĩa. Bài toán châ n doán B class du. o..c gia i quyê t theo hu. ó. ng phân tích hành vi [14] nhu. sau: Tô chú. c 2 CSDL chú. a các boot virus dã biê t và các MTKD sạch phô biê n cu a các HDH. Cung câ p 2 tập miền (domain theory) dịnh nghĩa hành vi cu a boot virus và MTKD sạch. Ví dụ: Bootvirus GetM emsize, DecM emsize, SetM emsize, SetM emv i, M ovv icode GetM emsize ReadM em, GetV alue DecMemSize SetNewSize, WriteMem(...) Ta i bobject vào không gian tìm kiê m là một cây nhị phân có nút gô c dặc ta diê m vào lệnh. Nhánh biê u diê n các lệnh tuần tu... Nút con là các lệnh rẽ hu. ó. ng và nha y. Nút lá là các diê m dù. ng. Các lệnh lặp xu. lý nhu. lệnh tuần tu.. vào-ra trên cây con cục bộ (Hình 4). Áp dụng thuật gia i tìm kiê m, thu thập các hành vi cu a bobject vào danh sách tác vụ: - Nê u danh sách pha n ánh dầy du các mô ta cu a tập miền thú. nhâ t, thông báo tình trạng nhiê m virus cu a bobject, xu. lý bệnh, báo cáo kê t qua, kê t thúc quá trình. - Nê u danh sách pha n ánh các mô ta cu a tập miền thú. hai, kê t luận bobject an toàn. - Ngoài ra, bobject có tình trạng bâ t thu. ò. ng (virus mó. i, sector ho ng, dịnh dạng lạ...). Kê t thúc quá trình, cập nhật thông tin dô i tu. o..ng vào CSDL tu. o. ng ú. ng. So vó. i mô hình mạng no. ron [7], châ n doán boot virus theo co. chê học chı dâ n có tô c dộ nhanh (tu. o. ng du. o. ng thò. i gian kho. i dộng dĩa mềm trô ng) và chính xác ho. n (nhận dạng 96% boot virus lạ) [15]. Tuy nhiên phu. o. ng pháp này có nhu. o.c. diê m là phú. c tạp trong cài dặt [16].

CO. CHÊ MÁY HỌC CHÂ N DOÁN VIRUS MÁY TÍNH 37 Hình 4. Cây chı thị nhị phân tìm kiê m 3.3.4. Bài toán 4: châ n doán ló. p virus E-class Ló. p E class chú. a các loại virus ghép mã vào tập thi hành [17]. MAV gia i quyê t bài toán này bằng mô hình AMKBD (Association Model of Knowledge Base and Database) [18]. Su. dụng CSDL (chú. a thông tin dô i tu. o.ng. châ n doán) và CSTT (chú. a tập luật nhận dạng virus), co. chê suy luận châ n doán virus ló. p E nhu. sau: - Dô i vó. i tập dũ. liệu lạ, kiê m tra bệnh cũ, ghi nhận thông tin vào CSDL hồ so. bệnh án. - Khi dã có thông tin, thu. ò. ng xuyên giám sát cộng dồng về mặt vệ sinh dịch tê. - Khi có cá thê lạ xuâ t hiện, kiê m tra dô i tu. o.ng. dê hạn chê việc nhiê m bệnh tù. bên ngoài. - Khi có dịch virus, chı cần kiê m tra tù. ng cá thê xem có mă c bệnh mó. i hay không. - Khi phát hiện bệnh mó. i, phục hồi tình trạng cho cá thê tù. CSDL hồ so. bệnh án. Dê ba o vệ hệ thô ng trong thò. i gian thu.. c, MAV su. dụng co. chê da tác tu. (multi-agent mechanism) vó. i hai tác tu.. Tác tu. Canh phòng (Autoprotect Agent) chạy thu. ò. ng tru.. c o. mú. c nền sau (background) nhằm dón bă t các tình huô ng phát sinh trên dô i tu. o.ng.. Tác tu. Duyệt quét (Scanning Agent) chạy o. mú. c nền tru. ó. c (foreground) có nhiệm vụ duyệt tập dũ. liệu. Ca hai tác tu. su. dụng chung dộng co. suy diê n, liên lạc nhau theo co. chê truyền thông diệp [19]. 4.3.34. Trong diều kiện lý tu. o. ng, phu. o. ng pháp này có thê phát hiện dê n 99% file virus lạ. Tuy nhiên khi AMKBD ca nh báo, hệ sẽ gây bô i rô i cho ngu. ò. i dùng ít kinh nghiệm. 3.3.5. Bài toán 5: châ n doán ló. p virus A-class Ló. p A class chú. a các trojan horse/sâu trình nhu. germs, dropper, injector, rootkit, intruder, zombie... Nhận dạng mã dộc (malware) là vâ n dề mo. cu a các anti-virus hiện nay [20]. Nhiệm vụ cu a bài toán là kiê m tra dô i tu. o.ng. M có pha i là mã dộc hay không. Nê u không, hệ pha i du.. báo M có kha năng thuộc nhóm virus nào không, ty lệ mã dộc là bao nhiêu. Gọi wrate (0, 1] là ty lệ mã dộc cu a M; λ [0, 1] là hằng sô ngu. õ. ng an toàn cho tru. ó. c. Dầu tiên, tách CSDL A thành các nhóm f theo trật tu.. cha-con trên câ u trúc dũ. liệu V tree [21]. Sau dó, áp dụng nguyên lý TF-IDF [22], biê u diê n M du. ó. i dạng vecto. tần suâ t tù. F(M) su. dụng mô hình không gian vecto., trong dó mô i thành phần F(M, w) dặc ta sô lần tù. w xuâ t hiện trong M. Tiê p theo, biê u diê n mô i virus trong CSDL A du. ó. i dạng vecto. tần suâ t tù. d i = (w i1, w i2,..., w iv ), rồi ánh xạ các vecto. này vào ma trận 2 chiều tù. - tài liệu (word-document matrix). Mô i hàng ma trận tu. o. ng ú. ng vó. i bộ dũ. liệu mâ u cu a virus dã tù. hóa (to word), mô i cột tu. o. ng ú. ng vó. i một tù. duy nhâ t. Mục tiêu là xác dịnh trọng sô W(f, w) trong tù. ng tập f dê tính dộ dồng dạng dũ. liệu (similarity measure) cu a M vó. i các

38 HOÀNG KIÊ M, TRU. O. NG MINH NHẬT QUANG tập f theo công thú. c: F(M, w)w(f, w) w M SIM(M, f) = min( F(M, w), W(f, w)). w M Các dại lu. o.ng. dùng tính toán SIM du. o.c. dịnh nghĩa trong Ba ng 1. Sau khi chọn du. o.cf. (có SIM caonhâ t), tính ty lệ mã dộc cu am so vó. i các mâ u trong f: wrate i (M, v i ) = FF(v i, w) v i là mâ u thú. i trong tập f. w M Ba ng 1. Các dại lu. o..ng tính toán theo nguyên lý TD-IDF Cuô i cùng, chọn mâ u có wratei ló. n nhâ t. Nê u: - wrate = 1, kê t luận M là mã dộc. - wrate λ, du.. báo M chú. a (wrate 100)% mã dộc. 4. KÊ T QUA THU.. C NGHIỆM 4.1. Thu. nghiệm tô c dộ thu.. c thi cu a MAV Cùng vó. i MAV, các AV thu. nghiệm gồm Norton Anti-virus (NAV), Kaspersky Lab (KL) và Grisoft Anti-virus (AVG). Tập dũ. liệu X có 36178 tập tin. Cách thu.. c hiện nhu. sau: - Do thò. i gian trung bình cu a các VirusFix (chı quét một virus) cu a mô i AV. - Do thò. i gian chạy trung bình cu a mô i AV hoàn chı nh (có sô virus xác dịnh). - Tính tô c dộ quét trung bình cu a mô i AV trong diều kiện chuâ n (DKC). Dô i vó. i mô i anti-virus thu. nghiệm, gọi: - V c là sô mâ u tin trong CSDL virus. - T 0 là thò. i gian (giây) quét toàn bộ tập X trong tru. ò. ng ho.p. V c = 1. - T là thò. i gian (giây) quét toàn bộ tập X trong tru. ò. ng ho.p. V c > 1. - T 1 là thò. i gian trung bình (giây) châ n doán một virus trên tập X : T 1 = T/V c. - T 2 là thò. i gian trung bình (giây) châ n doán một mâ u tin trong CSDL: T 2 = (T T 0 )/(V c 1) - V e là sô mâ u tin trong CSDL virus o. DKC. - C e là dung lu. o.ng. (KB) dũ. liệu trong DKC. - T e là thò. i gian (giây) châ n doán trong DKC: T e = T + (V e V c ) T 2. - S e là tô c dộ (KB/giây) do du. o.c. trong DKC: S e = C e /T e. DKC cho V e = 2.000; C e = 10.000.000 KB. Kê t qua thu.. c nghiệm trong Ba ng 2 và Hình 5.

CO. CHÊ MÁY HỌC CHÂ N DOÁN VIRUS MÁY TÍNH 39 Ba ng 2. Kê t qua thu. nghiệm tô c dộ các AV trong diều kiện chuâ n Anti-virus T 0(s) T 1 (s) T 2 (s) T (s) T e (s) S e (KB/s) MAV 195 0.498 0.1987 324 592.245 16884.9 NAV 196 0.699 0.5748 1095 1345.038 7434.734 AVG 337 3.897 2.6259 1025 5586.188 1790.129 KL 390 5.918 2.7704 728 5928.041 1686.898 Hình 5. So sánh tô c dộ các AV thu. nghiệm trong diều kiện chuâ n 4.2. Thu. nghiệm hiệu qua nhận dạng virus cu a MAV Trong thu. nghiệm này, các AV tham gia gồm NAV, VirusScan (McAfee) và Bit Defender. Không gian quan sát gồm 35178 tệp dũ. liệu và 1000 mâ u virus. Kê t qua MAV và BitDef phát hiện 957 và 959 virus, NAV và Scan là 907 và 906 virus (Ba ng 3). Dộ du.. báo cu a các AV là ty sô cu a sô ca nh báo vó. i hiệu cu a sô virus thu. nghiệm và sô phát hiện chính xác: P roactivedetection = P roaction/(v iruses Detections) Ba ng 3. Kê t qua thu. nghiệm hiệu qua nhận dạng cu a các anti-virus AV Sô virus Phiên ba n Ca nh báo Chính xác Bo sót Du.. báo Dộ du.. báo (%) NAV 72020 9.05.15 907 889 93 18 16.22 Scan N/A 4.0.4682 906 877 94 29 23.57 BitDef 253993 7.05450 959 925 41 34 45.33 MAV 890 N/A 957 483 43 474 91.68 Ba ng 4. Hiệu qua du.. báo virus lạ cu a MAV phụ thuộc vào hệ sô λ λ Du.. Ty lệ Nhầm Ty lệ nhầm λ Du.. Ty lệ Nhầm Ty lệ nhầm % báo du.. báo (%) (%) % báo du.. báo (%) (%) 100 474 91.68 0 0 89 495 95.74 1 0.003 98 476 92.07 0 0 87 496 95.94 2 0.006 96 480 92.84 0 0 84 496 95.94 6 0.017 95 482 93.23 0 0 81 496 95.94 9 0.025 93 488 94.39 0 0 79 497 96.13 10 0.028 90 495 95.74 0 0 75 497 96.13 13 0.036 Khi gia m λ, dộ du.. báo cu a MAV tô t ho. n nhu. ng cũng tăng ru i ro phát hiện nhầm (Ba ng 4). Kê t qua thu. nghiệm cho thâ y vó. i CSDL khiêm tô n, MAV vâ n có thê phát hiện sô virus tu. o. ng du. o. ng vó. i các phần mềm có sô virus cập nhật nhiều ho. n vó. i ty lệ du.. báo virus mó. i trên 91%. Khi λ = 0, 9, ty lệ này là 95,74%, MAV sẽ dạt hiệu qua du.. báo virus lạ tô t nhâ t.

40 HOÀNG KIÊ M, TRU. O. NG MINH NHẬT QUANG 5. KÊ T LUẬN VÀ HU. Ó. NG PHÁT TRIÊ N Nhận dịnh ba n châ t hoạt dộng cu a anti-virus và virus máy tính là cuộc dâ u trí giũ. a các chuyên gia anti-virus và hacker, chúng tôi vận dụng các nguyên lý co. ba n cu a khoa học trí tuệ nhân tạo dê xây du.. ng một hệ phòng chô ng virus máy tính hu. ó. ng tiê p cận máy học. Áp dụng chiê n thuật chia dê trị, bài toán nhận dạng virus máy tính du. o.c. gia i quyê t tù. ng phần bằng các bài toán học tù. do. n gia n dê n phú. c tạp. Trong mô i bài toán, các mô hình học du. o.c. lu.. a chọn phù ho.p. vó. i dặc diê m và tình hình lây nhiê m o. thê gió. i thu.. c. Kê t qua thu.c. nghiệm chú. ng to tiê p cận máy học khá thích ho.p. cho bài toán nhận dạng virus máy tính. Să p tó. i, chúng tôi sẽ áp dụng lý thuyê t mò. dê ca i thiện dộ du.. báo bằng cách học các giá trị tích lũy cu a hằng sô λ. Tù. nhũ. ng kê t qua bu. ó. c dầu này, chúng tôi sẽ tiê p tục nghiên cú. u các gia i pháp kê thù. a tri thú. c tù. các hệ anti-virus khác, hu. ó. ng dê n mục tiêu phát triê n MAV thành hệ tích ho.p. tri thú. c chuyên gia trong lĩnh vu.. c nhận dạng thông minh virus máy tính. TÀI LIỆU THAM KHA O [1] E.H. Spafford, Computer viruses as artificial life, Journal of Artificial Life, 1994. [2] M. Bordera, The Computer Virus War. Is The Legal System Fighting or Surrendering? Computer and Law, University of Buffalo School of Law, 1997. [3] Peter Szor, The Art of Computer Virus Research and Defense, Addison Wesley Professional, ISBN 0-321-30454-3, February 03, 2005. [4] R. W. Lo, K. N. Levitt, R. A. Olsson, MCF: a malicious code filter, Computer & Security 14 (6) (1995) 541 566. [5] Jeffrey O. Kephart and William C. Arnold, Automatic extraction of computer virus signatures, Proceedings of the 4 th Virus Bulletin Conference, Jersey - England, October 1994 (178 184). [6] Eugene H. Spafford, The Internet worm program: an analysis. Technical Report CSD-TR-823, Department of Computer Science, Purdue University, 1998. [7] Gerald Tesauro, Jeffred O. Kephart, Gregory B. Sorkin, Neural networks for computer virus recognition, IEEE Expert 11 (4) (August 1996) 5 6. [8] William Arnold, Gerald Tesauro, Automatically generated Win32 heuristic virus detection, Proceedings of the 2000 International Virus Bulletin Conference, Orlando-USA, September 2000. [9] Matthew G. Schultz, Eleazar Eskin, Erez Zadok, Salvatore J. Stolfo, Data mining methods for detection of new malicious executables, Proceedings of IEEE Symposium on Security and Privacy, Oakland, CA. May 2001. [10] Hoàng Kiê m, Dô Văn Nho. n, Dô Phúc, Giáo trình các hệ co. so. tri thú. c, NXB DHQG Tp. Hồ Chí Minh, 2002. [11] Hoang Kiem, Nguyen Thanh Thuy, Truong Minh Nhat Quang, A machine learning approach to anti-virus system, Joint Workshop of Vietnamese Society of AI, SIGKBS-JSAI, ICS-IPSJ and IEICE-SIGAI on Active Mining, Hanoi-VN, 4-7 Dec. 2004, (61 65). [12] Vesselin Bontchev, Solving the VBA upconversion problem, Virus Bulletin Conference, Oxfordshire, England, 2000.

CO. CHÊ MÁY HỌC CHÂ N DOÁN VIRUS MÁY TÍNH 41 [13] Nguyê n Dình Thúc, Trí tuệ nhân tạo - Máy học, NXB Lao dộng Xã hội, 2002. [14] Nguyê n Thanh Thu y, Tru. o. ng Minh Nhật Quang, Các co. chê châ n doán virus tin học thông minh du..a trên tri thú. c, Tạp chí Tin học và iều khiê n 14 (2) (1998) 45 52. [15] Nguyen Thanh Thuy, Truong Minh Nhat Quang, A global solution to anti-virus systems, The Proceedings of the 1 st International Conference on Advanced Communication Technology, Muju-Korea, 10-12 February 1999 (374 377). [16] Nguyê n Thanh Thu y, Tru. o. ng Minh Nhật Quang, Máy a o, công cụ hô tro.. châ n doán và diệt virus tin học thông minh, Tạp chí Tin học và iều khiê n 16 (2) (2000) 37 40. [17] M. Pietrek, Windows 95 System Programming Secrets, IDG Books, 1995. [18] Truong Minh Nhat Quang, Hoang Van Kiem, Nguyen Thanh Thuy, Association model of knowledge base and database in machine learning anti-virus system, The Proceedings of the WMSCI 2006 Conference, Florida-USA, July 2006 (277 282). [19] Truong Minh Nhat Quang, Hoang Trong Nghia, A multi-agent mechanism in machine learning approach to anti-virus system, The 2 nd Symposium on Agents and Multi-Agent Systems, KES-AMSTA 08, Korea. Springer LNAI, Vol. 4953, (743 752). [20] Ian Waller, Controled worm replication - Internet-In-A-Box, Virus Bulletin Conference, Oxfordshire, England, 2000. [21] Tru. o. ng Minh Nhật Quang, Hoàng Kiê m, Nguyê n Thanh Thu y, Ú. ng dụng Máy học và Hệ chuyên gia trong phân loại và nhận dạng virus máy tính, Tạp chí Công nghệ Thông tin và Truyền thông (19) (2-2008) 93 101. [22] J. A. Black, N. Ranjan, Automated event extraction from email, Final Report of CS224N/ Ling237 Course in Stanford (http://nlp.stanford.edu/courses/cs224n/2004). Nhận bài ngày 15-10 - 2007 Nhận lại sau su. a ngày 14-1 -2008