Về quan hệ giữa toán học và tin học

Similar documents
log23 (log 3)/(log 2) (ln 3)/(ln2) Attenuation = 10.log C = 2.B.log2M SNR db = 10.log10(SNR) = 10.log10 (db) C = B.log2(1+SNR) = B.

Bài 3: Mô phỏng Monte Carlo. Under construction.

CHƯƠNG TRÌNH DỊCH BÀI 14: THUẬT TOÁN PHÂN TÍCH EARLEY

PHÂN TÍCH DỮ LIỆU BẰNG PHẦN MỀM SPSS 12.0 * PHẦN 4

BÁO CÁO THỰC HÀNH KINH TẾ LƯỢNG

5 Dùng R cho các phép tính đơn giản và ma trận

Why does the motion of the Pioneer Satellite differ from theory?

Đánh giá: ❶ Bài tập (Quiz, In-Class) : 20% - Quiz (15-30 phút): chiếm 80%; 5 bài chọn 4 max TB - In-Class : chiếm 20% ; gọi lên bảng TB

Các Phương Pháp Phân Tích Định Lượng

Chapter#2 Tính chất của vật chất (Properties of Substances)

VÔ TUYẾN ĐIỆN ĐẠI CƯƠNG. TS. Ngô Văn Thanh Viện Vật Lý

Ngô Nh Khoa và cs T p chí KHOA H C & CÔNG NGH 58(10): 35-40

TỐI ƯU HÓA ĐA MỤC TIÊU ỨNG DỤNG XÁC LẬP CHẾ ĐỘ CÔNG NGHỆ SẤY THĂNG HOA (STH) TÔM THẺ

15 tháng 06 năm 2014.

KHÁI niệm chữ ký số mù lần đầu được đề xuất bởi D. Chaum [1] vào năm 1983, đây là

GIÁO TRÌNH Mô phỏng và mô hình hóa (Bản nháp) Trịnh Xuân Hoàng Viện Vật lý, Viện Hàn lâm KHCN VN Hà Nội 2015

sao cho a n 0 và lr(a n ) = Ra n X a n với X a n R R. Trong bài báo này, chúng Z r (R) (t.ư., Z l (R)).

PH NG PH P D¹Y HäC TÝCH CùC TRONG GI O DôC MÇM NON

Năm 2015 O A O OB O MA MB = NA

TÓM TẮT ĐỀ TÀI NGHIÊN CỨU

PHÂN TÍCH T & CÂN BẰNG B

HƯỚNG DẪN SỬ DỤNG PHẦN MỀM DIỆT VIRUS AVIRA

Mã khối không thời gian trực giao và điều chế lưới

DỰ BÁO TƯỚNG THẠCH HỌC VÀ MÔI TRƯỜNG TRẦM TÍCH CHO ĐÁ CHỨA CARBONATE PHÍA NAM BỂ SÔNG HỒNG, VIỆT NAM

NGHIÊN CỨU TIÊU CHUẨN VÀ PHƯƠNG PHÁP TỐI ƯU CÔNG SUẤT PHÁT CỦA HỆ THỐNG ĐIỆN MẶT TRỜI NỐI LƯỚI: XÉT CHO TRƯỜNG HỢP LƯỚI ĐIỆN HẠ THẾ 1 PHA

Đầu Nối Cáp T 630A 93-EE9X5-4-Exp-A-3/C Series Đầu Nối T : 24 kv 125 kv BIL Đáp ứng các tiêu chuẩn : IEC 502-4, VDE 0278 Hướng Dẫn Sử Dụng

SỞ GD & ĐT BẮC NINH ĐÊ TẬP HUẤN THI THPT QUỐC GIA NĂM Đề bài y x m 2 x 4. C. m 2. có bảng biến thiên như hình dưới đây:

TÍNH TOÁN ĐỊNH HƯỚNG CHẾ TẠO CẤU TRÚC UVLED CHO BƯỚC SÓNG PHÁT XẠ 330nm

KHI X L T SÔNG H NG VÀO SÔNG ÁY

hoctoancapba.com Kho đ ề thi THPT quốc gia, đ ề kiểm tra có đáp án, tài liệu ôn thi đại học môn toán

NGUYỄN THỊ VIỆT HƢƠNG


NGUỒN THÔNG TIN MIỄN PHÍ TRÊN INTERNET : ĐÁNH GIÁ VÀ SỬ DỤNG DƯƠNG THÚY HƯƠNG Phòng Tham khảo Thư viện ĐH Khoa học Tự nhiên TP.

Mục tiêu. Hiểu được. Tại sao cần phải định thời Các tiêu chí định thời Một số giải thuật định thời

Google Apps Premier Edition

Nguồn điện một chiều E mắc trong mạch làm cho diode phân cực thuận. Gọi I D là dòng điện thuận chạy qua diode và V D là hiệu thế 2 đầu diode, ta có:

CƠ SỞ VẬT LÝ HẠT NHÂN

PHÂN TÍCH PHÂN BỐ NHIỆT HYDRAT VÀ ỨNG SUẤT TRONG CẤU TRÚC BÊ TÔNG ĐỂ KIỂM SOÁT SỰ GÂY NỨT CỦA CÔNG TRÌNH BÊ TÔNG CỐT THÉP

Hà Nội, ngày 22 tháng 1 năm 2012 (ngày Tất niên năm Nhâm Thìn) Đại diện nhóm biên soạn Chủ biên Hoàng Minh Quân Phan Đức Minh

Nhiễu và tương thích trường điện từ

LÝ LỊCH KHOA HỌC. CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI. 1. Họ và tên: Vũ Đặng Hoàng

THÔNG TIN LUẬN ÁN TIẾN SĨ

BẢNG GIÁ THIẾT BỊ SELEC

MÔN KINH TẾ LƯỢNG (Econometric)

NHẬP MÔN HIỆN ĐẠI XÁC SUẤT & THỐNG KÊ

- Cài đặt hệ số CT: 1/5-999 KA. - Nguồn cấp: AC: 240V AC ±20%, (50 / 60Hz) - 110V AC ±20%, (50 / 60Hz) - Mạng kết nối: 1 pha 2 dây hoặc 3 pha 3/4 dây

SỬ DỤNG PHƯƠNG PHÁP ĐO SÂU ĐIỆN XÁC ĐỊNH CẤU TRÚC ĐỊA CHẤT VÀ QUY MÔ PHÂN BỐ CỦA THAN TRONG TRẦM TÍCH ĐỆ TAM VÙNG TRŨNG AN NHƠN - BÌNH ĐỊNH

Luâ t Chăm So c Sư c Kho e Mơ i va Medicare

Nguyễn Thị Huyền Trang*, Lê Thị Thủy Tiên Trường Đại học bách khoa, ĐHQG tp Hồ Chí Minh,

cách kết hợp thuật toán Fuzzy C-Means (FCM) với giải thuật di truyền (GA). Sau đó, HaT2-FLS

NG S VIÊN TRONG CH M SÓC

Trí Tuệ Nhân Tạo. Nguyễn Nhật Quang. Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội

KH O SÁT D L NG THU C TR SÂU LÂN H U C TRONG M T S CH PH M TRÀ ACTISÔ

Trao đổi trực tuyến tại: l

Phạm Phú Anh Huy Khoa Xây dựng, Đặng Hồng Long- Khoa Xây dựng,

1. chapter G4 BA O CA O PHA T TRIÊ N BÊ N VƯ NG

HÀM BĂM HASH FUNCTIONS. Giáo viên: Phạm Nguyên Khang

Th vi n Trung Tâm HQG-HCM s u t m

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN HÀ MY

ĐƠN KHIÊ U NA I/THAN PHIỀN CU A HÔ I VIÊN. Đi a chi Tha nh phô Tiê u bang Ma zip

ĐỀ CƯƠNG CHI TIẾT BÀI GIẢNG (Dùng cho tiết giảng) Học phần: CHƯƠNG TRÌNH DỊCH Nhóm môn học:... Bộ môn: Khoa học máy tính Khoa (Viện): CNTT

VnDoc - Tải tài liệu, văn bản pháp luật, biểu mẫu miễn phí Tóm tắt Ngữ pháp tiếng Anh lớp 6 (Cả năm)

Vinh, May Ta đang sống trong một thời sôi động nhất: Máy tính và mạng máy tính (internet)

BỒI DƯỠNG HỌC SINH GIỎI

THÔNG TIN VỀ LUẬN ÁN TIẾN SĨ

(Analytical Chemistry)

TẠO PAN ĐỘNG CƠ Ô TÔ ĐIỀU KHIỂN BẰNG MÁY TÍNH

Phâ n thông tin ba o ha nh cu a ASUS

On Approximating Solution of Boundary Value Problems

Integrated Algebra. Glossary. High School Level. English / Vietnamese

LỜI NGỎ CHO EPSILON SỐ 6

NGHIÊN CỨU CHẾ TẠO MÀNG MỎNG SẮT ĐIỆN - ÁP ĐIỆN PZT BẰNG PHƯƠNG PHÁP SOL - GEL ĐỊNH HƯỚNG ỨNG DỤNG TRONG CẢM BIẾN SINH HỌC

HỌC PHẦN: CHƯƠNG TRÌNH DỊCH Bộ môn: Khoa học máy tính

VÀI NÉT VỀ ĐỊA CHẤT - ĐỊA MẠO BÁN ĐẢO BARTON VÀ WEIVER, ĐẢO KING GEORGE, NAM CỰC

Mã số: Khóa:

Phiên bản thử nghiệm Lưu hành nội bộ - Microsoft Vietnam

BÀI TOÁN CỰC TRỊ VỀ HÌNH HỌC TRONG MẶT PHẲNG

Bộ môn Điều Khiển Tự Động Khoa Điện Điện Tử. Homepage:

A M T J SỐ 1- THÁNG 5/2017 APPLIED MATHEMATICS AND TECHNOLOGY JOURNAL. No 01 - MAY, 2017

GIÁO H I PH T GIÁO VI T NAM TH NG NH T

NGHIÊN C U XU T XÂY D NG H H TR RA QUY T NH KHÔNG GIAN CHO THOÁT N C Ô TH B NG CÁC GI I PHÁP CÔNG TRÌNH

BÀI TIỂU LUẬN Môn học : Tính toán thiết kế Robot

ĐIỆN TỬ SỐ HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG BÀI GIẢNG MÔN

On Approximating Solution Of One Dimensional Boundary Value Problems With Dirichlet Conditions By Using Finite Element Methods

Thông tin mang tính a lý trên m t vùng lãnh th bao g m r t nhi u l p d li u khác nhau (thu c n v hành chánh nào, trên lo i t nào, hi n tr ng s d ng

ĐH BÁCH KHOA TP.HCM. Bài giảng: NĂNG LƯỢNG TÁI TẠO. Giảng viên: ThS. Trần Công Binh

Lu t t tụng qu c tế và thủ tục t tụng qu c tế

QUY LUẬT PHÂN BỐ, TIỀN ĐỀ VÀ DẤU HIỆU TÌM KIẾM QUẶNG HÓA VERMICULIT Ở ĐỚI SÔNG HỒNG VÀ ĐỚI PHAN SI PAN

TỰ NHIÊN VÀ MÔI TRƯỜNG 2 (EV3019) ID:

CHƯƠNG 6: SỬ DỤNG WINFORM

FINITE DIFFERENCE METHOD AND THE LAME'S EQUATION IN HEREDITARY SOLID MECHANICS.

Hình 8.1. Thiết bị Spektralapparat thiết kế bởi Kirchhoff và Bunsen (1833)

À N. á trong giáo d. Mã s HÀ N NGHIÊN C ÊN NGÀNH TÓM T

NH NGH A C C THU T NG 4 PH N I NHI M HUẨN ỆNH VIỆN V VỆ SINH TAY 6 PH N II TH C H NH HU N UYỆN V GI M S T VỆ SINH TAY 9

CH NG IV TH C HI N PH NG PHÁP T NG H P CHO QUY HO CH S D NG B N V NG NGU N TÀI NGUYÊN T AI

TẠP CHÍ KHOA HỌC, Đại học Huế, Số 48, 2008 TỔNG HỢP VÀ THỬ HOẠT TÍNH KHÁNG KHUẨN KHÁNG NẤM CỦA MỘT SỐ DẪN XUẤT AMIT VÒNG THƠM VÀ AMIT DN VÒNG TÓM TẮT

Xuân Hòa, ngày 29 tháng 9, 2018

VÕ THỊ THANH CHÂU. NGHIÊN CỨU TỔNG HỢP VÀ KHẢO SÁT TÍNH CHẤT HẤP PHỤ, HOẠT TÍNH XÚC TÁC QUANG CỦA VẬT LIỆU MIL-101(Cr)

PHÂN LẬP CÁC CHỦNG BACILLUS CÓ HOẠT TÍNH TẠO MÀNG SINH VẬT (BIOFILM) VÀ TÁC DỤNG KHÁNG KHUẨN CỦA CHÚNG

Transcription:

Về quan hệ giữa toán học và tin học Hồ Tú Bảo Viện Công nghệ Thông tin, Viện KH & CN Việt Nam Japan Advanced Institute of Science and Technology 1

Toán học và tin học Vài lĩnh vực tiêu biểu của toán học trong tin học Toán học trong xử lý ngôn ngữ tự nhiên Toán học và Web Toán học trong sinh học Toán học trong học máy (machine learning) 2

Đại thể về tin học (khoa học máy tính) Phần mềm ứng dụng An toàn thông tin Tin sinh học Nhận dạng Trí tuệ nhân tạo software 3 hardware Phần mềm hệ thống Cray Y-MP8E Supercomputer s, mainframes Minicomputers, workstations PC computers DOS, Windows, Mac OS, UNIX, Linux Pascal, C, C++, Java, Cơ sở dữ liệu Mạng máy tính Máy tính song song LAN, WAN, Internet Thuật toán Kỹ nghệ phần mềm Toán học cho tin học Truyền thông

Hai con đường của toán trong tin học Các lý thuyết, mô hình toán học làm cơ sở cho sự phát triển tin học. Để giải quyết các vấn đề của tin học và ứng dụng tin học, tìm và dùng các lý thuyết và công cụ toán học. 4

Toán học rời rạc đối với tin học 5 Logic (lập luận tự động, AI, hệ thông minh) Set theory (tập mờ, tập thô, tính toán với thông tin không đủ, không chính xác, ) Number theory (bảo mật thông tin) Combinatorics (hình học tổ hợp, ) Graph theory (mạng, sinh học, vật lý, ) Digital geometry and digital topology (phân tích ảnh, etc.) Algorithmics (phương pháp tính toán) Computability (giới hạn lý thuyết và thực tế của thuật toán) Probability and Markov chains (xử lý tiếng nói, sinh học, ) Linear algebra (phân tích dữ liệu,...) Probability (ngẫu nhiên) Proofs (kỹ nghệ phần mềm, AI) etc.

Một số lĩnh vực toán học khác Thống kê và phân tích dữ liệu (statistics, data analysis) Lý thuyết tối ưu (Optimization) 6

Logic trong tin học = + Knowledge (đại số, thống kê, toán học rời rạc,...) Inference (logic toán học, ) Logic mệnh đề, logic tân từ, logic không chuẩn (modal, temporal, non-monotonic, fuzzy, high order,... logic) Thí dụ: Máy tự động dùng tam đoạn luận (syllosism) 7 Elephants are bigger than dogs Dogs are bigger than mice Therefore Elephants are bigger than mice

Lý thuyết tập hợp (tập mờ, tập thô) Tập mờ (Zadeh 1965), tập thô (Pawlak, 1982) Rough fuzzy hybridization? Rough sets + Fuzzy sets? X Xấp xỉ dưới X * : Hợp của các lớp tương đương nằm trọn trong X Xấp xỉ trên X * : Hợp của các lớp tương đương có giao khác rỗng với X U = {,,,,, } R = { color, shape} Eq. class / color = {{,,,} {, }} Eq. class / shape = { } {, } { }} Eq. class = {,,, { } { } { } { }},,,, X ={, }, X }, X * = {,, } * = { 8

23 bài toán của thế kỷ 20 Tại Đại hội Toán học Thế giới lần thứ hai (Paris, tháng Năm 1900), Hilbert nêu ra 23 bài toán, thách thức các nhà toán học toàn thế giới giải trong thế kỷ 20. 12 bài toán đã được giải toàn bộ, 8 bài toán được giải từng phần, 3 bài vẫn chưa có lời giải. 9

7 bài toán của thế kỷ 21 4 giờ chiều Thứ tư ngày 24 tháng 5 năm 2000, Viện Toán học Clay công bố và thách thức 7 bài toán của thế kỷ 21 (1 triệu $ cho mỗi lời giải). Bài toán số 1: P versus NP Sáu bài toán khác: 1. The Hodge Conjecture 2. The Poincaré Conjecture (solved 2006) 3. The Riemann Hypothesis 4. Yang-Mills Existence and Mass Gap 5. Navier-Stokes Existence and Smoothness 6. The Birch and Swinnerton-Dyer Conjecture. 10

Bài toán P versus NP Nếu ai đó hỏi rằng liệu 13.717.421 có là tích của hai số nhỏ hơn không, bạn sẽ cảm thấy rất khó trả lời là đúng hay sai. Nếu người đó bảo bạn rằng số này có thể là tích của 3607 và 3803, bạn có thể kiểm tra điều này thật dễ dàng. Xác định xem với một bài toán cho trước, liệu có tồn tại một lời giải có thể kiểm chứng nhanh (bằng máy tính chẳng hạn), nhưng lại cần rất nhiều thời gian để giải từ đầu (nếu không biết lời giải)? Có rất nhiều bài toán như vậy. Chưa ai có thể chứng minh được rằng, với bất kỳ bài toán nào như vậy, thực sự cần rất nhiều thời gian để giải. Có thể chỉ đơn giản là chúng ta vẫn chưa tìm ra được cách giải chúng nhanh chóng. Stephen Cook phát biểu bài toán P versus NP vào năm 1971. 11

Bài toán P versus NP Bài toán SAT: cho trước một mạch điện tử Boolean, liệu có các cách chọn inputs sao cho output là True hay không? Inputs của các mạch điện tử Boolean (với cổng AND, OR và NOT) hoặc là T (true) hoặc là F (false). Mỗi cổng nhận một số các inputs, và outputs giá trị logic tổng hợp được. Tôi không tìm nổi cho chef một thuật toán hiệu quả. Đầu óc tôi dạo này có vẻ âm u quá. Hãy tìm ngay cho tôi một thuật toán hiệu quả để giải SAT. 12

Bài toán P versus NP Tôi không thể tìm được một thuật toán hiệu quả bởi vì không thể có một thuật toán nào như vậy. Tôi không thể tìm được một thuật toán hiệu quả bởi vì tất cả những người nổi tiếng này cũng không tìm được nó. nếu bạn chứng minh được SAT là intractable (chứng minh intractability có thể khó như việc tìm lời giải hiệu quả) nếu bạn biết SAT là NP-complete 13

Độ phức tạp tính toán Sự tồn tại các bài toán giải được nhưng vô cùng khó giải Độ phức tạp tính toán: P (thời gian đa thức) và non-p (thời gian hàm mũ). Bài toán kiểu P có thể giải dễ dàng (sắp xếp dãy số theo thứ tự), bài toán kiểu non-p rất khó giải (tìm các thừa số nguyên tố của một số nguyên cho trước). Người ta tin rằng có rất nhiều bài toán thuộc kiểu non-p, nhưng chưa bao giờ chứng minh được chính chúng là như vậy (hết sức khó). NP (Nondeterministic Polynomial) là một họ đặc biệt các bài toán kiểu non-p: nếu bất kỳ trong chúng có nghiệm thời gian đa thức thì tất cả sẽ có nghiệm thời gian đa thức. P = NP? Các bài toán kiểu P và NP là như nhau? 14

Thời gian đa thức và hàm mũ Time complexity function n = 10 n = 20 n = 30 n = 40 n = 50 n = 60 n 0.0001 second 0.0002 second 0.0003 second 0.0004 second 0.0005 second 0.0006 second n 2 0.001 second 0.002 second 0.003 second 0.004 second 0.005 second 0.006 second n 3 0.01 second 0.02 second 0.03 second 0.04 second 0.05 second 0.06 second n 5 1 second 3.2 second 24.3 second 1.7 minutes 5.2 minutes 13.0 minutes 2 n 0.01 second 1.0 second 17.9 second 12.7 days 35.7 years 336 centuries 3 n 0.059 second 58 minutes 6.5 years 3855 centuries 2x10 8 centuries 1.3x10 13 centuries 15

Scalable algorithms Điều gì xảy ra khi dữ liệu lớn, N>10 6? Cần thuật toán heuristic nhanh, gần đúng Fast CMB analysis by Szapudi et al (2001) O(NlogN) cần 1 ngày O(N 3 ) cần 10 triệu năm Chú trọng đến giá của tính toán Cần luôn điều khiển được độ chính xác Đạt kết quả tốt nhất trong thời gian và tài nguyên cho phép Dùng máy tính song song Polynomial time algorithms do not always work! 16

Mật mã và an toàn thông tin Là nghiên cứu về bí mật của truyền tin (truyền tin trong điều kiện có kẻ địch). An toàn mạng và máy tính: quản lý sự truy nhập máy tính và tin cậy của thông tin, và các ứng dụng như: ATM cards, computer passwords, e-commerce,... 17 Germany Lorenz cipher machine

Mật mã và an toàn thông tin Tạo mã (encryption: plaintext ciphertext) và giải mã (decryption) Khái niệm: mật mã (cipher: letter, bit), mã (code: word or phrase meaning), khóa (key). Rất nhiều kỹ thuật: Symmetric-key cryptography (cùng một key cho nhận/gửi) Public-key cryptography 1976 (public/private key) dựa trên number theory (integer factorization) Cryptanalysis (tìm điểm yếu, không an toàn trong một hệ dùng mật mã) Cryptographic primitives Cryptographic protocols 18 (Khóa là một đoạn tin (piece of information) kiểm soát hoạt động của một thuật toán tạo mật mã, chữ ký điện tử, định quyền hạn (encryption, digital signature, authentication)).

19 Public-key cryptography integer factorization là quá trình phân tích một chữ số đa hợp thành tích của các ước số nhỏ hơn sao cho khi nhân các ước số này ta được số ban đầu. BSI team: Nov. 2005, RSA-640 (193 decimal digits, 640 bits) on 80 AMD Opteron CPUs computer. Khó nhất trong các bài toán này là trường hợp ước số là các số nguyên tố được chọn ngẫu nhiên với cùng độ lớn. Vẫn chưa có thuật toán thời gian đa thức để phân tích một số lớn b-bit thành tích của hai số nguyên tố có cùng kích thước. Một trong các bài toán lớn chưa giải được trong KHMT và lý thuyết số là việc tìm một thuật toán để nhân tử hóa các số trong thời gian đa thức.

Finite state machines Máy hữu hạn trạng thái 20 Là mô hình của các hành vi tạo nên bởi một số hữu hạn các trạng thái (states), các chuyển đổi trạng thái (transitions), và các hành động. Mô hình toán học: (Σ,S,s0,δ,F), Việc thực hiện một phần cứng máy tính đòi hỏi một công-tơ (register) để chứa các biến trạng thái, một khối (block) mạch logic xác định sự chuyển trạng thái, và một khối thứ hai các mạch logic xác định output của một FSM.

Machine learning and data mining Học máy và Khai phá dữ liệu Machine learning Xây các hệ máy tính có thể học như con người (một số khả năng). ICML since 1982 ECML since 1989 ECML/PKDD since 2001 Data mining Tìm tri thức mới và hữu ích từ những cơ sở dữ liệu lớn. ACM KDD since 1995, PKDD and PAKDD since 1997, IEEE ICDM and SIAM DM since 2000, etc. 21

Machine learning and data mining Học máy và Khai phá dữ liệu Machine learning Xây các hệ máy tính có thể học như con người (một số khả năng). ICML since 1982 ECML since 1989 ECML/PKDD since 2001 Data mining Tìm tri thức mới và hữu íchtừ những cơ sở dữ liệu lớn. ACM KDD since 1995, PKDD and PAKDD since 1997, IEEE ICDM and SIAM DM since 2000, etc. 1997: Deep Blue beats Kasparov (12.2006: Deep Fritz beets Kramnik) 1997: Robot cup 2005: DARPA Grand Challenge 22

Complexly structured data Rất nhiều dữ liệu được thu thập và tích lũy trong các cơ sở dữ liệu lớn (hàng triệu bản ghi, hàng nghìn thuộc tính). Rất nhiều dữ liệu là loại được cấu trúc phức tạp (không ở dạng vectơ). Thách thức: Tìm thuật toán khả cỡ để xử lý dữ liệu lớn và cấu trúc phức tạp? 23

Hai con đường của toán trong tin học Các lý thuyết, mô hình toán học làm cơ sở cho sự phát triển tin học. Để giải quyết các vấn đề của tin học và ứng dụng tin học, tìm và dùng các lý thuyết và công cụ toán học. 24

Toán học và tin học Vài lĩnh vực tiêu biểu của toán học trong tin học Toán học trong xử lý ngôn ngữ tự nhiên Toán học và Web Toán học trong sinh học Toán học trong học máy (machine learning) 25

Natural language processing (NLP) Lexical / Morphological Analysis Tagging (gán nhãn từ loại) Chunking (phân cụm từ) Syntactic Analysis Grammatical Relation Finding Named Entity Recognition text Shallow parsing The woman will give Mary a book POS tagging The/Det woman/nn will/md give/vb Mary/NNP a/det book/nn chunking 26 Word Sense Disambiguation Semantic Analysis Reference Resolution Discourse Analysis meaning [The/Det woman/nn] NP [will/md give/vb] VP [Mary/NNP] NP [a/det book/nn] NP subject relation finding [The woman] [will give] [Mary] [a book] i-object Ông già đi nhanh quá object

Xu thế trong NLP 1990s 2000s: Statistical learning algorithms, evaluation, corpora 1980s: Standard resources and tasks Penn Treebank, WordNet, MUC 1970s: Kernel (vector) spaces clustering, information retrieval (IR) 1960s: Representation Transformation Finite state machines (FSM) and Augmented transition networks (ATNs) 1960s: Representation beyond the word level lexical features, tree structures, networks Trainable parsers Trainable FSMs 27

Machine learning and statistics in NLP some ML/Stat no ML/Stat 28 (Marie Claire, ECML/PKDD 2005)

Trainable finite state machines S t-1 S t S t+1...... S t-1 S t S t+1............ 29 S t-1 S t S t+1......... O t-1 O t O t+1 Hidden Markov Models (HMMs) [Baum et al., 1970] - Generative - Need independence assumption -Local optimum - Local normalization...... O t-1 O t O t+1... Maximum Entropy Markov Models (MEMMs) [McCallum et al., 2000] - Discriminative - No independence assumption -Global optimum - Local normalization More accurate than HMMs O t-1 O t O t+1 Conditional Random Fields (CRFs) [Lafferty et al., 2001] - Discriminative - No independence assumption -Global optimum - Global normalization More accurate than MEMMs

Increasing computing power 1966 1.6 meters Training time (minute) 3500 3300 3100 2900 2700 2500 2300 2100 1900 1700 1500 1300 1100 900 700 500 300 100-100 1 2 5 10 20 30 40 50 60 70 80 90 30 Mb 30MB # of parallel processes 100 110 120 130 140 150 JAIST s CRAY XT3 Linux OS, 180 AMD Opteron 2.4GHz CPUs, 8Gb RAM/CPU, total: 1.44Tb RAM Second order of Conditional Random Fields (Text chunking): All phrase chunking, 17h46 on 90 processes vs.1348h 30

Toán học và tin học Vài lĩnh vực tiêu biểu của toán học trong tin học Toán học trong xử lý ngôn ngữ tự nhiên Toán học và Web Toán học trong sinh học Toán học trong học máy (machine learning) 31

Web link data Food Web [Martinez 91] Over 3 billion documents 32 Friendship Network [Moody 01]

Tìm kiếm trên Web Hai cách tiêu biểu (1998): 1. Page rank: tìm các trang Web quan trọng và liên quan nhất trên Web (như trong Google) Larry Page, Sergey Brin 2. Hubs and authorities: đánh giá chi tiết hơn tầm quan trọng của các trang Web. 33

PageRank: key idea Google thường đưa ra một số rất lớn các trang Web ( weather forecast 5.5 million pages). Các trang liên quan nhất thường nằm trong một, hai chục trang đầu. Làm sao search engine biết được các trang Web nào là quan trọng nhất? Google gắn cho mỗi trang Web một con số đặc trưng tầm quan trọng. Con số này được gọi là số PageRank và được tính như giá trị riêng (eigenvalue) của bài toán Pw = λw ở đây P được tính dựa trên link structure của Internet. Vấn đề cơ bản là làm sao thiết lập xác đáng được link structure của toàn bộ Web, i.e., ma trận P. 34

PageRank: key idea Mô hình cơ sở của thuật toán PageRank là random walk thực hiện trên toàn bộ các trang Web trên Internet. Ký hiệu p t (x) khả năng ta ở tại trang Web x ở thời điểm t. Số PageRank của x được các định như lim(p t (x)) khi t. Ma trận P có tính chất không rút gọn được (irreducible) và ngẫu nhiên (stochastic), nên random walk có thể biểu diễn qua chuỗi Markov, và PageRank của mọi trang có thể tính được qua các vectors riêng của P. 35

PageRank: Stochastic matrix Mỗi trang i tương ứng với dòng i và cột i của P Nếu trang j có n successors (links) và trang i là một trong số n succesors của j thì ô ij th của ma trận được là to 1/n, nếu không là 0. Assume the Web consists of only three pages A, B, and C. The links among these pages are shown as in the graph. A B C A B C A 1/2 1/2 0 B 1/2 0 1 C 0 1/2 0 36

The PageRank algorithm Ma trận Google P hiện có kích thước 4.2 10 9 và do đó việc tìm giá trị riêng là không tầm thường. w 0 = initial guess For k = 1 to 50 w k = P*w k-1 End Return w 50 Tìm xấp xỉ các véc tơ riêng của P (power method) Việc tính toán (matrix-vector multiplications) phải thực hiện trên các hệ máy tính song song lớn. 37

38 PageRank: Example Bắt đầu cho w1 = w2 = w3 = 1, và tính đệ quy phép nhân ma trận với các giá trị này a = 1 1 5/4 9/8 5/4 6/5 b = 1 3/2 1 11/8 17/16 6/5 c = 1 1/2 3/4 1/2 11/16... 3/5 w 0 = initial guess For k = 1 to 50 w k = P*w k-1 End Return w 50 = 3 2 1 2 1 2 1 2 1 2 1 3 2 1 0 0 1 0 0 w w w w w w

Finding things but not pages Information Extraction vs. Information Retrieval Information extraction: the process of extracting text segments of semi-structured or free text to fill data slots in a predefined template foodscience.com-job2 JobTitle: Ice Cream Guru Employer: foodscience.com JobCategory: Travel/Hospitality JobFunction: Food Services JobLocation: Upper Midwest Contact Phone: 800-488-2611 DateExtracted: January 8, 2004 Source: www.foodscience.com/jobs_midwest.html OtherCompanyJobs: foodscience.com-job1 39

Toán học và tin học Vài lĩnh vực tiêu biểu của toán học trong tin học Toán học trong xử lý ngôn ngữ tự nhiên Toán học và Web Toán học trong sinh học Toán học trong học máy (machine learning) 40

Problems in bioinformatics Metabolomics 1400 Chemicals Proteomics 10,000 Proteins Genomics 30,000 Genes 41

How biological data look like? Một mẩu 350 chữ cái của dãy DNA 1.6 triệu chữ (nhỏ hơn 4570 lần): TACATTAGTTATTACATTGAGAAACTTTATAATTAAAAAAGATTCATG TAAATTTCTTATTTGTTTATTTAGAGGTTTTAAATTTAATTTCTAAGGGT TTGCTGGTTTCATTGTTAGAATATTTAACTTAATCAAATTATTTGAATTT TTGAAAATTAGGATTAATTAGGTAAGTAAATAAAATTTCTCTAACAAATA AGTTAAATTTTTAAATTTAAGGAGATAAAAATACTACTCTGTTTTATTAT GGAAAGAAAGATTTAAATACTAAAGGGTTTATATATATGAAGTAGTTAC CCTTAGAAAAATATGGTATAGAAAGCTTAAATATTAAGAGTGATGAAGT ATATTATGT Nhiều loại dữ liệu khác 42

Đối sánh dãy (string matching) Input: Text T, Pattern P Question(s): (Approximate) String Matching P xuất hiện trong T? Tìm một xuất hiện của P trong T. Tìm mọi xuất hiện của P trong T. Tính số xuất hiện của P trong T. Tìm dãy con dài nhất của P trong T. Tìm dãy con gần nhất của P trong T. Xác định các lặp trực tiếp của P trong T. và nhiều biến dạng khác Applications: Liệu P đã có trong cơ sở dữ liệu T? Xác định vị trí của P trong T. Liệu có thể dùng P như một nguyên tố của T? P có tương đồng với gì đó trong T? P có bị hỏng bởi T? Liệu prefix(p) = suffix(t)? Xác định các lặp sau trước (tandem) của P trong T. 43

Pairwise Sequence Alignment Sắp dãy từng cặp Input Output Hai dãy chữ cái Một cách cho điểm Cách sắp thẳng dãy tối ưu Bài toán cơ bản nhất của tin sinh học Các dãy được sắp thẳng có dùng cấu trúc hoặc chức năng Cho nhiều gợi ý nếu cấu trúc và chức năng của một trong các dãy được sắp thẳng đã biết ATTGCGC ATTGCGC C ATTGCGC ATCCGC ATTGCGC AT-CCGC ATTGCGC ATC-CGC ATTGCGC ATCCG-C 44

Pairwise Sequence Alignment Sắp dãy từng cặp Phổ biến dùng HMM: Các cặp dãy được sắp do dùng các thuật toán vét cạn bởi quy hoạch động. Độ phức tạp của các phương pháp vét cạn là O(2 n m n ) n = số các dãy Sắp dãy bội xử dụng các phương pháp heuristic #Rat ATGGTGCACCTGACTGATGCTGAGAAGGCTGCTGT #Mouse ATGGTGCACCTGACTGATGCTGAGAAGGCTGCTGT #Rabbit ATGGTGCATCTGTCCAGT---GAGGAGAAGTCTGC #Human ATGGTGCACCTGACTCCT---GAGGAGAAGTCTGC #Oppossum ATGGTGCACTTGACTTTT---GAGGAGAAGAACTG #Chicken ATGGTGCACTGGACTGCT---GAGGAGAAGCAGCT #Frog ---ATGGGTTTGACAGCACATGATCGT---CAGCT 45

Đoán nhận gene Gene prediction Là bài toán quan trọng của tin sinh học và hiện có nhiều thuật toán cho đoán nhận gene dựa trên các gene đã biết như dữ liệu huấn luyện. Một kỹ thuật toán nhận gene phổ biến là Hidden Markov Models (HMMs). (given the genomic DNA sequence, can we tell where the genes are?) 46

Bài toán đoán nhận cấu trúc protein Có khoảng 15,000 cấu trúc protein trong các cơ sở dữ liệu công cộng, và trong số này rất nhiều cấu trúc giống nhau. Con người mới biết chừng 1,500 cấu trúc protein khác nhau. Dự đoán cấu trúc protein từ các dãy amino-acid là một trong các bài toán quan trọng nhất của tin sinh học, và con người còn đang cách lời giải rất xa. 47

Dự đoán tương tác proteins DNA Sequence Gene DNA RNA protein Sequence Structure Function Interaction Network Function 7000 Yeast interactions among 3000 proteins Protein Structure Function Hầu hết các quá trình sinh học đều liên quan đến tương tác nào đó của proteins. 48

Toán học trong tin sinh học Neural Networks Sequence Encoding and Output Interpretation Prediction of Protein Secondary Structure Prediction of Signal Peptides and Their Cleavage Sites Applications for DNA and RNA Nucleotide Sequences Hidden Markov Models Protein Applications DNA and RNA Applications Probabilistic Graph Models Probabilistic Models of Evolution Stochastic Grammars and Linguistics Kernel methods 49

Toán học và tin học Vài lĩnh vực tiêu biểu của toán học trong tin học Toán học trong xử lý ngôn ngữ tự nhiên Toán học và Web Toán học trong sinh học Toán học trong học máy (machine learning) 50

Kernel methods: a bit of history Minsky and Pappert (1969) chỉ ra hạn chế của perceptrons. Neural networks (từ giữa 1980s) vượt qua các hạn chế bằng cách gắn vào nhau nhiều đơn vị tuyến tính (multilayer neural networks). Gặp hạn chế của tốc độ và cực tiểu địa phương. Kernel methods (2000s) nối các hàm tuyến tính nhưng trong không gian feature với số chiều cao (high dimensional feature space.) 51

Kernel methods: the basic idea Biến đổi dữ liệu vào không gian nhiều chiều hơn có thể biến dữ liệu thành tách được tuyến tính. φ 2 3 : X = R H = R 2 ( x 1, x2) a ( x1, x2, x1 + x 2 2 ) 52

Kernel idea: biểu diễn dữ liệu X φ(s) = (atcgagtttcgt, acccgtgtggta, cgaaacgtact) S K = 1 0.5 0.3 0.5 1 0.6 0.3 0.6 1 53 X là tập các oligonucleotides, S gồm ba oligonucleoides. Thông thường, mỗi oligonucleotide được biểu diễn bởi một dãy các chữ cái. Trong kernel methods, S được biểu diễn như một ma trận của độ đo sự tương tự giữa từng cặp phần tử.

Kernel methods: the scheme Input space X x 1 x 2 x n-1 x n kernel function k: XxX R inverse map φ -1 φ(x) k(x i,x j ) = φ(x i ). φ(x j ) Kernel matrix K nxn = {k(x i,x j )} - Feature space F φ(x 1 )... φ(x 2 ) φ(x n ) φ(x n-1 ) kernel-based algorithm on K (SVM, KPCA, etc.) 54 Ánh xạ dữ liệu trong X vào một (high-dimensional) không gian vectơ, gọi là feature space F, bởi một hàm φ trên từng cặp phần tử x. Tìm các dạng tuyến tính (linear pattern) trong F với các thuật toán quan biết (tính tóan trên kernel matrix). Khi dùng ánh xạ ngược, các dạng tuyến tính trong F có thể tìm được các dạng tương ứng phức tạp trong X. Việc này được ngầm định thực hiện chỉ bởi nội tích (inner products) trong F (kernel trick) xác định bởi một hàm kernel

Kernel methods: math background Input space X x 1 x 2 x n-1 x n kernel function k: XxX R inverse map φ -1 φ(x) k(x i,x j ) = φ(x i ). φ(x j ) Kernel matrix K nxn = {k(x i,x j )} - Feature space F φ(x 1 )... φ(x 2 ) φ(x n ) φ(x n-1 ) kernel-based algorithm on K (SVM, KPCA, etc.) Linear algebra, probability/statistics, functional analysis, optimization Mercer theorem: Mọi hàm xác định dương đều có thể viết như nội tích trong một không gian feature nào đấy. 55 Kernel trick: Dùng ma trận kernel thay vì dùng nội tích trong không gian feature space. Representer theorem: Every minimizer of min{ C( f,{ x, y }) + Ω( f H a representation of the form f (.) = i i m i= 1 α K(., x ) i f H i ) admits

56 Support vector machines + + + = 0 ) ( 1 0 i, 2 1 min T 1 2,...,,, 1 b y C i i i i n i i b n w x w w ξ ξ ξ ξ ξ = = + = = = = = 1,..., for 0 0 2 1 ) ( n 1 i 1 T 1 1 n i C y y y W i i i n i i j i j i j n i n j i α α α α α x x α Soft margin problem Equivalent to dual problem Input space Feature space

Kết luận Có mối quan hệ sâu sắc, rộng lớn giữa toán học và tin học. Hầu hết các vấn đề của khoa học máy tính đều cần đến toán học hiện đại ở mức cao hoặc rất cao. 57