Xử lý ngôn ngữ tự nhiên và các hướng nghiên cứu của Google

18-11-2015 06:49 Xem: 1297 lần
Xử lý ngôn ngữ tự nhiên và các hướng nghiên cứu của Google_thumbnail

Xử lý ngôn ngữ tự nhiên (NLP – Natural Language Processing) là một chuyên ngành thuộc lĩnh vực khoa học máy tính, trí tuệ nhân tạo và ngôn ngữ tính toán, quan tâm tới những tương tác giữa người và máy. Lịch sử của ngôn ngữ tự nhiên bắt đầu từ những năm 1950, mặc dù các nghiên cứu có thể được tìm thấy sớm hơn thời điểm đó. Vào 1950, Alan Turing đã xuất bản cuốn "Computing Machinery and Intelligence" đề xuất một phương pháp gọi là Turing test và là cơ sở đầu tiên của trí tuệ nhân tạo. Xử lý ngôn ngữ tự nhiên xây dựng các ứng dụng mô hình tính toán đối với dữ liệu là văn bản hoặc giọng nói. Các lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiên bao gồm: dịch máy tự động giữa các ngôn ngữ (Machine Translation);  Hệ thống hỏi đáp (Question and Answering systems) - cho  phép con người tương tác với máy sử dụng ngôn ngữ tự nhiên; Trong kết quả của Narayanan và Harabagiu (2004), thông tin vai trò ngữ nghĩa được kết hợp cả trong các câu hỏi và văn bản. Ban đầu, thông tin này giúp xác định mô hình chủ đề, hỗ trợ cho quá trình giải thích câu hỏi, sau đó, sử dụng để xây dựng một mô hình mở rộng của các hành vi và sự kiện, mà cho phép lập luận phức tạp được đề xuất bởi hệ thống QA bên trong một ngữ cảnh phức tạp; Trích rút thông tin (Information Extraction) - Mục tiêu chính của bài toán trích rút thông tin (IE) là cung cấp những mẩu thông tin nổi bật quan trọng đối với nhu cầu của người dùng. Các loại thông tin được trích rút, rất đa dạng về chi tiết và độ tin cậy. Ví dụ: nhận dạng thực thể (NER), các thực thể có liên quan tới việc xác định các thuộc tính và sự kiện, và việc xác định chỉ mục mức sự kiện là toàn bộ những bài toán con của bài toán trích rút thông tin. 

Các công nghệ xử lý ngôn ngữ tự nhiên đang có những ảnh hưởng to lớn tới cách thức con người tương tác với các máy tính, trong quá trình con người tương tác với nhau thông qua việc sử dụng ngôn ngữ, và trong quá trình con người truy cập  tới một lượng dữ liệu ngôn ngữ khổng lồ ngày nay dưới dạng điện tử. Từ quan điểm khoa học, NLP chứa đựng những câu hỏi như: làm thế nào để cấu trúc các mô hình chính quy như mô hình thống kê thông qua các hiện tượng ngôn ngữ tự nhiên, và làm thế nào để thiết kế các thuật toán suy ra được các mô hình này? Hầu hết các ứng dụng NLP đều yêu cầu phân tích cú pháp và phân tích ngữ nghĩa ở mức độ khác nhau. Trước đây, việc nghiên cứu NLP tập trung vào việc phát triển các thuật toán mà vừa hướng tới các ngôn ngữ cụ thể, chỉ thực thi tốt trên một miền văn bản nhất định. Google đã nghiên cứu việc giải quyết vấn đề này ở cấp độ đa ngôn ngữ và quy mô web bằng cách tận dụng một lượng dữ liệu lớn chưa được gán nhãn trên web. 

Ở mức độ phân tích cú pháp, Google phát triển các thuật toán để tiên đoán từ loại cho mỗi từ (danh từ, động từ, tính từ) trong một câu cho trước và đồng thời tiên đoán các mối quan hệ giữa chúng (ví dụ: chủ ngữ, tân ngữ, và các từ chỉ định khác). Trước đây, các hệ thống phân tích cú pháp được phát triển chính cho tiếng Anh, không có tính mở và không đáp ứng tốt với sự thay đổi mạnh mẽ trong từ vựng. Do đó, mục tiêu của Google là phát triển các thuật toán phân tích cú pháp trong thời gian tuyến tính đa ngôn ngữ mà có  đáp ứng tốt đối với những thay đổi lớn về từ vựng. Hướng tới mục đích này, Google nghiên cứu phát triển các thuật toán mà tận dụng được lượng lớn các dữ liệu web chưa được gán nhãn và kể cả có thể được huấn luyện để tối đa hóa hiệu năng cụ thể của ứng dụng. Hơn nữa, tập đoàn này cũng đang thúc đẩy việc phân tích cú pháp đa ngôn ngữ mới nhất bằng các xây dựng các kỹ thuật mô hình hóa mạnh để chuyển tri thức từ nguồn ngôn ngữ phong phú như Tiếng Anh sang các ngôn ngữ thiểu số khác.

Về mặt ngữ nghĩa, Google nghiên cứu những bài toán như trích rút cụm danh từ (ví dụ như xác định được Barack Obama, CEO trong một văn bản tự do), gán nhãn cho những cụm danh từ này những nhãn như: người, tổ chức, vị trí, hoặc danh từ chung, phân cụm các cụm danh từ mà đề cập đến cùng một thực thể cả trong và một văn bản và trong nhiều văn bản, giải quyết các đề cập về các thực thể trong một văn bản tự do trong một cơ sở tri thức, quan hệ giữa các thực thể và trích rút tri thức. Trong khi hầu hết các thuật toán NLP hiện đại cố gắng giải quyết những vấn đề này đối với dữ liệu trên một miền đóng thì Google giải quyết chúng ở quy mô web. Quy mô và bản chất của dữ liệu trên web (một trang web có thể từ một mạng tin, blog hoặc trang cá nhân) đòi hỏi họ thiết kế các thuật toán hiệu quả, thực thi tốt trên các văn bản từ các lĩnh vực khác nhau và có thể dễ dàng được phân tán dễ dàng.

Nghiên cứu về NLP, bạn sẽ được tìm hiểu các mô hình toán học, các mô hình tính toán ngôn ngữ, và ứng dụng của những mô hình này đối với các bài toán then chốt trong NLP. Các phương pháp học máy và các mô hình toán học được sử dụng rộng rãi trong các hệ thống NLP hiện đại: mô hình Markov ẩn, mô hình tuyến tính, mô hình thống kê cho dịch máy, mô hình mạng nơ ron… Hiện nay, ở Bộ môn Tin học, Khoa Toán - Tin, trường Đại học Khoa học đang hình thành một nhóm nghiên cứu theo hướng Xử lý ngôn ngữ tự nhiên, tiêu biểu như ThS. Phạm Thị Minh Thu - Trưởng Bộ môn Tin học, ThS. NCS. Vũ Hải Hiệu, ThS. Hoàng Thị Hà, … Hy vọng trong tương lai, Khoa Toán - Tin sẽ có thêm nhiều hơn nữa các bạn sinh viên trẻ quan tâm tới NLP, cùng đóng góp những nghiên cứu có ý nghĩa trong lĩnh vực này.

Nguồn:

1. Wikipedia.

2. http://research.google.com/pubs/NaturalLanguageProcessing.html

 

Hoàng Hà - Khoa Toán - Tin