Machine learning trong Thiên văn học – mới nghe chắc sẽ cảm thấy trái ngược một cách nào đấy, nhưng nó thực sự có thật không nhỉ?

Machine learning là một trong những ngành khoa học mới, trong khi thiên văn học – là một trong những ngành khoa học cổ đại nhất. Thực ra, Thiên văn học đã phát triển hoàn toàn tự nhiên bởi loài người cổ đại đã nhận ra rằng nghiên cứu vẻ đẹp của các vì sao không chỉ thú vị, mà còn có thể giúp họ trong đời sống hằng ngày. Ví dụ, nghiên cứu chu kì của các vì sao trên bầu trời giúp tạo nên các bộ lịch (như lịch của người Maya và lịch Proto-Bulgarian). Hơn nữa, nó đóng một vai trò quan trọng trong định hướng và dẫn đường. Một phần quan trọng nữa, sự phát triển sớm của thiên văn học đã thúc đẩy một cách tích cực lên việc ứng dụng toán học, hình học và những kỹ thuật khoa học khác để phân tích dữ liệu đã quan sát được. Bắt đầu với người Ba-by-lon, đã đặt nền móng cho các hệ thống nguyên tắc trong thiên văn mà sau này đã được các nền văn minh khác tiếp thu và phát triển. Kể từ đó, phân tích dữ liệu (data analysis) đã đóng vai trò trung tâm trong Thiên văn học.

Do đó, sau hàng thiên niên kỷ tinh luyện những kỹ thuật phân tích dữ liệu, bạn có nghĩ rằng sẽ chẳng còn tập dữ liệu nào hiện tại có thể làm khó các nhà thiên văn học nữa chăng?

Thực ra thì điều đó không hoàn toàn đúng.  Vấn đề chính mà các nhà thiên văn học đang gặp phải bây giờ là…mặc dù hơi lạ…sự phát triển của công nghệ.

Á, cái chi?! Làm thế nào mà công nghệ lại là vấn đề chứ? Nó hoàn toàn có thể nha. Bởi vì ý của tôi là công nghệ tốt hơn thì tương đương với trường nhìn kính thiên văn rộng hơn (FOV) và độ phân giải cảm biến cao hơn. Những yếu tố đó kết hợp lại thể hiện một điều rằng những kính thiên văn ngày nay đã thu thập được một lượng lớn dữ liệu, nhiều hơn rất nhiều so với công nghệ trước đây. Và điều đó dẫn đến các nhà thiên văn học phải giải quyết đống dữ liệu nhiều hơn trước đây từng làm.

Dự án Sở thú Thiên hà (Galaxy Zoo Project) sinh ra như thế nào?

Vào năm 2007, nhà thiên văn học Kevin Schawinski đã mắc vào một tình huống tương tự như vậy.

Là một nhà vật lý thiên văn ở Đại học Oxford, một trong những nhiệm vụ của ông là phân loại 900,000 hình ảnh của các thiên hà được thu thập bởi trạm quan sát Sloan Digital Sky Survey trong một khoảng thời gian 7 năm. Ông phải nhìn vào TỪNG HÌNH MỘT và ghi chú lại thiên hà nào là thiên hà elip hay xoắn ốc và nó có đang quay hay không. Một công việc dường như chả đáng vào đâu. Tuy nhiên, với lượng dữ liệu khổng lồ như vậy thì công việc này trở nên không khả thi. Tại sao? Bởi vì, theo tính toán, một người phải làm việc liên tục 24/7 trong 3-5 năm để hoàn thành hết! Đó là câu chuyện của khối lượng công việc! Vì vậy, sau khi làm việc một tuần, Schawinski và đồng nghiệp của mình Chris Lintott đã thống nhất với nhau rằng phải có cách nào đó tốt hơn để thực hiện tác vụ nhàm chán lặp đi lặp lại này.

Đó là lý do mà Sở thú Thiên hà – một dự án khoa học cộng đồng – ra đời. Nếu bạn mới nghe đến nó lần đầu, dự án khoa học cộng đồng có nghĩa là công chúng sẽ đóng góp, tham gia vào các nghiên cứu khoa học chuyên nghiệp. Về cơ bản, ý tưởng của Schawinski và Lintott là phân phối hình ảnh đó qua mạng và tuyển những tình nguyện viên để giúp đỡ và đánh nhãn cho các thiên hà. Và điều đó lại khả thi vì công việc xác định các thiên hà xoắn ốc hay elip khá dễ dàng.

Mới đầu, họ mong rằng có khoảng 20,000 – 30,000 người tham gia đóng góp.

Tuy vậy, cực kì bất ngờ, có hơn 150,000 người tình nguyện giúp đỡ dự án và những hình ảnh đã được phân loại hoàn toàn chỉ trong 2 năm. Sở Thú Thiên hà là một dự án thành công và nhiều dự án sau đó cũng thực hiện tiếp bước như vậy, như là Sở thú Thiên hà Siêu tân tinh và Sở thú Thiên hà Hubble. Thực ra, có một vài dự án vẫn còn vận hành đến ngày nay.

Sử dụng hàng ngàn tình nguyện viên để phân tích dữ liệu dường như là một thành công, tuy nhiên nó cũng bộc lộ nhiều rắc rối cho chúng ta ngày nay. 150,000 người trong khoảng thời gian 2 năm cố gắng để chỉ phân loại (không thực hiện các phép phân tích phức tạp) dữ liệu từ chỉ 1 kính thiên văn! Và trong khi đó chúng ta lại đang xây dựng và chế tạo hàng trăm, thậm chí hàng nghìn kính thiên văn mạnh mẽ hơn. Do đó, trong chỉ vài năm của các tình nguyện viên sẽ không thể nào đủ để phân tích một lượng lớn dữ liệu mà chúng ta nhận được như vậy.

Để định lượng hơn, quy luật bất thành văn trong thiên văn học đó là mỗi năm lượng dữ liệu mà chúng ta thu được sẽ gấp đôi. Lấy ví dụ như, Kính thiên văn không gian Hubble đã hoạt động từ năm 1990 thu được lượng dữ liệu khoảng 20GB mỗi tuần. Và Kính thiên văn Khảo sát Khái quát Lớn (LSST), sẽ hoạt động vào đầu 2020, sẽ tạo ra một lượng dữ liệu kinh ngạc là 20 terabyte dữ liệu mỗi đêm.

Nhưng đó sẽ không là gì so với dự án tham vọng nhất trong thiên văn học – the Square Kilometre Array (SKA). SKA là một kính thiên văn đa quốc gia được xây bởi Úc và Nam Phi với thời điểm bắt đầu vận hành vào năm 2024. Với 2000 chảo vô tuyến và 2 triệu ăn ten tần số thấp, nó được dự đoán là sẽ tạo nên một lượng dữ liệu hơn 1 exabyte mỗi ngày. Đó là lượng dữ liệu hơn cả dữ liệu của toàn internet tạo ra trong cả một năm, được sinh ra chỉ trong một ngày!

Wow, bạn có thể tượng tưởng nổi không!?

Với điều đó, rõ ràng lượng dữ liệu kinh tởm này sẽ không thể phân tích được nhờ vào các tình nguyện viên online được rồi. Do đó, các nhà nghiên cứu đang tìm kiếm một loại trợ giúp khác – Máy Móc.

Sao mà ai cũng nói về Machine Learning?

Dữ liệu lớn, máy móc, kiến thức mới… bạn biết nơi mà chúng ta đang đến không?

Machine Learning, Học Máy.

Hóa ra, đến đây machine learning trong thiên văn học cũng cũng tồn tại cơ đấy. Tại sao nhỉ?

Trước tiên, machine learning có thể xử lý dữ liệu nhanh hơn nhiều so với các kỹ thuật khác. Nhưng nó còn có thể xử lý đống dữ liệu đó cho chúng ta mà không cần hướng dẫn cách để làm cơ. Điều này hóa ra lại rất quan trọng, vì machine learning có thể tóm lấy được những thứ mà chúng ta còn chưa biết làm sao để lấy được và nhận ra được những mô hình bất thường trong đó. Ví dụ, nó có thể phân biệt được các loại thiên hà khác nhau thậm chí trước cả chúng ta biết chúng có tồn tại.

Điều này giúp chúng ta biết được rằng thực ra machine learning cũng ít thiên vị hơn so với chúng ta, con người, và do đó kết quả phân tích cũng trở nên tin cậy hơn. Ví dụ như, chúng ta có thể nghĩ rằng thực ra có 3 loại thiên hà ở ngoài đó, nhưng với một cái máy, nó có thể phân loại các thiên hà một cách cực kì rõ ràng thành 5 loại khác nhau. Và điều đó chắc chắn sẽ giúp chúng ta mở rộng tầm nhìn khiêm tốn của mình về vũ trụ.

Dù cho những điều phía trên đã thật là tuyệt vời, sức mạnh thực sự của machine learning không bị giới hạn trong việc phân loại các thứ. Thực ra, nó có nhiều ứng dụng rộng hơn rất nhiều, có thể mở rộng đến các vấn đề mà chúng ta vẫn đóng dấu hỏi hiện tại.

Thấu kính hấp dẫn là gì?

Vào năm 2007, một nhóm nghiên cứu từ Đại học Stanford đã biểu diễn sự hiệu quả của thuật toán machine learning bằng cách sử dụng mạng neural để nghiên cứu về những hình ảnh thấu kính hấp dẫn mạnh.

Thấu kính hấp dẫn là một hiệu ứng xuất hiện ở những trường hấp dẫn mạnh bao quanh một vật thể khổng lồ (như đám thiên hà) có thể bẻ cong đường đi tia sáng và tạo nên hình ảnh bị nhiễu loạn. Đó là một trong những tiên đoán chính của Thuyết tương đối rộng của Einstein. Nó thật là xịn và ngầu đét, nhưng có thể bạn sẽ thắc mắc, tại sao nghiên cứu hiệu ứng này lại trở nên hữu ích?

Ừm, thứ mà bạn cần hiểu đó là vật chất thông thường không phải là nguồn gốc duy nhất của lực hấp dẫn. Những nhà khoa học đã đưa ra rằng có “một loại vật chất không nhìn thấy được”, cũng được biết đến với cái tên vật chất tối, cấu thành nên hầu hết vũ trụ này. Tuy nhiên, chúng ta không thể quan sát chúng một cách trực tiếp (như cái tên của của nó) và thấu kính hấp dẫn chính là thứ giúp chúng ta cảm nhận được sự ảnh hưởng và định lượng nó.

Trước đó, loại phân tích này sẽ cực kì tẻ nhạt vì nó bao gồm việc phải so sánh bức ảnh của thấu kính với một lượng lớn bức ảnh do máy tính mô phỏng nên dựa vào các phương trình mô hình thấu kính. Có thể khiến chúng ta tốn hàng tuần đến hàng tháng cho mỗi thấu kính một. Bây giờ có thể gọi đó là phương pháp không hiệu quả.

Nhưng với sự giúp đỡ của mạng neural, các nhà nghiên cứu đã có thể thực hiện phân tích tương tự chỉ trong có vài giây (và, về nguyên tắc, trên một con microchip trên điện thoại là đủ), cái mà họ thực hiện sử dụng hình ảnh thực tế đến từ Kính thiên văn Không gian Hubble của Nasa. Điều đó thật là ấn tượng!

Tổng kết lại, khả năng để duyệt qua một lượng lớn dữ liệu và thực hiện các phân tích phức tạp cực kì nhanh chóng bằng một cách hoàn toàn tự động, sẽ có thể làm biến đổi cả ngành vật lý thiên văn theo một cách cực kì cần thiết cho các sứ mệnh ngắm nhìn bầu trời sau này. Và những cỗ máy sẽ nhìn sâu vào vũ trụ hơn nữa và tạo nên càng nhiều thêm dữ liệu hơn.

Những ứng dụng hiện tại của machine learning?

Bây giờ chúng ta đã biết machine learning mạnh mẽ nhường nào, chắc chắn ta sẽ tự hỏi: Machine learning trong Thiên văn học đã được triển khai một cách hữu ích gần đây chưa? 

Câu trả lời là…tương đối. Sự thực là ứng dụng của machine learning trong thiên văn khá giống là những kỹ thuật còn trong “tiểu thuyết”. Mặc dù các nhà thiên văn học đã sử dụng các kỹ thuật tính toán khá là lâu rồi, như mô phỏng, để bổ trợ cho nghiên cứu, ML lại là một câu chuyện hoàn toàn khác.

Dù vậy, có một số ứng dụng thực sự của ML trong đời sống.

Bắt đầu với cái dễ nhất nhé. Hình ảnh thu được từ kính thiên văn thường chứa nhiều “noise”. Thứ mà chúng ta đang xét là noise ở các nhiễu động bất thường không liên quan đến quan sát. Ví dụ, gió và cấu trúc của bầu khí quyển có thể ảnh hưởng đến hình ảnh chụp được từ kính thiên văn trên mặt đất do ánh sáng phải truyền qua khí quyển. Đó là lý do chúng ta đã gửi một vài kính thiên văn lên không gian – để loại bỏ ảnh hưởng của khí quyển Trái Đất. Nhưng làm thế nào chúng ta có thể loại bỏ những noise được tạo nên bởi các yếu tố đó? Bằng thuật toán machine learning gọi là Mạng Nghịch cảnh Sáng tạo hay GAN.

Mạng GAN chứa hai yếu tố chính – một mạng neural sẽ thử sinh những vật thể và một mạng khác (một “kẻ phân biệt đối xử”) sẽ thử đoán xem vật thể đó là thật hay giả. Đây là một kỹ thuật cực kì phổ biến và thành công để khử noise, đã hoàn toàn thống trị ngành công nghiệp xe tự lái. Trong thiên văn học, có hình ảnh sạch nhất có thể rất quan trọng. Đó là lý do tại sao mà kỹ thuật này được ứng dụng rộng rãi trong ngành.

Một ví dụ khác của AI đến từ NASA.

Tuy nhiên, lần này nó là một ứng dụng không phải cho không gian. Tôi đang đề cập đến cháy rừng tự nhiên và phát hiện lụt. NASA đã đào tạo các cỗ máy để nhận diện những đám khói cháy rừng từ hình ảnh thu được của vệ tinh. Mục tiêu? Phóng hằng trăm vệ tinh nhỏ, tất cả đều nhúng thuật toán Machine learning vào cảm biến. Với khả năng như vậy, cảm biến sẽ có thể xác định cháy rừng và gửi tín hiệu về Trái Đất theo thời gian thực, giúp chữa cháy và những dịch vụ khác bằng cách cập nhật tình hình. Có thể làm tăng nhiều hiệu quả của nỗ lực chữa cháy.

Còn cái nào nữa không?

Có chứ – nghiên cứu của NASA về ứng dụng quan trọng nhất của machine learning trong việc hạ cánh các tàu vũ trụ. Một kỹ thuật để khám phá không gian chính là gửi những tàu vũ trụ đến hạ cánh trên các thiên thạch, thu thập vật chất và chuyển về Trái Đất. Hiện tại, để chọn được chỗ hạ cánh thích hợp, tàu vũ trụ sẽ phải chụp ảnh thiên thạch đó từ mọi góc nhìn và gửi về Trái Đất, sau đó các nhà khoa học phân tích hình ảnh thủ công và đưa cho tàu vũ trụ những chỉ dẫn cần thiết.

Quá trình kĩ lưỡng này không những phức tạp mà còn giới hạn vì một vài lý do. Trước tiên, nó yêu cầu phải có người làm. Thứ hai, bạn phải nhớ là những tàu vũ trụ này đang ở rất xa với chúng ta. Do đó, tín hiệu điều khiển phải mất hàng phút hay hàng giờ liền để đến được đó, điều đó làm chúng ta không thể đồng bộ với các tình huống bất ngờ. Đó là lý do mà NASA đã phải cố gắng cắt “dây rốn thông tin” và cho phép tàu vũ trụ tự nhận diện hình ảnh 3D của thiên thể và tự chọn vị trí hạ cánh. Và cách để làm chính là dùng mạng neural.

Có những khó khăn và giới hạn nào nằm ở phía sau đối với Machine learning trong Thiên văn học không?

Nếu machine learning là quá mạnh mẽ như vậy, tại sao chúng ta phải tốn rất nhiều thời gian để ứng dụng nó?

Ừm, một lý do chính là để huấn luyện một thuật toán machine learning bạn cần rất nhiều dữ liệu đã được đóng nhãn và đã xử lý. Cho đến gần đây, chỉ là không có đủ dữ liệu về một số sự kiện thiên văn học hiếm để máy tính học được.

Chúng ta nên nói về mạng neural là một kiểu hộp màu đen – chúng ta không hiểu sâu làm thế nào chúng hoạt động và hiểu mọi thứ. Do đó, những nhà khoa học luôn luôn lo lắng về việc sử dụng các công cụ mà không hiểu nó một cách hoàn chỉnh.

Mặc dù chúng ta rất hứng khởi về sự phát triển của ML, chúng ta nên nhớ nó sẽ luôn có một số giới hạn nhất định.

Nhiều nhận định nói rằng mạng neural sẽ có độ chính xác cao hơn và không có thiên kiến. Mặc dù điều đó có thể sẽ đúng nói chung, sẽ rất quan trọng để các nhà nghiên cứu hiểu được rằng đầu vào (hoặc dữ liệu training) họ đưa cho thuật toán có thể ảnh hưởng đến đầu ra một cách tiêu cực. AI chính là học từ tập dữ liệu training. Do đó, bất kì thiên kiến, hữu ý hay vô ý trộn lẫn trong dữ liệu đầu vào, có thể sẽ bám vào thuật toán.

Ví dụ, chúng ta nghĩ rằng chỉ có ba loại thiên hà, một thuật toán được giám sát sẽ cuối cùng cũng tin rằng chỉ có ba loại thiên hà đó.

Do đó, kể cả nếu máy tính tự nó không thêm vào định kiến, nó vẫn sẽ cuối cùng phản ánh chính chúng ta. Có thể nói rằng, chúng ta dạy máy tính nghĩ theo hướng có định kiến của mình. Kéo theo đó, ML có thể sẽ không xác định được một vài mẫu tiến hóa mới.

Vậy, cái gì đến sau machine learning?

Dự liệu chúng ta tạo ra ngày càng biến đổi thế giới chúng ta đang sống. Do đó, chúng ta nên biết những kĩ thuật xử lý dữ liêu trong mọi khía cạnh khoa học. Machine learning là một chủ đề hot ngày nay, và trong tương lai nó chỉ có thể đi lên hơn nữa mà thôi. Và chúng ta sẽ cùng nhau nhìn ngắm những cột mốc mà chúng ta sẽ đạt được cùng với công cụ sử dụng AI và ML và cách mà chúng biến đổi chính cuộc sống của ta.

Đàm Quang Tiến dịch ngày 12.02.2020

[source: https://medium.com/365datascience/machine-learning-in-astronomy-dfe48f20f786]