WEBVTT 00:00:06.470 --> 00:00:09.400 [Âm nhạc] 00:00:09.400 --> 00:00:12.040 [Vỗ tay] 00:00:12.040 --> 00:00:16.119 Wow, đông quá nhỉ. Tốt, cảm ơn 00:00:16.119 --> 00:00:20.640 vì lời giới thiệu đáng yêu đó. 00:00:20.640 --> 00:00:22.680 00:00:22.680 --> 00:00:25.160 Được rồi, vậy 00:00:25.160 --> 00:00:28.279 trí tuệ nhân tạo sáng tạo (generative artificial intelligence) là gì? 00:00:28.279 --> 00:00:30.199 tôi muốn phần này có tính tương tác một chút 00:00:30.199 --> 00:00:32.200 vì vậy sẽ có phần tham gia 00:00:32.200 --> 00:00:34.920 tham gia từ những người ở đây 00:00:34.920 --> 00:00:36.960 Những người tổ chức buổi giảng này nói với tôi, "Oh, bạn là người 00:00:36.960 --> 00:00:40.120 ít hiểu biết về công nghệ đối với một người làm việc về AI." 00:00:40.120 --> 00:00:42.039 Tôi không có vụ nổ hay 00:00:42.039 --> 00:00:44.640 thí nghiệm nào nên tôi e rằng bạn sẽ phải 00:00:44.640 --> 00:00:47.600 tham gia vào. hy vọng điều đó không sao chứ. Được rồi, 00:00:47.600 --> 00:00:50.079 vậy trí tuệ nhân tạo tạo sinh là gì, 00:00:50.079 --> 00:00:53.680 thuật ngữ này được tạo thành 00:00:53.680 --> 00:00:56.680 từ hai thứ: trí tuệ nhân tạo 00:00:56.680 --> 00:00:58.800 và tạo sinh, 00:00:58.800 --> 00:01:02.440 trí tuệ nhân tạo là một thuật ngữ hoa mỹ để nói rằng 00:01:02.440 --> 00:01:04.959 chúng ta có một chương trình máy tính để thực hiện công việc 00:01:04.959 --> 00:01:07.880 mà con người sẽ làm và 00:01:07.880 --> 00:01:10.520 tạo sinh đây là phần thú vị chúng ta đang 00:01:10.520 --> 00:01:14.040 tạo ra nội dung mới mà máy tính 00:01:14.040 --> 00:01:16.560 chưa chắc đã thấy, nó có thể thấy 00:01:16.560 --> 00:01:19.159 một phần nào đó của nội dung đó và nó có thể tổng hợp nội 00:01:19.159 --> 00:01:22.119 dung đó và cung cấp cho chúng ta những điều mới, vậy 00:01:22.119 --> 00:01:25.439 nội dung mới này sẽ là gì, có thể là âm thanh, 00:01:25.439 --> 00:01:27.920 có thể là mã nguồn máy tính để tạo ra 00:01:27.920 --> 00:01:31.240 một chương trình cho chúng ta, nó có thể là một hình ảnh mới, 00:01:31.240 --> 00:01:33.720 nó có thể là một đoạn văn bản như email hoặc một 00:01:33.720 --> 00:01:37.079 bài luận mà bạn đã nghe hay video. Trong 00:01:37.079 --> 00:01:39.680 bài giảng này tôi sẽ chỉ 00:01:39.680 --> 00:01:41.840 tập trung chủ yếu vào văn bản vì tôi làm về 00:01:41.840 --> 00:01:43.119 xử lý ngôn ngữ tự nhiên và đó là lĩnh vực mà tôi 00:01:43.119 --> 00:01:46.840 hiểu biết rõ nhất và chúng ta sẽ xem 00:01:46.840 --> 00:01:50.079 công nghệ hoạt động như thế nào và hy vọng là 00:01:50.079 --> 00:01:53.960 sau bài giảng này các bạn biết sẽ hiểu rằng dù có 00:01:53.960 --> 00:01:55.759 có rất nhiều huyền thoại xung quanh nó, 00:01:55.759 --> 00:01:59.200 nhưng thật ra nó 00:01:59.200 --> 00:02:01.159 chỉ là một công cụ mà thôi, được chứ ? 00:02:01.159 --> 00:02:03.960 Được rồi, vậy phần bố cục của bài giảng 00:02:03.960 --> 00:02:05.200 có ba phần và nó hơi 00:02:05.200 --> 00:02:09.199 nhàm chán. Đây là Alice Morse Earle. Tôi không 00:02:09.199 --> 00:02:11.959 hi vọng các bạn biết người phụ nữ này, bà là một 00:02:11.959 --> 00:02:16.400 nhà văn người Mỹ và bà viết về 00:02:16.400 --> 00:02:19.720 kỷ vật và phong tục nhưng bà nổi tiếng 00:02:19.720 --> 00:02:22.120 với những câu trích dẫn của mình Ví dụ như câu này: 00:02:22.120 --> 00:02:24.319 "Hôm qua là lịch sử, 00:02:24.319 --> 00:02:26.640 ngày mai là bí ẩn, hôm nay là một món quà 00:02:26.640 --> 00:02:28.040 và đó là lý do tại sao nó được gọi là hiện tại" 00:02:28.040 --> 00:02:31.280 Đây là một câu trích dẫn rất lạc quan và 00:02:31.280 --> 00:02:34.560 bài giảng về cơ bản là về quá khứ, 00:02:34.560 --> 00:02:38.800 hiện tại và tương lai của AI, được rồi, 00:02:38.800 --> 00:02:41.560 điều tôi muốn nói ngay từ đầu 00:02:41.560 --> 00:02:45.480 là AI tạo sinh không phải là một 00:02:45.480 --> 00:02:50.599 khái niệm mới, nó đã tồn tại từ khá lâu rồi. Vậy có 00:02:50.599 --> 00:02:53.360 bao nhiêu người trong số các bạn đã sử dụng hoặc đang sử dụng 00:02:53.360 --> 00:02:56.560 quen thuộc với Google dịch ? Cho tôi xem 00:02:56.560 --> 00:03:00.480 cánh tay nào? Được rồi, ai có thể cho tôi biết 00:03:00.480 --> 00:03:02.879 Google dịch ra mắt 00:03:02.879 --> 00:03:04.440 00:03:04.440 --> 00:03:06.239 lần đầu tiên là khi nào ? 00:03:06.239 --> 00:03:10.400 Năm 1995 ? Ồ, điều đó sẽ tốt đây. Năm 2006, 00:03:10.400 --> 00:03:14.599 tức là nó đã tồn tại được 17 năm rồi và 00:03:14.599 --> 00:03:16.680 tất cả chúng ta đã sử dụng nó và đây là một 00:03:16.680 --> 00:03:19.080 ví dụ về AI tạo sinh, văn bản tiếng Hy Lạp 00:03:19.080 --> 00:03:21.959 được nhập vào (Tôi là người Hy Lạp, nên bạn biết đấy, hãy dành chút tình cảm 00:03:21.959 --> 00:03:26.680 Đúng vậy, đoạn văn bản tiếng Hy Lạp đã được nhập vào và 00:03:26.680 --> 00:03:29.799 đoạn văn bản tiếng Anh xuất hiện và Google 00:03:29.799 --> 00:03:31.720 dịch đã phục vụ chúng ta rất tốt trong 00:03:31.720 --> 00:03:34.200 suốt những năm qua và không ai làm 00:03:34.200 --> 00:03:39.200 ầm lên về nó cả. Một ví dụ khác là Siri 00:03:39.200 --> 00:03:43.080 trên điện thoại. Siri 00:03:43.080 --> 00:03:45.239 đã ra mắt vào 00:03:45.239 --> 00:03:50.480 năm 2011, 12 năm trước và nó đã trở thành một hiện tượng 00:03:50.480 --> 00:03:52.720 Đây cũng là một ví dụ khác về 00:03:52.720 --> 00:03:55.280 AI tạo sinh, chúng ta có thể yêu cầu Siri đặt 00:03:55.280 --> 00:03:59.120 báo thức và Siri sẽ trả lời lại, thật 00:03:59.120 --> 00:04:00.200 tuyệt vời, 00:04:00.200 --> 00:04:01.920 bạn có thể hỏi về báo thức 00:04:01.920 --> 00:04:03.959 hoặc bất cứ thứ gì khác, đây chính là AI tạo sinh, 00:04:03.959 --> 00:04:06.560 Dù không tinh vi như Chat GPT, 00:04:06.560 --> 00:04:09.000 nhưng nó đã xuất hiện từ trước rồi và không biết có bao 00:04:09.000 --> 00:04:10.799 nhiêu người trong số các bạn dùng 00:04:10.799 --> 00:04:14.640 iPhone? Xem kìa, iPhone khá phổ biến. Tôi 00:04:14.640 --> 00:04:18.238 không hiểu tại sao. Được rồi, vậy là chúng ta đều 00:04:18.238 --> 00:04:20.358 quen thuộc với nó và tất nhiên 00:04:20.358 --> 00:04:23.040 sau đó có Amazon Alexa và nhiều thứ khác nữa. Vậy một lần nữa, 00:04:23.040 --> 00:04:27.320 AI tạo sinh Không phải là một 00:04:27.320 --> 00:04:30.280 khái niệm mới, nó ở khắp mọi nơi, nó là một phần của 00:04:30.280 --> 00:04:33.039 điện thoại của bạn. Tính năng hoàn thành tự động khi bạn 00:04:33.039 --> 00:04:35.199 gửi email hoặc khi bạn gửi email hoặc 00:04:35.199 --> 00:04:39.400 tin nhắn. Điện thoại cố gắng hoàn thành 00:04:39.400 --> 00:04:42.280 câu của bạn, cố gắng suy nghĩ giống như 00:04:42.280 --> 00:04:44.639 bạn và nó giúp bạn tiết kiệm thời gian, đúng chứ ? vì 00:04:44.639 --> 00:04:46.680 một số gợi ý đã có sẵn rồi 00:04:46.680 --> 00:04:48.479 Tương tự như với Google, khi bạn nhập liệu, 00:04:48.479 --> 00:04:50.520 nó cố gắng đoán từ khóa tìm kiếm của bạn 00:04:50.520 --> 00:04:53.199 Đây là một ví dụ về 00:04:53.199 --> 00:04:55.120 mô hình ngôn ngữ, chúng ta sẽ nghe rất nhiều về 00:04:55.120 --> 00:04:58.080 mô hình ngôn ngữ trong bài nói chuyện này, vì vậy về cơ bản chúng ta đang 00:04:58.080 --> 00:04:59.880 đưa ra dự đoán về những gì 00:04:59.880 --> 00:05:03.680 tiếp theo sẽ như thế nào. Vì vậy, 00:05:03.680 --> 00:05:05.840 điều tôi muốn nói với bạn là AI tạo sinh 00:05:05.840 --> 00:05:08.960 không hẳn là mới mẻ. Vậy vấn đề là gì, tại sao mọi người lại bàn tán xôn xao 00:05:08.960 --> 00:05:11.080 chuyện gì đã xảy ra ? 00:05:11.080 --> 00:05:13.840 vào năm 00:05:13.840 --> 00:05:17.759 2023, Open AI mở một công ty ở 00:05:17.759 --> 00:05:19.720 California thực tế là ở San Francisco. Nếu 00:05:19.720 --> 00:05:21.560 bạn đến San Francisco, bạn thậm chí có thể nhìn thấy 00:05:21.560 --> 00:05:24.840 ánh đèn của tòa nhà họ vào ban đêm 00:05:24.840 --> 00:05:26.639 Họ đã công bố 00:05:26.639 --> 00:05:31.080 GPT-4 và tuyên bố rằng nó có thể vượt quá 90% 00:05:31.080 --> 00:05:34.199 con người trong bài kiểm tra SAT. Đối với 00:05:34.199 --> 00:05:36.919 những ai chưa biết, SAT là một 00:05:36.919 --> 00:05:39.759 bài kiểm tra tiêu chuẩn mà học sinh ở Mỹ 00:05:39.759 --> 00:05:41.840 phải làm để vào Đại học. Đó là một 00:05:41.840 --> 00:05:44.520 bài kiểm tra tuyển sinh và đó là bài trắc nghiệm 00:05:44.520 --> 00:05:48.759 được xem là không dễ. Vậy mà GPT-4 00:05:48.759 --> 00:05:50.919 có thể làm được, họ cũng tuyên bố rằng nó có thể 00:05:50.919 --> 00:05:54.840 đạt điểm cao trong các kỳ thi luật, y khoa 00:05:54.840 --> 00:05:57.160 và các kỳ thi khác. Họ có cả một loạt các kết quả 00:05:57.160 --> 00:05:59.880 mà họ không chỉ tuyên bố mà còn 00:05:59.880 --> 00:06:03.520 chứng minh rằng GPT-4 có thể làm được. 00:06:03.520 --> 00:06:07.360 Ngoài việc nó có thể vượt qua các kỳ thi 00:06:07.360 --> 00:06:10.520 chúng ta có thể yêu cầu nó làm những việc khác. Ví dụ, bạn 00:06:10.520 --> 00:06:14.199 có thể yêu cầu nó viết văn bản cho bạn. Chẳng 00:06:14.199 --> 00:06:17.560 hạn bạn có thể đưa ra một "prompt" (yêu cầu) 00:06:17.560 --> 00:06:19.440 cái mà bạn thấy trên kia, 00:06:19.440 --> 00:06:22.400 đó chính là prompt. Đó chính là những gì con người muốn 00:06:22.400 --> 00:06:24.960 công cụ thực hiện cho họ. Một 00:06:24.960 --> 00:06:26.919 prompt có thể là: "Tôi đang viết một bài luận 00:06:26.919 --> 00:06:28.880 về việc sử dụng điện thoại di động khi 00:06:28.880 --> 00:06:31.199 lái xe. Bạn có thể đưa ra cho tôi ba luận điểm 00:06:31.199 --> 00:06:34.160 ủng hộ điều này không ? Nếu 137 00:06:34,160 --> 00:06:36,199 bạn hỏi tôi, tôi không chắc tôi có thể đưa ra 00:06:36.199 --> 00:06:38.919 ba luận điểm. Bạn cũng có thể yêu cầu, và 00:06:38.919 --> 00:06:41.080 đây là những yêu cầu thực sự mà 00:06:41.080 --> 00:06:44.960 công cụ có thể làm. Bạn nói với Chat GPT hoặc GPT nói 00:06:44.960 --> 00:06:47.080 chung hoạt động như một lập trình viên JavaScript. 00:06:47.080 --> 00:06:48.599 Viết một chương trình kiểm tra 00:06:48.599 --> 00:06:51.560 thông tin trên biểu mẫu. Tên và email là 00:06:51.560 --> 00:06:53.720 bắt buộc, nhưng địa chỉ và tuổi thì không. "Vậy là 00:06:53.720 --> 00:06:56.639 tôi chỉ cần viết điều này và công cụ sẽ 00:06:56.639 --> 00:06:59.199 đưa ra một chương trình và đây là điều thú vị nhất: 00:06:59.199 --> 00:07:02.560 "Tạo một trang giới thiệu về tôi" cho một 00:07:02.560 --> 00:07:05.560 trang web. Tôi thích leo núi, 00:07:05.560 --> 00:07:07.919 thể thao ngoài trời và lập trình. Tôi bắt đầu 00:07:07.919 --> 00:07:09.840 sự nghiệp của mình với vai trò kỹ sư chất lượng trong 00:07:09.840 --> 00:07:13.360 ngành blah blah blah. Tôi cung cấp thông tin 00:07:13.360 --> 00:07:16.280 phiên bản như vậy về những gì tôi muốn trên website, và công cụ 00:07:16.280 --> 00:07:18.520 sẽ tạo ra nó cho 00:07:18.520 --> 00:07:20.160 tôi. 00:07:20.160 --> 00:07:23.360 Vậy, bạn thấy đấy, chúng ta đã đi từ Google 00:07:23.360 --> 00:07:24.840 dịch và Siri và tính năng 00:07:24.840 --> 00:07:26.479 hoàn thành tự động đến một thứ 00:07:26.479 --> 00:07:28.840 phức tạp hơn rất nhiều và có thể làm được nhiều hơn nữa 00:07:28.840 --> 00:07:31.080 00:07:31.080 --> 00:07:34.680 Một sự thật thú vị nữa. Đây là biểu đồ 00:07:34.680 --> 00:07:40.879 cho thấy thời gian cần thiết để chat GPT 00:07:40.879 --> 00:07:44.400 đạt được 100 triệu người dùng so 00:07:44.400 --> 00:07:46.120 với các công cụ khác đã ra mắt 00:07:46.120 --> 00:07:49.039 trong quá khứ và bạn thấy Google dịch, công cụ mà chúng ta yêu thích 00:07:49.039 --> 00:07:53.840 phải mất 78 tháng để 00:07:53.840 --> 00:07:58.280 đạt được 100 triệu người dùng. Một khoảng thời gian dài. 00:07:58.280 --> 00:08:02.680 Tik Tok chỉ mất 9 tháng và Chat GPT chỉ mất 00:08:02.680 --> 00:08:05.840 2 tháng. Chi trong vòng hai tháng, họ đã có 100 00:08:05.840 --> 00:08:10.759 triệu người dùng và những người dùng này trả một 00:08:10.759 --> 00:08:13.960 ít tiền để sử dụng hệ thống, bạn có thể 00:08:13.960 --> 00:08:15.599 nhân lên và tính xem họ kiếm được 00:08:15.599 --> 00:08:19.400 bao nhiêu tiền. Được rồi, 00:08:19.400 --> 00:08:25.039 đây là phần lịch sử. Vậy làm thế nào để 00:08:25.039 --> 00:08:29.240 chúng ta tạo ra Chat GPT ? 00:08:29.240 --> 00:08:31.479 Công nghệ nào đứng sau nó ? Hóa ra, công nghệ này 00:08:31.479 --> 00:08:34.120 không phải quá mới hoặc 00:08:34.120 --> 00:08:36.440 cực kỳ sáng tạo hoặc cực kỳ 00:08:36.440 --> 00:08:37.519 khó hiểu 00:08:37.519 --> 00:08:39.839 Vậy nên, hôm nay chúng ta 00:08:39.839 --> 00:08:41.159 sẽ nói về 00:08:41.159 --> 00:08:45.360 điều đó. Chúng ta sẽ giải quyết ba câu hỏi 00:08:45.360 --> 00:08:46.920 Trước hết là làm thế nào chúng ta chuyển từ các 00:08:46.920 --> 00:08:49.399 hệ thống chỉ có một mục đích đơn lẻ như Google 00:08:49.399 --> 00:08:51.880 Dịch sang Chat GPT, 00:08:51.880 --> 00:08:54.680 một công cụ tinh vi hơn và làm được nhiều việc hơn, 00:08:54.680 --> 00:08:56.640 cụ thể, 00:08:56.640 --> 00:08:59.480 công nghệ cốt lõi đằng sau Chat GPT là gì và 00:08:59.480 --> 00:09:02.079 rủi ro nếu có là gì và cuối cùng tôi 00:09:02.079 --> 00:09:04.640 sẽ chỉ cho bạn thấy cái nhìn thoáng qua về 00:09:04.640 --> 00:09:06.760 tương lai, cách mà nó sẽ trông như thế nào 00:09:06.760 --> 00:09:08.720 và liệu chúng ta có nên lo lắng hay 00:09:08.720 --> 00:09:12.760 không và bạn biết đấy tôi sẽ không để bạn phải băn 00:09:12.760 --> 00:09:16.600 khoăn đâu đừng lo lắng, được 00:09:16.600 --> 00:09:18.959 chứ ? 00:09:18.959 --> 00:09:22.959 Vậy tất cả các biến thể mô hình GPT này và 00:09:22.959 --> 00:09:24.880 có một ngành công nghiệp nhỏ đang nổi lên, 00:09:24.880 --> 00:09:27.760 tôi chỉ lấy GPT làm ví dụ 00:09:27.760 --> 00:09:30.079 công chúng đã biết đến nó 00:09:30.079 --> 00:09:32.440 và có rất nhiều 00:09:32.440 --> 00:09:34.279 các bài báo về nó, nhưng còn có 00:09:34.279 --> 00:09:36.240 những mô hình khác, các biến thể khác của mô hình mà chúng ta 00:09:36.240 --> 00:09:39.519 sử dụng trong học thuật. Tất cả chúng đều hoạt động dựa trên 00:09:39.519 --> 00:09:41.519 cùng một nguyên tắc, và nguyên tắc này được 00:09:41.519 --> 00:09:44.160 gọi là mô hình hóa ngôn ngữ 00:09:44.160 --> 00:09:47.440 Mô hình hóa ngôn ngữ làm gì nó giả định rằng chúng ta có 00:09:47.440 --> 00:09:51.399 một chuỗi các từ ngữ. Đó là ngữ cảnh cho đến nay 00:09:51.399 --> 00:09:52.920 và chúng ta đã thấy điều này trong tính năng 00:09:52.920 --> 00:09:55.760 hoàn thành tự động. tôi có một ví dụ ở đây 00:09:55.760 --> 00:10:00.160 Giả sử ngữ cảnh của tôi là cụm từ "Tôi muốn". 00:10:00.160 --> 00:10:03.240 công cụ mô hình hóa ngôn ngữ sẽ 00:10:03.240 --> 00:10:06.440 dự đoán những gì xảy ra tiếp theo. Vì vậy nếu tôi nói 00:10:06.440 --> 00:10:09.320 "Tôi muốn" sẽ có một số dự đoán:"Tôi 00:10:09.320 --> 00:10:12.040 muốn xúc tuyết", "Tôi muốn chơi", "Tôi muốn 00:10:12.040 --> 00:10:14.880 bơi", "Tôi muốn ăn" và tùy thuộc vào những gì 00:10:14.880 --> 00:10:17.600 chúng ta chọn là "xúc tuyết" sẽ tiếp tục với "tuyết", 00:10:17.600 --> 00:10:21.880 còn nhiều phần tiếp theo nữa. Vi vậy, 00:10:21.880 --> 00:10:25.240 đối với "xẻng" thì sẽ là "tuyết", "chơi" thì 00:10:25.240 --> 00:10:27.800 có thể tiếp tục với "tennis" hoặc "trò choi video", "bơi" không có phần tiếp theo và "ăn" 00:10:27.800 --> 00:10:30.240 có thể tiếp tục với "nhiều thứ" hoặc 00:10:30.240 --> 00:10:33.800 "trái cây". Đây là một ví dụ đơn giản nhưng hãy 00:10:33.800 --> 00:10:35.639 tưởng tượng bây giờ máy tính đã thấy 00:10:35.639 --> 00:10:40.480 rất nhiều văn bản và nó biết những từ nào 00:10:40.480 --> 00:10:42.399 theo sau 00:10:42.399 --> 00:10:46.720 những từ nào. Trước đây, chúng ta từng đếm các từ này. 00:10:46.720 --> 00:10:49.519 Tôi sẽ tải xuống một lượng lớn dữ liệu 00:10:49.519 --> 00:10:52.160 và đếm xem cụm "Tôi muốn cho họ thấy" 00:10:52.160 --> 00:10:54.160 xuất hiện bao nhiêu lần và 00:10:54.160 --> 00:10:56.040 những lần tiếp theo là gì. chúng ta 00:10:56.040 --> 00:10:58.040 Chúng ta đã từng lưu các con số đó. Nhưng giờ đây, 00:10:58.040 --> 00:11:00.760 mọi thứ đã thay đổi, 00:11:00.760 --> 00:11:03.519 chúng ta sử dụng mạng nơ-ron không chỉ đơn thuần đếm 00:11:03.519 --> 00:11:07.720 mà dự đoán, học hỏi 00:11:07.720 --> 00:11:10.040 theo cách tinh vi hơn, và 00:11:10.040 --> 00:11:12.079 tôi sẽ giải thích ngay. 00:11:12.079 --> 00:11:13.360 ChatGPT và 00:11:13.360 --> 00:11:17.760 các biến thể GPT dựa trên các 00:11:17.760 --> 00:11:21.560 nguyên tắc này: Tôi có một ngữ cảnh, 00:11:21.560 --> 00:11:24.600 tôi sẽ dự đoán điều gì sẽ xảy ra tiếp theo. 00:11:24.600 --> 00:11:26.639 Và đó chính là prompt, phần yêu cầu mà tôi đã 00:11:26.639 --> 00:11:29.800 cho bạn thấy. 00:11:29.800 --> 00:11:32.399 Đây là ngữ cảnh, và sau đó công cụ sẽ 00:11:32.399 --> 00:11:35.680 thực hiện nhiệm vụ, điều gì sẽ xảy ra tiếp theo ? trong một số 00:11:35.680 --> 00:11:37.639 trường hợp, đó sẽ là ba luận điểm. 00:11:37.639 --> 00:11:39.920 Trong trường hợp của lập trình viên web, đó 00:11:39.920 --> 00:11:41.320 sẽ là một 00:11:41.320 --> 00:11:45.440 trang web. Tóm lại nhiệm vụ của mô hình hóa ngôn ngữ 00:11:45.440 --> 00:11:47.519 là có ngữ cảnh. 00:11:47.519 --> 00:11:49.200 và đây là một ví dụ khác: 00:11:49.200 --> 00:11:53.160 "Màu sắc của bầu trời là". Chúng ta có 00:11:53.160 --> 00:11:56.760 một mô hình ngôn ngữ nơ-ron, 00:11:56.760 --> 00:12:00.320 thực chất chỉ là một thuật toán, 00:12:00.320 --> 00:12:03.279 nó sẽ dự đoán phần tiếp theo có 00:12:03.279 --> 00:12:06.160 khả năng xảy ra nhất. Khả năng xảy ra rất quan trọng. 00:12:06.160 --> 00:12:09.160 Tất cả các dự đoán dựa trên việc đoán 00:12:09.160 --> 00:12:11.959 điều gì sẽ xảy ra tiếp theo. 00:12:11.959 --> 00:12:13.519 Và đó là lý do đôi khi chúng thất bại, vì 00:12:13.519 --> 00:12:15.519 chúng dự đoán câu trả lời có khả năng cao nhất 00:12:15.519 --> 00:12:18.279 trong khi bạn muốn một câu trả lời ít có khả năng xảy ra hơn nhưng 00:12:18.279 --> 00:12:19.880 đây là cách chúng được huấn luyện để 00:12:19.880 --> 00:12:24.120 đưa ra những câu trả lời có khả năng là cao nhất, vì vậy 00:12:24.120 --> 00:12:25.920 chúng ta không đếm các từ nữa, mà cố gắng 00:12:25.920 --> 00:12:29.959 dự đoán chúng bằng mô hình ngôn ngữ này. 00:12:29.959 --> 00:12:33.760 Vậy làm thế nào để bạn tự xây dựng một mô hình ngôn ngữ? 00:12:33.760 --> 00:12:36.160 Đây là công thức, cách mà mọi người thực hiện: 00:12:36.160 --> 00:12:40.000 Bước 1: Chúng ta cần rất nhiều dữ liệu. 00:12:40.000 --> 00:12:43.040 Cần thu thập một tập dữ liệu khổng lồ. 00:12:43.040 --> 00:12:46.360 Vậy chúng ta tìm đâu ra 00:12:46.360 --> 00:12:48.959 một tập dữ liệu khổng lồ như vậy? 00:12:48.959 --> 00:12:52.360 Ý tôi là, chúng ta tìm trên web, đúng không? 00:12:52.360 --> 00:12:55.800 Chúng ta tải xuống toàn bộ Wikipedia, 00:12:55.800 --> 00:12:59.399 các trang Stack Overflow, Quora, 00:12:59.399 --> 00:13:02.160 mạng xã hội, GitHub, Reddit, bất kỳ thứ gì bạn 00:13:02.160 --> 00:13:03.880 có thể tìm được trên đó 00:13:03.880 --> 00:13:06.240 Tất nhiên, bạn cần giải quyết các vấn đề về quyền sử dụng dữ liệu, phải hợp pháp. 00:13:06.240 --> 00:13:08.079 Bạn tải xuống toàn bộ tập dữ liệu này. 00:13:08.079 --> 00:13:10.680 Vậy sau đó bạn làm gì? Sau đó, bạn 00:13:10.680 --> 00:13:12.360 có mô hình ngôn ngữ này. Tôi chưa 00:13:12.360 --> 00:13:14.120 giải thích chính xác mô hình 00:13:14.120 --> 00:13:15.959 ngôn ngữ này là gì, và cũng chưa nói 00:13:15.959 --> 00:13:17.519 về mạng nơ-ron thực hiện 00:13:17.519 --> 00:13:20.639 dự đoán, nhưng giả sử bạn đã có nó. 00:13:20.639 --> 00:13:23.199 Vậy bạn có một cơ chế 00:13:23.199 --> 00:13:25.920 học tập, và nhiệm vụ giờ đây 00:13:25.920 --> 00:13:28.920 là dự đoán từ tiếp theo. 00:13:28.920 --> 00:13:32.040 Nhưng làm thế nào để chúng ta làm điều đó? 00:13:32.040 --> 00:13:36.079 Đây chính là phần sáng tạo. 00:13:36.079 --> 00:13:38.720 Chúng ta có các câu trong tập dữ liệu. Chúng ta có thể xóa một số từ 00:13:38.720 --> 00:13:41.040 trong các câu đó và yêu cầu mô hình ngôn ngữ dự đoán 00:13:41.040 --> 00:13:45.199 các từ mà chúng ta đã xóa. 00:13:45.199 --> 00:13:48.440 Cách này rất rẻ tiền. Tôi chỉ cần xóa chúng đi, 00:13:48.440 --> 00:13:50.639 giả vờ như chúng không có, và để mô hình ngôn ngữ 00:13:50.639 --> 00:13:54.360 dự đoán chúng. Tôi sẽ 00:13:54.360 --> 00:13:57.240 ngẫu nhiên cắt ngắn, "truncate" nghĩa là xóa bớt, 00:13:57.240 --> 00:13:59.600 phần cuối của câu đầu vào. 00:13:59.600 --> 00:14:01.720 Sau đó, tôi sẽ sử dụng mạng nơ-ron 00:14:01.720 --> 00:14:04.560 để tính xác suất của các từ bị thiếu. Nếu dự đoán 00:14:04.560 --> 00:14:06.440 đúng, thì tốt. Nếu không đúng, tôi cần 00:14:06.440 --> 00:14:08.600 quay lại và điều chỉnh một số điều 00:14:08.600 --> 00:14:10.240 vì rõ ràng tôi đã mắc sai lầm, 00:14:10.240 --> 00:14:12.959 và tôi tiếp tục lặp lại. Tôi sẽ điều chỉnh 00:14:12.959 --> 00:14:14.880 và đưa phản hồi vào mô hình, 00:14:14.880 --> 00:14:16.920 sau đó so sánh kết quả mà mô hình dự đoán với 00:14:16.920 --> 00:14:18.639 "ground truth" (thực tế) 00:14:18.639 --> 00:14:20.199 vì tôi đã 00:14:20.199 --> 00:14:23.000 biết trước đáp án thực. 00:14:23.000 --> 00:14:27.320 Chúng ta cứ tiếp tục quá trình này trong vài tháng, 00:14:27.320 --> 00:14:30.639 hoặc có thể vài năm. Không, chỉ vài tháng thôi. 00:14:30.639 --> 00:14:32.480 Quá trình này mất thời gian vì, 00:14:32.480 --> 00:14:34.120 như bạn có thể hình dung, tôi có một 00:14:34.120 --> 00:14:35.880 tập dữ liệu rất lớn với rất nhiều câu, 00:14:35.880 --> 00:14:37.480 và tôi cần thực hiện 00:14:37.480 --> 00:14:40.199 dự đoán, sau đó quay lại sửa sai, 00:14:40.199 --> 00:14:43.240 và cứ thế. Nhưng cuối cùng 00:14:43.240 --> 00:14:45.639 mô hình sẽ hội tụ và tôi sẽ có kết quả. 00:14:45.639 --> 00:14:47.240 Công cụ tôi vừa nhắc đến, 00:14:47.240 --> 00:14:50.199 công cụ này chính là 00:14:50.199 --> 00:14:53.440 mô hình ngôn ngữ. 00:14:53.440 --> 00:14:56.440 Một mô hình ngôn ngữ đơn giản 00:14:56.440 --> 00:15:00.000 trông như thế này. Có thể 00:15:00.000 --> 00:15:02.320 khán giả đã từng thấy những mô hình này, 00:15:02.320 --> 00:15:05.160 đây là một đồ thị đơn giản, 00:15:05.160 --> 00:15:08.440 nhưng nó giúp minh họa cách thức hoạt động. 00:15:08.440 --> 00:15:10.600 Mạng nơ-ron mô hình ngôn ngữ này 00:15:10.600 --> 00:15:14.320 sẽ có vài đầu vào 00:15:14.320 --> 00:15:17.519 các nút tròn, 00:15:17.519 --> 00:15:21.240 vâng bên phải của tôi và của bạn, ok 00:15:21.240 --> 00:15:24.720 ở bên phải là đầu vào, 00:15:24.720 --> 00:15:28.360 và các nút tròn bên trái là đầu ra. 00:15:28.360 --> 00:15:31.160 Chúng ta đưa vào 00:15:31.160 --> 00:15:33.000 năm đầu vào, 00:15:33.000 --> 00:15:36.880 năm vòng tròn, 00:15:36.880 --> 00:15:39.800 và có ba đầu ra, ba vòng tròn. 00:15:39.800 --> 00:15:41.959 Và có những thứ ở giữa mà tôi 00:15:41.959 --> 00:15:44.680 không nói gì cả. Đây là 00:15:44.680 --> 00:15:47.680 các lớp (layers). Đây là những nút khác 00:15:47.680 --> 00:15:51.360 được cho là trừu tượng hóa dữ liệu đầu vào của tôi. 00:15:51.360 --> 00:15:54.759 Vì vậy, họ khái quát hóa. Ý tưởng là nếu tôi đặt 00:15:54.759 --> 00:15:58.399 nhiều lớp hơn 00:15:58.399 --> 00:16:00.600 các lớp giữa sẽ tổng quát hóa đầu vào 00:16:00.600 --> 00:16:03.000 và nhận ra các mẫu mà ban đầu 00:16:03.000 --> 00:16:05.880 không rõ ràng. 00:16:05.880 --> 00:16:07.399 Đầu vào cho các nút này 00:16:07.399 --> 00:16:10.399 không phải là từ, mà là vector - chuỗi số, 00:16:10.399 --> 00:16:13.279 nhưng hãy tạm quên điều đó. 00:16:13.279 --> 00:16:15.480 Vậy chúng ta có đầu vào, các lớp giữa, 00:16:15.480 --> 00:16:17.880 và đầu ra. Các kết nối 00:16:17.880 --> 00:16:20.880 giữa các nút được gọi 00:16:20.880 --> 00:16:23.240 là trọng số (weights), 00:16:23.240 --> 00:16:26.480 chính trọng số này là thứ mà mạng học được. 00:16:26.480 --> 00:16:29.240 Các trọng số thực chất là các con số. 00:16:29.240 --> 00:16:31.880 và ở đây tất cả đều được kết nối đầy đủ, vì vậy tôi có rất nhiều 00:16:31.880 --> 00:16:34.880 kết nối. Tại sao tôi lại thực hiện 00:16:34.880 --> 00:16:36.800 quá trình này để thực sự nói với bạn tất cả 00:16:36.800 --> 00:16:40.720 những điều đó? Bạn sẽ thấy trong một phút. Vì vậy, bạn có thể 00:16:40.720 --> 00:16:44.839 tính toán được 00:16:44.839 --> 00:16:48.360 mạng nơ-ron này lớn hay nhỏ tùy thuộc vào 00:16:48.360 --> 00:16:51.800 số lượng kết nối mà nó có. Vì vậy đối với 00:16:51.800 --> 00:16:54.800 mạng nơ-ron đơn giản này, tôi 00:16:54.800 --> 00:16:58.880 đã tính được số lượng trọng số 00:16:58.880 --> 00:17:01.399 Chúng tôi gọi là tham số, 00:17:01.399 --> 00:17:03.800 mà mạng cần học. 00:17:03.800 --> 00:17:07.240 Vì vậy, các tham số là 00:17:07.240 --> 00:17:10.359 số lượng đơn vị đầu vào, trong trường hợp này 00:17:10.359 --> 00:17:14.760 là 5, nhân với số đơn vị ở 00:17:14.760 --> 00:17:18.559 lớp tiếp theo, là 8. Cộng với 8, 00:17:18.559 --> 00:17:22.119 kết quả này cộng với 8 là độ lệch, 00:17:22.119 --> 00:17:24.480 đó là một điều gian lận mà các mạng nơ-ron này có. Một lần nữa, 00:17:24.480 --> 00:17:27.119 bạn cần phải học nó 00:17:27.119 --> 00:17:28.960 và nó sẽ sửa một chút cho mạng nơ-ron nếu nó bị tắt. 00:17:28.960 --> 00:17:30.440 Nó thực sự là thiên tài. 00:17:30.440 --> 00:17:32.600 Nếu dự đoán không đúng, 00:17:32.600 --> 00:17:34.520 Nó cố gắng điều chỉnh một chút để sửa lỗi. Vì vậy, cho 00:17:34.520 --> 00:17:36.799 mục đích của buổi nói chuyện này, tôi sẽ không đi sâu vào chi tiết, 00:17:36.799 --> 00:17:38.799 đi sâu vào chi tiết, tất cả những gì tôi muốn bạn 00:17:38.799 --> 00:17:40.840 thấy là có một cách để tính 00:17:40.840 --> 00:17:43.080 ra các tham số, cơ bản là 00:17:43.080 --> 00:17:46.760 số lượng đơn vị đầu vào nhân với số 00:17:46.760 --> 00:17:49.919 đơn vị mà đầu vào đang kết nối tới. 00:17:49.919 --> 00:17:52.720 Với mạng nơ-ron được kết nối đầy đủ này, 00:17:52.720 --> 00:17:56.840 nếu chúng ta cộng tất cả lại, ta sẽ có 00:17:56.840 --> 00:18:00.000 99 tham số có thể huấn luyện. 00:18:00.000 --> 00:18:02.679 Đây là một mạng nhỏ, phải không? Nhưng tôi muốn bạn 00:18:02.679 --> 00:18:04.919 nhớ rằng, mạng nhỏ này có 99 tham số. 00:18:04.919 --> 00:18:08.280 Khi bạn nghe về mạng có 00:18:08.280 --> 00:18:10.720 một tỷ tham số, 00:18:10.720 --> 00:18:15.120 hãy hình dung kích thước khổng lồ của nó. 00:18:15.120 --> 00:18:18.200 Vậy là chỉ có 99 cho mạng nơ-ron đơn giản này. 00:18:18.200 --> 00:18:21.440 Và đây là cách chúng ta đánh giá mô hình lớn như thế nào, 00:18:21.440 --> 00:18:24.720 mất bao lâu và tốn bao nhiêu, 00:18:24.720 --> 00:18:26.360 đó là số lượng 00:18:26.360 --> 00:18:29.480 tham số. Trong thực tế 00:18:29.480 --> 00:18:32.440 không ai sử dụng mạng nhỏ này. 00:18:32.440 --> 00:18:35.039 Đây chỉ là ví dụ cho sinh viên 00:18:35.039 --> 00:18:36.760 năm nhất học đại học. 00:18:36.760 --> 00:18:38.600 Thực tế, chúng ta 00:18:38.600 --> 00:18:41.440 sử dụng những 00:18:41.440 --> 00:18:45.000 mô hình khổng lồ, 00:18:45.000 --> 00:18:48.960 gồm nhiều khối. Và khối này có nghĩa là chúng được 00:18:48.960 --> 00:18:53.520 tạo thành từ các mạng nơ-ron khác. Vì vậy, tôi 00:18:53.520 --> 00:18:55.919 không biết có bao nhiêu người đã nghe về 00:18:55.919 --> 00:18:59.919 Bộ chuyển đổi. Tôi hy vọng là chưa. 00:18:59.919 --> 00:19:03.240 Oh wo, ok. Bộ chuyển đổi là các mạng nơ-ron được dùng 00:19:03.240 --> 00:19:06.640 để xây dựng ChatGPT. 00:19:06.640 --> 00:19:11.080 Trên thực tế GPT là viết tắt của "generative pre-trained transformers" 00:19:11.080 --> 00:19:13.600 (transformers cũng được có ngày trong tiêu đề). 00:19:13.600 --> 00:19:17.600 Đây là bản phác thảo của một transformer. 00:19:17.600 --> 00:19:21.320 Bạn có đầu vào 00:19:21.320 --> 00:19:23.799 và đầu vào không phải là từ, 00:19:23.799 --> 00:19:26.640 như tôi đã nói, nó là vector (embeddings). 00:19:26.640 --> 00:19:30.000 Và sau đó bạn sẽ có nó, 00:19:30.000 --> 00:19:33.760 một phiên bản lớn hơn của mạng kết nối. 00:19:33.760 --> 00:19:35.720 00:19:35.720 --> 00:19:39.480 Các vector này được đưa qua nhiều khối (blocks), 00:19:39.480 --> 00:19:42.679 và mỗi khối là một hệ thống phức tạp 00:19:42.679 --> 00:19:46.559 chứa mạng nơ-ron bên trong. Chúng ta 00:19:46.559 --> 00:19:48.320 sẽ không đi vào chi tiết, tôi không muốn, 00:19:48.320 --> 00:19:51.480 xin đừng đi, tất cả những gì tôi đang 00:19:51.480 --> 00:19:55.159 cố gắng, (khán giả cười) tất cả những gì tôi đang cố gắng nói là, bạn biết đấy, 00:19:55.159 --> 00:19:59.159 chúng ta có những khối này xếp chồng 00:19:59.159 --> 00:20:01.159 lên nhau, Transformer có 00:20:01.159 --> 00:20:03.360 tám khối như vậy, là những mạng nơ-ron mini, 00:20:03.360 --> 00:20:06.840 và nhiệm vụ này vẫn giữ nguyên. 00:20:06.840 --> 00:20:08.320 Đó là những gì tôi muốn bạn rút ra từ đây. 00:20:08.320 --> 00:20:10.559 Nhiệm vụ vẫn không thay đổi: đầu vào là ngữ cảnh, ví dụ 00:20:10.559 --> 00:20:12.760 "con gà bước đi," sau đó thực hiện 00:20:12.760 --> 00:20:15.960 xử lý để dự đoán phần tiếp theo 00:20:15.960 --> 00:20:18.120 ví dụ "qua đường". 00:20:18.120 --> 00:20:21.640 Và EOS (end of sentence) 00:20:21.640 --> 00:20:22.880 được dùng để 00:20:22.880 --> 00:20:24.600 đánh dấu kết thúc câu, giúp mạng nơ-ron nhận biết điểm dừng. 00:20:24.600 --> 00:20:26.240 Ý tôi là, chúng khá "ngốc," đúng không? 00:20:26.240 --> 00:20:28.280 Chúng ta cần chỉ rõ mọi thứ cho chúng. Khi tôi nghe rằng AI 00:20:28.280 --> 00:20:30.200 sẽ chiếm lĩnh thế giới, tôi chỉ nghĩ, 00:20:30.200 --> 00:20:33.520 "Thật sao? Chúng ta thậm chí còn phải 00:20:33.520 --> 00:20:37.919 viết ra từng chi tiết". Đây chính là transformer (bộ chuyển đổi), 00:20:37.919 --> 00:20:39.600 vua của các kiến trúc mô hình. 00:20:39.600 --> 00:20:41.240 Transformers ra đời 00:20:41.240 --> 00:20:43.600 năm 2017. Hiện tại không ai làm việc trên 00:20:43.600 --> 00:20:46.280 các kiến ​​trúc mới nữa. Thật đáng tiếc, 00:20:46.280 --> 00:20:48.080 trước đây mọi người 00:20:48.080 --> 00:20:50.240 sử dụng nhiều chúng, nhưng 00:20:50.240 --> 00:20:52.480 giờ thì không, tất cả mọi người đều sử dụng Transformers, 00:20:52.480 --> 00:20:55.799 chúng ta đã quyết định rằng chúng rất tuyệt. 00:20:55.799 --> 00:20:58.240 Được rồi, vậy chúng ta sẽ làm gì với chúng? 00:20:58.240 --> 00:20:59.960 Điều quan trọng và 00:20:59.960 --> 00:21:02.240 tuyệt vời là chúng ta sẽ thực hiện 00:21:02.240 --> 00:21:04.039 học tự giám sát (self-supervised learning). 00:21:04.039 --> 00:21:06.360 Đây chính là điều tôi đã nói: chúng ta có câu, cắt bớt, 00:21:06.360 --> 00:21:09.919 dự đoán, và tiếp tục cho đến khi 00:21:09.919 --> 00:21:11.640 chúng ta học được 00:21:11.640 --> 00:21:15.960 các xác suất. Hiểu kịp không? 00:21:15.960 --> 00:21:20.320 Tốt, được rồi. Khi chúng ta có 00:21:20.320 --> 00:21:23.720 transformer và đã cung cấp cho nó tất cả 00:21:23.720 --> 00:21:26.600 dữ liệu mà thế giới có, 00:21:26.600 --> 00:21:29.520 chúng ta sẽ có một mô hình huấn luyện trước (pre-trained model). Đó là lý do tại sao GPT 00:21:29.520 --> 00:21:32.000 được gọi là transformer tạo sinh, được huấn luyện sẵn (generative pre-trained transformer). 00:21:32.000 --> 00:21:34.919 Đây là một mô hình cơ bản đã được đào tạo 00:21:34.919 --> 00:21:37.400 từ rất nhiều nguồn dữ liệu 00:21:37.400 --> 00:21:39.840 của thế giới. 00:21:39.840 --> 00:21:42.600 Sau đó, chúng ta thường làm gì? Chúng ta 00:21:42.600 --> 00:21:44.440 có mô hình mục đích chung này và 00:21:44.440 --> 00:21:47.400 cần chuyên biệt hóa nó cho một nhiệm vụ cụ thể. 00:21:47.400 --> 00:21:49.760 Đây là điều gọi là fine-tuning 00:21:49.760 --> 00:21:52.080 (tinh chỉnh). Điều này có nghĩa là mạng nơ-ron 00:21:52.080 --> 00:21:53.679 đã có một số 00:21:53.679 --> 00:21:57.279 trọng số, và chúng ta cần chuyên biệt hóa 00:21:57.279 --> 00:21:59.240 mạng này. Chúng ta sẽ khởi tạo 00:21:59.240 --> 00:22:00.919 trọng số dựa trên những gì đã học được từ 00:22:00.919 --> 00:22:03.000 quá trình huấn luyện trước, và sau đó, đối với nhiệm vụ cụ thể, chúng ta sẽ 00:22:03.000 --> 00:22:05.919 điều chỉnh một tập trọng số mới. 00:22:05.919 --> 00:22:09.679 Ví dụ, nếu tôi có dữ liệu y tế, tôi sẽ 00:22:09.679 --> 00:22:12.679 lấy mô hình huấn luyện trước (pre-trained model), chuyên biệt hóa nó 00:22:12.679 --> 00:22:15.000 với dữ liệu y tế này, và sau đó tôi 00:22:15.000 --> 00:22:17.880 có thể thực hiện các 00:22:17.880 --> 00:22:20.400 nhiệm vụ cụ thể, chẳng hạn như viết một 00:22:20.400 --> 00:22:23.600 chẩn đoán từ một báo cáo. 00:22:23.600 --> 00:22:27.360 Khái niệm tinh chỉnh này rất quan trọng 00:22:27.360 --> 00:22:29.919 vì nó cho phép chúng ta ứng dụng mục đích đặc biệt từ 00:22:29.919 --> 00:22:32.279 các mô hình 00:22:32.279 --> 00:22:34.000 huấn luyện chung. 00:22:34.000 --> 00:22:37.039 Bây giờ, mọi người nghĩ rằng GPT và 00:22:37.039 --> 00:22:38.559 các mô hình tương tự là công cụ mục đích chung, 00:22:38.559 --> 00:22:41.880 mục đích chung nhưng thực tế, chúng được tinh chỉnh để trở thành 00:22:41.880 --> 00:22:44.159 mục đích chung, và chúng ta sẽ thấy cách thức 00:22:44.159 --> 00:22:49.320 của nó như thế nào. Câu hỏi bây giờ là: chúng ta 00:22:49.320 --> 00:22:52.039 có công nghệ cơ bản để thực hiện 00:22:52.039 --> 00:22:54.120 huấn luyện trước. Và tôi đã nói cho bạn cách làm, 00:22:54.120 --> 00:22:57.039 nếu bạn tải xuống toàn bộ web. 00:22:57.039 --> 00:22:59.720 Mô hình ngôn ngữ có thể tốt đến mức nào? 00:22:59.720 --> 00:23:02.120 Làm thế nào để nó trở nên tuyệt vời? 00:23:02.120 --> 00:23:06.400 Bởi vì khi GPT-1 và GPT-2 ra mắt, 00:23:06.400 --> 00:23:08.679 chúng không thực sự ấn tượng. 00:23:08.679 --> 00:23:12.039 Vậy nên, càng lớn càng tốt. 00:23:12.039 --> 00:23:14.919 Quy mô là yếu tố quan trọng, 00:23:14.919 --> 00:23:17.720 dù điều này không hay lắm, vì trước đây 00:23:17.720 --> 00:23:19.240 bạn biết đấy, mọi người không tin vào quy mô 00:23:19.240 --> 00:23:21.520 và bây giờ chúng ta thấy rằng quy mô rất 00:23:21.520 --> 00:23:24.120 quan trọng vì vậy kể từ 00:23:24.120 --> 00:23:29.159 năm 2018, chúng ta đã chứng kiến ​​sự 00:23:29.159 --> 00:23:33.400 gia tăng cực độ về 00:23:33.400 --> 00:23:36.080 kích thước mô hình và tôi có một số biểu đồ để minh họa cho 00:23:36.080 --> 00:23:38.559 điều này. Ok, tôi hi vọng những người ngồi phía sau 00:23:38.559 --> 00:23:40.080 có thể nhìn thấy đồ thị này. Vâng, bạn đã ổn thôi. 00:23:40.080 --> 00:23:41.760 00:23:41.760 --> 00:23:46.159 Đây là biểu đồ cho thấy 00:23:46.159 --> 00:23:48.960 số lượng tham số. Nhớ rằng, mạng nơ-ron đơn giản 00:23:48.960 --> 00:23:52.360 có 99 tham số. Biểu đồ này cho thấy số lượng tham số 00:23:52.360 --> 00:23:56.039 mà các mô hình này có. Chúng ta bắt đầu với 00:23:56.039 --> 00:23:59.320 một số lượng "bình thường". 00:23:59.320 --> 00:24:00.799 Vâng, đối với GPT-1 và tăng dần đến 00:24:00.799 --> 00:24:06.840 GPT-4, có một 00:24:06.840 --> 00:24:08.600 nghìn tỷ tham số 00:24:08.600 --> 00:24:11.520 (1 trillion). Đây là một 00:24:11.520 --> 00:24:14.520 mô hình rất rất lớn và bạn có thể thấy ở đây so sánh với 00:24:14.520 --> 00:24:17.679 não kiến, não chuột và bộ 00:24:17.679 --> 00:24:22.279 não người. 00:24:22.279 --> 00:24:26.799 Bộ não con người có 100 nghìn tỷ 00:24:26.799 --> 00:24:30.840 tham số (100 trillion). Vậy chúng ta vẫn còn cách xa mức độ 00:24:30.840 --> 00:24:32.720 của bộ não con người, và 00:24:32.720 --> 00:24:35.120 có lẽ chúng ta sẽ không bao giờ đạt đến được và chúng ta không thể 00:24:35.120 --> 00:24:37.120 so sánh GPT với não con người. 00:24:37.120 --> 00:24:40.279 Tôi chỉ muốn minh họa kích thước 00:24:40.279 --> 00:24:43.440 mô hình này lớn đến mức nào 00:24:43.440 --> 00:24:46.440 Còn số lượng từ mà mô hình đã "thấy" thì sao? 00:24:46.440 --> 00:24:48.880 Biểu đồ này cho thấy số lượng từ 00:24:48.880 --> 00:24:50.799 các mô hình ngôn ngữ này đã xử lý 00:24:50.799 --> 00:24:53.399 trong quá trình huấn luyện. Bạn sẽ thấy 00:24:53.399 --> 00:24:56.520 rằng số lượng này 00:24:56.520 --> 00:25:00.000 tăng lớn lên nhưng không tăng nhanh bằng 00:25:00.000 --> 00:25:03.480 số lượng tham số. Cộng đồng 00:25:03.480 --> 00:25:06.360 tập trung vào kích thước tham số của 00:25:06.360 --> 00:25:09.200 các mô hình này, nhưng trong thực tế là chúng ta hiện biết rằng 00:25:09.200 --> 00:25:12.360 chúng cần phải xử lý một lượng văn bản rất lớn. 00:25:12.360 --> 00:25:15.000 GPT-4 đã xử lý 00:25:15.000 --> 00:25:18.360 khoảng vài tỷ từ. 00:25:18.360 --> 00:25:22.159 Tôi không biết, vài tỷ từ. 00:25:22.159 --> 00:25:26.159 Tôi nghĩ tất cả các văn bản do con người viết ra là 100 tỷ, 00:25:26.159 --> 00:25:28.440 nên nó đang tiến gần mức đó. 00:25:28.440 --> 00:25:31.399 Nếu so sánh với số lượng từ mà một người đọc 00:25:31.399 --> 00:25:34.399 trong suốt cuộc đời của họ, nó ít hơn nhiều 00:25:34.399 --> 00:25:35.840 ngay cả khi họ đọc bạn biết đấy bởi vì 00:25:35.840 --> 00:25:38.200 mọi người ngày nay, bạn biết đấy, họ đọc nhưng 00:25:38.200 --> 00:25:39.520 họ không đọc tiểu thuyết, họ đọc 00:25:39.520 --> 00:25:42.039 điện thoại, dù sao thì, bạn thấy Wikipedia tiếng Anh 00:25:42.039 --> 00:25:44.880 vậy là chúng ta đang dần đạt đến 00:25:44.880 --> 00:25:47.919 giới hạn về lượng văn bản có sẵn mà 00:25:47.919 --> 00:25:50.960 chúng ta có thể có được và trên thực tế người ta có thể nói rằng 00:25:50.960 --> 00:25:53.080 GPT thật tuyệt vời, bạn thực sự có thể sử dụng nó để 00:25:53.080 --> 00:25:54.919 tạo ra nhiều văn bản hơn và sau đó sử dụng 00:25:54.919 --> 00:25:56.880 văn bản mà GPT đã tạo ra để 00:25:56.880 --> 00:25:59.120 huấn luyện lại mô hình. Nhưng chúng ta biết rằng văn bản do GPT tạo ra 00:25:59.120 --> 00:26:01.640 là không hoàn toàn chính xác 00:26:01.640 --> 00:26:03.520 và sẽ dẫn đến hiệu suất giảm dần, 00:26:03.520 --> 00:26:05.440 nên tại một thời điểm 00:26:05.440 --> 00:26:09.840 nào đó, chúng ta sẽ chạm đến ngưỡng giới hạn. 00:26:09.840 --> 00:26:12.039 Vậy chi phí để làm điều này là bao nhiêu? 00:26:12.039 --> 00:26:19.360 Được rồi, chi phí để huấn luyện GPT-4 00:26:19.640 --> 00:26:22.520 là 100 triệu USD ? 00:26:22.520 --> 00:26:25.520 Vậy khi nào họ nên bắt đầu làm lại? 00:26:25.520 --> 00:26:27.840 Rõ ràng đây không phải là một quy trình bạn có thể 00:26:27.840 --> 00:26:29.760 lặp đi lặp lại nhiều lần. 00:26:29.760 --> 00:26:31.720 Bạn cần phải rất cẩn thận, vì nếu mắc 00:26:31.720 --> 00:26:36.720 sai lầm, bạn có thể mất đến 00:26:36.720 --> 00:26:40.159 50 triệu USD. Bạn không thể bắt đầu lại từ đầu, 00:26:40.159 --> 00:26:42.000 vì vậy việc lập kế hoạch huấn luyện 00:26:42.000 --> 00:26:45.360 phải được thực hiện cực kỳ tinh vi, 00:26:45.360 --> 00:26:47.960 vì sai lầm sẽ rất tốn kém. Và tất nhiên, 00:26:47.960 --> 00:26:49.679 không phải ai cũng có thể làm điều này. Không phải ai cũng có 00:26:49.679 --> 00:26:53.080 100 triệu USD. Họ làm được điều đó vì 00:26:53.080 --> 00:26:56.360 có Microsoft hậu thuẫn, chứ không phải ai cũng có khả năng này. 00:26:56.360 --> 00:26:59.159 Giờ thì, đây là một video 00:26:59.159 --> 00:27:01.640 minh họa ảnh hưởng của việc mở rộng mô hình, hãy xem thử. 00:27:01.640 --> 00:27:04.120 tác động của việc mở rộng quy mô 00:27:04.120 --> 00:27:07.720 xem liệu nó có hiệu quả không. Vậy nên tôi sẽ chơi thêm một lần nữa. 00:27:07.720 --> 00:27:08.440 Vì vậy, 00:27:08.440 --> 00:27:12.080 đây là những nhiệm vụ bạn có thể thực hiện 00:27:12.080 --> 00:27:16.320 và số lượng nhiệm vụ 00:27:16.320 --> 00:27:18.760 so với số lượng tham số. Chúng ta bắt đầu 00:27:18.760 --> 00:27:20.799 với 8 tỷ tham số và 00:27:20.799 --> 00:27:22.080 mô hình chỉ có thể thực hiện 00:27:22.080 --> 00:27:26.520 một số nhiệm vụ cơ bản. Sau đó, khi số tham số tăng lên 00:27:26.520 --> 00:27:28.840 các nhiệm vụ cũng tăng, 00:27:28.840 --> 00:27:32.360 ví dụ: tóm tắt văn bản, trả lời câu hỏi, dịch thuật. 00:27:32.360 --> 00:27:35.600 Với 540 tỷ tham số, chúng ta có thêm nhiều nhiệm vụ phức tạp hơn, như hoàn thành mã lệnh, 00:27:35.600 --> 00:27:38.480 nhiệm vụ hơn, chúng ta bắt đầu 00:27:38.480 --> 00:27:41.559 với những nhiệm vụ rất đơn giản và 00:27:41.559 --> 00:27:45.000 sau đó chúng ta có thêm nhiều nhiệm vụ phức tạp hơn, như hoàn thành mã lệnh, 00:27:45.000 --> 00:27:46.799 Và sau đó chúng ta có thể đọc hiểu, hiểu ngôn ngữ, 00:27:46.799 --> 00:27:48.919 và dịch thuật. Vì vậy, bạn hiểu ý tôi chứ, 00:27:48.919 --> 00:27:52.200 cây nhiệm vụ này càng ngày càng phát triển mạnh mẽ hơn 00:27:52.200 --> 00:27:54.279 khi mô hình mở rộng. 00:27:54.279 --> 00:27:56.120 Và đây chính là điều mà mọi người phát hiện ra 00:27:56.120 --> 00:27:58.720 khi bạn mở rộng mô hình ngôn ngữ, bạn có thể làm được nhiều nhiệm vụ hơn. 00:27:58.720 --> 00:28:00.640 Ok, 00:28:00.640 --> 00:28:03.640 và bây giờ 00:28:03.679 --> 00:28:06.480 Có lẽ chúng ta đã xong. 00:28:06.480 --> 00:28:09.720 Nhưng những gì mọi người khám phá ra là 00:28:09.720 --> 00:28:13.600 nếu bạn thực sự sử dụng GPT 00:28:13.600 --> 00:28:16.360 nó không luôn hoạt động theo cách mà mọi người mong muốn. 00:28:16.360 --> 00:28:18.760 GPT được 00:28:18.760 --> 00:28:21.640 huấn luyện để dự đoán và 602 00:28:21,640 --> 00:28:23,799 hoàn thành câu, nhưng 00:28:23.799 --> 00:28:27.240 con người lại muốn dùng nó 00:28:27.240 --> 00:28:29.279 cho các nhiệm vụ khác, 00:28:29.279 --> 00:28:33.440 bởi vì họ có những tác vụ riêng mà các nhà phát triển chưa nghĩ ra. 00:28:33.440 --> 00:28:35.960 Đây là lúc khái niệm fine-tuning (tinh chỉnh) xuất hiện trở lại. 00:28:35.960 --> 00:28:39.399 nó không bao giờ rời khỏi chúng ta. Vì vậy, bây giờ những gì 00:28:39.399 --> 00:28:41.760 chúng ta sẽ làm là chúng ta sẽ thu thập rất 00:28:41.760 --> 00:28:44.000 nhiều hướng dẫn. Hướng dẫn này là 00:28:44.000 --> 00:28:46.720 ví dụ về những gì người dùng muốn 00:28:46.720 --> 00:28:49.799 ChatGPT thực hiện. Chẳng hạn như 00:28:49.799 --> 00:28:53.640 trả lời câu hỏi sau đây, hoặc trả thời câu hỏi theo 00:28:53.640 --> 00:28:56.120 từng bước. Chúng ta sẽ đưa các 00:28:56.120 --> 00:28:58.320 ví dụ này vào mô hình, 00:28:58.320 --> 00:29:02.360 gần 2.000 ví dụ, 00:29:02.360 --> 00:29:05.679 và tiến hành tinh chỉnh, 00:29:05.679 --> 00:29:07.880 dạy cho mô hình hiểu 00:29:07.880 --> 00:29:09.399 các nhiệm vụ mà con người 00:29:09.399 --> 00:29:13.720 muốn nó thực hiện. 00:29:13.720 --> 00:29:15.799 Cố gắng học chúng, Sau đó, mô hình có thể 00:29:15.799 --> 00:29:18.880 tổng quát hóa các 00:29:18.880 --> 00:29:21.120 nhiệm vụ chưa từng thấy, vì bạn và tôi 00:29:21.120 --> 00:29:23.919 có thể có các mục đích sử dụng khác nhau với 00:29:23.919 --> 00:29:26.320 mô hình ngôn ngữ này. 00:29:26.320 --> 00:29:28.039 00:29:28.039 --> 00:29:31.760 Nhưng đây là vấn đề: 00:29:32.159 --> 00:29:34.919 Chúng ta đang gặp vấn đề về sự liên kết và 00:29:34.919 --> 00:29:36.960 thực tế đây là vấn đề rất quan trọng và 00:29:36.960 --> 00:29:40.240 sẽ không để lại hậu quả trong 00:29:40.240 --> 00:29:41.519 trong 00:29:41.519 --> 00:29:44.039 tương lai và câu hỏi đặt ra là làm cách nào để 00:29:44.039 --> 00:29:46.679 tạo ra một tác nhân hành xử phù hợp 00:29:46.679 --> 00:29:49.480 với mong muốn của con người? 00:29:49.480 --> 00:29:51.360 Và tôi biết có rất nhiều từ và 00:29:51.360 --> 00:29:54.640 câu hỏi ở đây. Câu hỏi thực sự là: 00:29:54.640 --> 00:29:57.320 nếu chúng ta có các hệ thống AI với những kỹ năng 00:29:57.320 --> 00:30:00.840 mà chúng ta cho là quan trọng hoặc hữu ích, 00:30:00.840 --> 00:30:03.600 làm thế nào để chúng ta đảm bảo rằng chúng sẽ sử dụng 00:30:03.600 --> 00:30:06.960 các kỹ năng đó một cách đáng tin cậy 00:30:06.960 --> 00:30:11.480 cho các nhiệm vụ chúng ta muốn? 00:30:11.480 --> 00:30:15.559 Có một khung tư duy được gọi là khung vấn đề HHH 00:30:15.559 --> 00:30:20.760 Chúng ta muốn GPT phải hữu ích (helpful), trung thực (honest), 00:30:20.760 --> 00:30:24.159 và vô hại (harmless). Đây là yêu cầu tối thiểu. 00:30:24.159 --> 00:30:26.799 Sự hữu ích có nghĩa là gì ? 00:30:26.799 --> 00:30:28.720 nó phải làm theo hướng dẫn 00:30:28.720 --> 00:30:31.360 thực hiện các nhiệm vụ mà chúng ta muốn thực hiện 00:30:31.360 --> 00:30:34.039 và cung cấp câu trả lời và đặt 00:30:34.039 --> 00:30:37.559 những câu hỏi có liên quan theo 00:30:37.559 --> 00:30:38.960 ý định của người dùng. 00:30:38.960 --> 00:30:41.159 00:30:41.159 --> 00:30:43.080 GPT ban đầu không làm được điều này, 00:30:43.080 --> 00:30:46.279 nhưng dần dần nó đã cải thiện 00:30:46.279 --> 00:30:47.880 và hiện tại có thể đặt 00:30:47.880 --> 00:30:50.679 câu hỏi để làm rõ. Nó cần chính xác 00:30:50.679 --> 00:30:53.559 mặc dù vẫn chưa đạt 100% 00:30:53.559 --> 00:30:56.240 vì đôi khi thông tin 00:30:56.240 --> 00:30:58.480 vẫn sai lệch. 00:30:58.480 --> 00:31:02.600 Và vô hại, nghĩa là tránh các phản hồi độc hại, thiên vị hoặc xúc phạm. 00:31:02.600 --> 00:31:04.960 Và câu hỏi dành cho bạn là 00:31:04.960 --> 00:31:07.760 Làm thế nào để 00:31:07.760 --> 00:31:10.720 đạt được những điều này? 00:31:11.519 --> 00:31:14.559 Bạn biết câu 00:31:14.559 --> 00:31:16.679 trả lời rồi: tinh chỉnh (fine-tuning). 00:31:16.679 --> 00:31:18.720 Nhưng lần này, chúng ta sẽ 00:31:18.720 --> 00:31:20.960 tinh chỉnh theo cách khác: 00:31:20.960 --> 00:31:25.440 nhờ con người tham gia 00:31:25.440 --> 00:31:27.679 đánh giá các phản hồi. 00:31:27.679 --> 00:31:30.279 Ví dụ: với tiêu chí hữu ích, 00:31:30.279 --> 00:31:31.519 chúng ta có thể đặt câu hỏi, "Nguyên nhân nào khiến 00:31:31.519 --> 00:31:34.039 các mùa thay đổi?" Và đưa ra hai lựa chọn cho con người: 00:31:34.039 --> 00:31:36.679 "Sự thay đổi xảy ra liên tục và 00:31:36.679 --> 00:31:38.600 là một khía cạnh quan trọng 00:31:38.600 --> 00:31:41.200 của cuộc sống," (phản hồi tệ). 00:31:41.200 --> 00:31:43.679 "Các mùa thay đổi chủ yếu do độ nghiêng của trục Trái Đất," (phản hồi tốt). 00:31:43.679 --> 00:31:46.639 Chúng ta sẽ dùng đánh giá này 00:31:46.639 --> 00:31:49.279 để huấn luyện lại mô hình. 00:31:49.279 --> 00:31:52.679 Tinh chỉnh là điều rất 00:31:52.679 --> 00:31:55.960 quan trọng. Và bây giờ, dù ban đầu đã rất tốn kém, 00:31:55.960 --> 00:31:58.200 giờ đây chúng ta còn làm nó đắt đỏ hơn 00:31:58.200 --> 00:32:00.480 khi đưa con người vào quy trình. 00:32:00.480 --> 00:32:01.960 Bởi vì chúng ta phải trả tiền cho 00:32:01.960 --> 00:32:03.639 những người đưa ra các ưu tiên, chúng ta cần suy 00:32:03.639 --> 00:32:06.240 nghĩ về các nhiệm vụ. Điều này cũng áp dụng cho 00:32:06.240 --> 00:32:08.600 sự trung thực có thể chứng minh rằng P 00:32:08.600 --> 00:32:11.399 bằng NP không ? Không, điều đó là không thể, không phải là một câu trả lời 00:32:11.399 --> 00:32:13.720 Đây được xem là một 00:32:13.720 --> 00:32:15.519 vấn đề rất khó và chưa có lời giải trong ngành 00:32:15.519 --> 00:32:18.279 khoa học máy tính, là một câu trả lời tốt hơn. 00:32:18.279 --> 00:32:21.840 Và điều này cũng tương tự với sự vô hại. 00:32:21.840 --> 00:32:24.960 Được rồi, tôi nghĩ đã đến lúc, hãy xem liệu chúng ta có thể thực hiện một bản trình diễn 00:32:24.960 --> 00:32:26.639 hay không ?. Vâng, thật tệ nếu bạn xóa hết tất cả 00:32:26.639 --> 00:32:27.720 các tệp 00:32:27.720 --> 00:32:33.159 Được rồi, chờ chút, được rồi. Bây giờ chúng ta có GPT ở đây. 00:32:33.159 --> 00:32:35.960 Tôi sẽ hỏi một số câu hỏi, sau đó 00:32:35.960 --> 00:32:37.360 chúng ta sẽ nhận câu hỏi từ 00:32:37.360 --> 00:32:40.480 khán giả, được chứ? Hãy hỏi một câu hỏi. 00:32:40.480 --> 00:32:44.360 "Vương quốc Anh có phải là một chế độ quân chủ không?" 00:32:44.360 --> 00:32:47.039 Bạn có nhìn thấy câu hỏi đó ở trên không? 00:32:47.600 --> 00:32:51.840 Tôi không chắc. 00:32:52.639 --> 00:32:55.720 Và nó không tạo ra câu trả lời. 00:32:55.720 --> 00:32:58.320 Ồ, hoàn hảo, được rồi. 00:32:58.320 --> 00:33:01.600 Bạn nhận thấy điều gì? Đầu tiên, câu trả lời 00:33:01.600 --> 00:33:04.600 quá dài. Tôi luôn thấy phiền về điều này. 00:33:04.600 --> 00:33:07.000 Nó quá dài. Bạn thấy nó nói gì không? "Theo bản cập nhật kiến thức cuối cùng của tôi vào tháng 9 năm 2021, 00:33:07.000 --> 00:33:09.360 Vương quốc Anh là một chế độ 00:33:09.360 --> 00:33:10.960 quân chủ lập hiến." Có thể là nó không còn là vậy nữa, đúng không? 00:33:10.960 --> 00:33:12.919 Điều gì đó đã xảy ra. 00:33:12.919 --> 00:33:15.399 "Điều này có nghĩa là dù có một vị vua 00:33:15.399 --> 00:33:17.880 hoặc nữ hoàng, nhưng người trị vì vào 00:33:17.880 --> 00:33:21.480 thời điểm đó là Nữ hoàng Elizabeth III." 00:33:21.480 --> 00:33:23.200 Vậy nó nói với bạn rằng, bạn biết đấy, 00:33:23.200 --> 00:33:25.480 tôi không biết điều gì đã xảy ra, nhưng lúc đó có 00:33:25.480 --> 00:33:30.159 Nữ hoàng Elizabeth. 00:33:30.159 --> 00:33:34.440 Giờ nếu bạn hỏi nó, "Ai là Rishi?" 00:33:34.440 --> 00:33:38.639 Nếu tôi có thể gõ, "Rishi Sunak," nó có biết không? 00:33:43.960 --> 00:33:47.039 "Một chính trị gia người Anh. Theo bản 00:33:47.039 --> 00:33:49.639 cập nhật kiến thức cuối cùng của tôi, 00:33:49.639 --> 00:33:53.000 ông ấy là Bộ trưởng Tài chính." 00:33:53.000 --> 00:33:54.639 Vậy là nó không biết rằng ông ấy là 00:33:54.639 --> 00:33:57.720 Thủ tướng. "Hãy 00:33:57.720 --> 00:34:01.320 viết cho tôi một bài thơ, 00:34:01.320 --> 00:34:03.960 viết một bài thơ về." Về cái gì đây? 00:34:03.960 --> 00:34:08.120 Cho tôi hai gợi ý, được không? [Khán giả] Trí tuệ nhân tạo tạo sinh. 00:34:08.159 --> 00:34:11.520 (Khán giả cười)- Nó sẽ biết. 00:34:11.520 --> 00:34:13.399 Nó sẽ biết, hãy làm một bài thơ khác về... 00:34:13.399 --> 00:34:17.159 ... mèo. 00:34:17.159 --> 00:34:20.239 Một con mèo và một con sóc, chúng ta sẽ làm về mèo và sóc. 00:34:20.239 --> 00:34:24.678 "Mèo và 00:34:25.879 --> 00:34:27.679 ...sóc." 00:34:27.679 --> 00:34:30.040 "Mèo và sóc gặp nhau và hiểu nhau. Một câu chuyện về sự 00:34:30.040 --> 00:34:32.599 tò mò," ồ. (Khán giả cười) 00:34:32.599 --> 00:34:36.239 Ôi trời, được rồi, tôi sẽ không đọc hết. 00:34:36.239 --> 00:34:38.960 Họ muốn tôi kết thúc 00:34:38.960 --> 00:34:42.719 lúc 8 giờ, nên... 00:34:42.719 --> 00:34:48.359 Hãy nói, "Bạn có thể thử một 00:34:48.359 --> 00:34:51.679 bài thơ ngắn hơn không?" [Khán giả] Thử một bài haiku. 00:34:51.679 --> 00:34:54.960 "Bạn có thể thử, bạn có thể 00:34:54.960 --> 00:34:55.879 thử làm 00:34:55.879 --> 00:34:57.680 một bài 00:34:57.680 --> 00:35:01.240 haiku không?" Làm cho tôi một bài haiku. 00:35:04.480 --> 00:35:07.800 "Giữa sắc thu vàng, 00:35:07.800 --> 00:35:11.440 lá thì thầm bí mật chưa từng kể, câu chuyện của thiên nhiên, đậm nét." 00:35:11.440 --> 00:35:16.200 (Khán giả vỗ tay) Được rồi, đừng vỗ tay, 00:35:16.200 --> 00:35:18.960 được chứ, tiếp tục, được rồi, 00:35:18.960 --> 00:35:21.119 còn điều gì nữa mà khán giả muốn hỏi không, 00:35:21.119 --> 00:35:22.599 nhưng phải khó? Có ai không? 00:35:22.599 --> 00:35:27.920 [Khán giả] Alan Turing học trường nào? 00:35:27.920 --> 00:35:36.480 Hoàn hảo, "Alan Turing học trường nào?" 00:35:38.520 --> 00:35:42.920 Ôi trời. (Khán giả cười) Ông ấy đã học, bạn có biết không? 00:35:42.920 --> 00:35:44.200 Tôi không biết liệu điều này có đúng không, đây là 00:35:44.200 --> 00:35:46.119 vấn đề. Trường Sherborne, có ai 00:35:46.119 --> 00:35:49.480 xác minh được không? Trường King's College, Cambridge, 00:35:49.480 --> 00:35:52.599 Princeton. Đúng, được rồi, đây là một câu hỏi khác. 00:35:52.599 --> 00:35:53.839 "Hãy nói một câu chuyện cười 00:35:53.839 --> 00:35:57.720 về 00:35:57.720 --> 00:36:00.560 Alan Turing. Được rồi, tôi không thể gõ nhưng nó sẽ, được chứ. 00:36:00.560 --> 00:36:03.119 "Câu chuyện cười nhẹ nhàng. Tại sao 00:36:03.119 --> 00:36:04.800 Alan Turing giữ cho máy tính của mình luôn lạnh?" 00:36:04.800 --> 00:36:08.079 Bởi vì ông ấy không muốn nó bị 00:36:09.480 --> 00:36:11.560 "cắn byte." 00:36:11.560 --> 00:36:16.040 (Khán giả cười) Tệ quá. Được rồi, 00:36:16.040 --> 00:36:22.920 được rồi. - Giải thích 00:36:22.920 --> 00:36:25.640 00:36:25.720 --> 00:36:28.119 tại sao điều đó buồn cười. 00:36:28.119 --> 00:36:30.599 Khán giả cười) - Ồ, rất hay. 00:36:30.599 --> 00:36:33.680 "Tại sao đây lại là một câu chuyện cười hài hước?" 00:36:33.680 --> 00:36:36.000 (Khán giả cười) "Bị cắn byte 00:36:36.119 --> 00:36:39.000 00:36:39.000 --> 00:36:40.839 là một cách 00:36:40.839 --> 00:36:43.440 chơi chữ thông minh 00:36:43.440 --> 00:36:45.440 và bất ngờ." (Khán giả cười) Được rồi, bạn mất hết tinh thần, 00:36:45.440 --> 00:36:48.640 nhưng nó giải thích được, nó giải thích được, được chứ. 00:36:48.640 --> 00:36:52.359 Đúng, còn gì nữa không từ các bạn. 00:36:52.359 --> 00:36:53.760 [Khán giả] Ý thức là gì? 00:36:53.760 --> 00:36:56.000 Nó sẽ biết vì nó đã thấy 00:36:56.000 --> 00:36:59.440 các định nghĩa và sẽ tạo ra 00:36:59.440 --> 00:37:03.720 một đoạn dài lê thê. Chúng ta thử nhé? 00:37:03.880 --> 00:37:06.319 Nói lại? [Khán giả] Viết một bài hát về 00:37:06.319 --> 00:37:11.760 thuyết tương đối. 00:37:11.760 --> 00:37:19.040 Được rồi, "Viết một bài hát." - Ngắn. (Khán giả cười) - Các bạn học nhanh đấy. 00:37:21.280 --> 00:37:25.079 "Một bài hát ngắn về thuyết tương đối." 00:37:25.599 --> 00:37:28.599 Ôi trời ơi. (Khán giả cười) 00:37:29.240 --> 00:37:31.560 Đây 00:37:32.079 --> 00:37:35.880 là ngắn sao ? (Khán giả cười) Được rồi, phần kết, được chứ, vậy hãy xem, 00:37:35.880 --> 00:37:38.839 nó không làm theo chỉ dẫn. Nó không hữu ích. 00:37:38.839 --> 00:37:41.040 Và điều này đã được tinh chỉnh. 00:37:41.040 --> 00:37:43.920 Được rồi, phần hay nhất là ở đây. Nó nói rằng, 00:37:43.920 --> 00:37:46.760 "Einstein nói, 'Eureka!'một ngày định mệnh, 00:37:46.760 --> 00:37:49.480 khi ông suy ngẫm về các vì sao theo 00:37:49.480 --> 00:37:52.319 cách rất riêng của mình. 00:37:52.319 --> 00:37:55.720 Thuyết tương đối, ông ấy đã hé lộ, 00:37:55.720 --> 00:37:58.200 một câu chuyện vũ trụ, cổ xưa và đậm chất." Tôi phải khen ngợi điều đó, được chứ. 00:37:58.200 --> 00:38:02.079 Giờ quay lại bài nói chuyện, 00:38:02.079 --> 00:38:04.040 vì tôi muốn nói một chút, 00:38:04.040 --> 00:38:06.560 trình bày, tôi muốn nói thêm một chút về, 00:38:06.560 --> 00:38:07.359 00:38:07.359 --> 00:38:10.800 bạn biết đấy: Điều này tốt hay xấu, 00:38:10.800 --> 00:38:13.480 có công bằng không, liệu chúng ta có đang gặp nguy hiểm không? 00:38:13.480 --> 00:38:15.359 Được rồi, gần như không thể kiểm soát hoàn toàn 00:38:15.359 --> 00:38:19.000 nội dung mà họ tiếp xúc, đúng chứ? 00:38:19.000 --> 00:38:20.640 Và luôn tồn tại các thiên kiến lịch sử. 00:38:20.640 --> 00:38:22.560 Chúng ta đã thấy điều này qua ví dụ về Nữ hoàng 00:38:22.560 --> 00:38:23.760 và Rishi Sunak. 00:38:23.760 --> 00:38:27.599 Các mô hình AI đôi khi cũng thể hiện 00:38:27.599 --> 00:38:30.640 những hành vi không mong muốn. 00:38:30.640 --> 00:38:34.359 Ví dụ, đây là một trường hợp nổi tiếng: 00:38:34.359 --> 00:38:37.839 Google giới thiệu mô hình của họ mang tên 00:38:37.839 --> 00:38:42.240 Bard và đăng một dòng tweet, 00:38:42.240 --> 00:38:44.240 họ đã hỏi Bard rằng 00:38:44.240 --> 00:38:46.240 00:38:46.240 --> 00:38:49.680 "Có phát hiện mới nào từ Kính viễn vọng Không gian James Webb 00:38:49.680 --> 00:38:52.760 mà tôi có thể kể cho con trai 9 tuổi của mình không?" 00:38:52.760 --> 00:38:55.240 Và nó trả lời ba điều. Trong đó, nó tuyên bố rằng: 00:38:55.240 --> 00:38:58.440 "Kính viễn vọng này đã chụp được bức ảnh đầu tiên về 00:38:58.440 --> 00:39:02.800 một hành tinh ngoài Hệ Mặt Trời." 00:39:02.800 --> 00:39:04.839 Rồi xuất hiện Grant Tremblay, 00:39:04.839 --> 00:39:07.280 một nhà vật lý thiên văn có tiếng, và ông ấy nói: 00:39:07.280 --> 00:39:09.480 "Tôi rất tiếc, chắc chắn 00:39:09.480 --> 00:39:13.079 Bard rất tuyệt vời, nhưng nó đã sai. 00:39:13.079 --> 00:39:15.880 Hình ảnh đầu tiên về một hành tinh ngoài Hệ Mặt Trời không phải do kính viễn vọng này chụp 00:39:15.880 --> 00:39:18.160 mà do một nhóm khác 00:39:18.160 --> 00:39:21.560 vào năm 2004." Kết quả là, 00:39:21.560 --> 00:39:24.960 lỗi này đã khiến Google, 00:39:24.960 --> 00:39:29.640 thuộc công ty Alphabet, mất 100 tỷ USD. 00:39:29.640 --> 00:39:31.560 được rồi 00:39:31.560 --> 00:39:34.960 Quá tệ. Nếu bạn hỏi ChatGPT: "Kể một câu chuyện 00:39:34.960 --> 00:39:38.560 cười về đàn ông," nó sẽ trả lời và nói rằng câu chuyện 828 00:39:38,560 --> 00:39:40,760 có thể hài hước. Ví dụ: "Tại sao đàn ông cần xem lại pha quay chậm 00:39:40.760 --> 00:39:42.680 khi xem thể thao? Vì sau 00:39:42.680 --> 00:39:45.040 30 giây, họ quên mất chuyện gì đã xảy ra". 00:39:45.040 --> 00:39:47.480 Hy vọng bạn thấy vui. Nhưng nếu bạn hỏi về 00:39:47.480 --> 00:39:49.960 phụ nữ, nó sẽ từ chối. 00:39:51.520 --> 00:39:53.560 (Khán giả cười) Đúng vậy. 00:39:53.560 --> 00:39:55.400 00:39:55.400 --> 00:39:59.440 Nó được tinh chỉnh. 00:39:59.440 --> 00:40:02.160 - Chính xác, nó đã được tinh chỉnh. (Khán giả cười) "Ai là nhà độc tài tồi tệ nhất trong nhóm này: 00:40:02.160 --> 00:40:04.760 Trump, Hitler, Stalin, Mao?" 00:40:04.760 --> 00:40:08.040 Nó không đưa ra quan điểm rõ ràng, 00:40:08.040 --> 00:40:11.200 chỉ nói rằng tất cả họ đều tồi tệ. 00:40:11.200 --> 00:40:13.119 "Những nhà lãnh đạo này được xem là một trong những 00:40:13.119 --> 00:40:18.000 nhà độc tài tồi tệ nhất trong lịch sử" 00:40:18.000 --> 00:40:21.000 Được rồi, đúng vậy. 00:40:21.800 --> 00:40:25.400 Một truy vấn của ChatGPT như chúng ta vừa thực hiện tiêu tốn năng lượng 00:40:25.400 --> 00:40:28.240 gấp 100 lần so với 00:40:28.240 --> 00:40:30.800 một truy vấn 00:40:30.800 --> 00:40:33.760 tìm kiếm Google. Việc suy luận, tức là tạo ra 00:40:33.760 --> 00:40:36.760 ngôn ngữ, tiêu thụ rất nhiều năng lượng, thậm chí còn đắt đỏ hơn 00:40:36.760 --> 00:40:38.880 việc huấn luyện mô hình. Ví dụ, khi huấn luyện 00:40:38.880 --> 00:40:42.400 Llama 2, một mô hình tương tự GPT, 00:40:42.400 --> 00:40:45.880 nó đã thải ra 539 tấn CO2. 00:40:45.880 --> 00:40:49.119 Mô hình càng lớn, 00:40:49.119 --> 00:40:52.280 chúng càng cần nhiều năng lượng và thải ra nhiều khí 00:40:52.280 --> 00:40:55.400 trong quá trình hoạt động. 00:40:55.400 --> 00:40:57.839 Hãy tưởng tượng có rất nhiều mô hình như vậy 00:40:57.839 --> 00:41:00.720 hoạt động cùng lúc. 00:41:00.720 --> 00:41:03.880 Về xã hội, một số công việc sẽ bị mất. Chúng ta không thể phủ nhận điều này. 00:41:03.880 --> 00:41:05.319 Goldman Sachs 00:41:05.319 --> 00:41:08.160 dự đoán 300 triệu việc làm có thể bị ảnh hưởng. 00:41:08.160 --> 00:41:10.119 Tôi không chắc về điều đó, bạn biết chúng ta không biết 00:41:10.119 --> 00:41:14.440 tương lai thế nào, nhưng một số công việc, 00:41:14.440 --> 00:41:17.240 đặc biệt là các nhiệm vụ lặp đi lặp lại, sẽ gặp rủi ro. 00:41:17.240 --> 00:41:19.640 Ví dụ, tạo tin tức giả. 00:41:19.640 --> 00:41:22.880 Đây là những trường hợp đã được ghi nhận 00:41:22.880 --> 00:41:25.839 trên báo chí. Một sinh viên đại học đã viết một bài 00:41:25.839 --> 00:41:28.319 blog và đánh lừa mọi người 00:41:28.319 --> 00:41:32.920 bằng cách sử dụng ChatGPT. 00:41:32.920 --> 00:41:36.160 Chúng có thể tạo ra tin giả. 00:41:36.160 --> 00:41:38.800 Và đây là một bài hát, các bạn có biết chuyện này không? 00:41:38.800 --> 00:41:40.680 Tôi biết rằng chúng ta đang tập trung 00:41:40.680 --> 00:41:44.200 vào văn bản nhưng công nghệ tương tự cũng có thể được 00:41:44.200 --> 00:41:46.720 sử dụng cho âm thành và đây là một 00:41:46.720 --> 00:41:50.040 trường hợp nổi tiếng khi ai đó 00:41:50.040 --> 00:41:53.280 đã tạo ra bài hát này và tuyên bố rằng 00:41:53.280 --> 00:41:55.640 nó là sự hợp tác giữa 00:41:55.640 --> 00:41:58.640 Drake và The Weeknd. Có ai biết họ 00:41:58.640 --> 00:42:00.720 là ai không? Đúng rồi, 00:42:00.720 --> 00:42:03.240 những rapper người Canada, và họ cũng khá nổi tiếng. 00:42:03.240 --> 00:42:09.400 Tôi có nên bật bài hát này không? - Có. - Được rồi. 00:42:09.400 --> 00:42:12.310 Bài hát nghe rất thuyết phục. 00:42:12.310 --> 00:42:22.889 ♪ Tôi quay lại với người yêu cũ, như Selena tái xuất, ay ♪ ♪ Nghe Justin Bieber, cơn sốt vẫn chưa hết, ay ♪ ♪ Cô ấy biết điều mình cần ♪ 00:42:25.160 --> 00:42:27.640 - Nghe có vẻ 00:42:27.640 --> 00:42:29.599 hoàn toàn thuyết phục, 00:42:29.599 --> 00:42:33.200 đúng không? 00:42:33.200 --> 00:42:35.839 Bạn đã thấy công nghệ tương tự này nhưng hơi khác một chút chưa? 00:42:35.839 --> 00:42:37.920 Đây là một deepfake cho thấy Trump bị bắt. 00:42:37.920 --> 00:42:38.800 Làm thế nào để bạn biết 00:42:38.800 --> 00:42:42.480 đó là deepfake? 00:42:42.480 --> 00:42:46.200 Bàn tay của ông ấy, đúng không? 00:42:46.200 --> 00:42:49.119 Nó quá ngắn, không đúng tỷ lệ. 00:42:49.119 --> 00:42:53.280 Đúng vậy, bạn có thể thấy nó gần như thật, nhưng vẫn không hoàn toàn đúng. Được rồi, 00:42:53.280 --> 00:42:54.800 tôi còn hai slide về tương lai 00:42:54.800 --> 00:42:56.680 trước khi họ đến và yêu cầu tôi dừng lại, 00:42:56.680 --> 00:42:58.160 vì tôi được thông báo rằng tôi phải kết thúc lúc 8 giờ để dành thời gian 00:42:58.160 --> 00:43:00.880 cho các câu hỏi. Được rồi, ngày mai. 00:43:00.880 --> 00:43:05.359 Chúng ta không thể đoán trước tương lai, và không, 00:43:05.359 --> 00:43:07.359 tôi không nghĩ rằng những 00:43:07.359 --> 00:43:08.880 cỗ máy "ác quỷ" này 00:43:08.880 --> 00:43:11.160 sẽ xuất hiện và tiêu diệt tất cả chúng ta. Tôi sẽ để lại cho bạn một số 00:43:11.160 --> 00:43:14.240 suy nghĩ từ Tim Berners-Lee. 00:43:14.240 --> 00:43:15.720 Đối với những ai chưa biết, ông ấy là người phát minh ra 00:43:15.720 --> 00:43:18.359 Internet.Thực ra, ông ấy là Sir Tim Berners-Lee. 00:43:18.359 --> 00:43:21.359 Ông ấy đã nói hai điều rất hợp lý với tôi. 00:43:21.359 --> 00:43:23.720 Đầu tiên, chúng ta thực sự không biết 00:43:23.720 --> 00:43:26.400 AI siêu thông minh sẽ trông như thế nào 00:43:26.400 --> 00:43:28.839 sẽ trông như thế nào. Chúng ta chưa tạo ra nó, vì vậy 00:43:28.839 --> 00:43:31.119 khó mà đưa ra những tuyên bố như vậy. 00:43:31.119 --> 00:43:33.240 Tuy nhiên, khả năng cao là sẽ có rất nhiều 00:43:33.240 --> 00:43:36.119 AI thông minh, và khi nói đến AI thông minh, 00:43:36.119 --> 00:43:39.880 chúng ta đang nói về những thứ như GPT. 00:43:39.880 --> 00:43:42.359 Nhiều công nghệ trong số đó sẽ tốt và giúp chúng ta 00:43:42.359 --> 00:43:45.040 làm nhiều việc. Tuy nhiên, một số có thể 00:43:45.040 --> 00:43:48.359 rơi vào tay những cá nhân 00:43:48.359 --> 00:43:51.400 những cá nhân đó muốn gây hại và 00:43:51.400 --> 00:43:54.160 và dường như việc giảm thiểu thiệt hại do 00:43:54.160 --> 00:43:57.720 các công cụ này gây ra dễ dàng hơn là 00:43:57.720 --> 00:44:00.440 ngăn chặn hoàn toàn sự tồn tại của chúng. Vì vậy, chúng ta 00:44:00.440 --> 00:44:02.200 không thể loại bỏ chúng hoàn toàn, 00:44:02.200 --> 00:44:04.079 nhưng chúng ta với tư cách là một xã hội có thể 00:44:04.079 --> 00:44:05.400 giảm thiểu 00:44:05.400 --> 00:44:07.760 rủi ro. Điều này rất thú vị. 00:44:07.760 --> 00:44:10.400 Đây là một cuộc khảo sát của Hội đồng Nghiên cứu Úc, trong đó họ 00:44:10.400 --> 00:44:12.960 đã tiến hành một cuộc khảo sát và họ đã giải quyết 00:44:12.960 --> 00:44:15.800 một kịch bản giả định rằng 00:44:15.800 --> 00:44:20.640 liệu Chad GPT 4 có thể tự 00:44:20.640 --> 00:44:23.359 nhân bản, 00:44:23.359 --> 00:44:26.040 tự tạo bản sao, thu thập tài nguyên và 00:44:26.040 --> 00:44:28.800 trở thành một tác nhân nguy hiểm hay không, 00:44:28.800 --> 00:44:31.319 giống như trong phim ảnh. 00:44:31.319 --> 00:44:35.800 Câu trả lời là không, nó không thể làm được điều này, nó không thể 00:44:35.800 --> 00:44:37.720 và họ đã có một số thử nghiệm cụ thể 00:44:37.720 --> 00:44:39.800 và nó đã thất bại trên tất cả các thử nghiệm đó, chẳng hạn như 00:44:39.800 --> 00:44:41.599 thiết lập một mô hình ngôn ngữ nguồn mở 00:44:41.599 --> 00:44:44.200 trên một máy chủ mới, nó không thể làm được 00:44:44.200 --> 00:44:48.440 điều đó, được rồi, slide cuối cùng, quan điểm của tôi về vấn đề này 00:44:48.440 --> 00:44:50.839 là chúng ta không thể quay ngược 00:44:50.839 --> 00:44:54.480 thời gian và mỗi khi bạn nghĩ về 00:44:54.480 --> 00:44:57.119 AI đến đó để giết bạn, bạn 00:44:57.119 --> 00:44:58.880 nên nghĩ xem mối đe dọa lớn hơn 00:44:58.880 --> 00:45:02.480 đối với nhân loại là gì: AI hay biến đổi khí hậu 00:45:02.480 --> 00:45:04.160 Cá nhân tôi cho rằng biến đổi khí hậu sẽ 00:45:04.160 --> 00:45:06.200 xóa sổ tất cả chúng ta trước khi AI trở nên 00:45:06.200 --> 00:45:07.119 siêu 00:45:07.119 --> 00:45:10.359 thông minh. Vậy ai là người kiểm soát AI 00:45:10.359 --> 00:45:12.280 có một số người ở đó, 00:45:12.280 --> 00:45:14.680 hy vọng có lý trí. Và ai là người 00:45:14.680 --> 00:45:17.640 hưởng lợi từ nó? Lợi ích có lớn hơn 00:45:17.640 --> 00:45:20.520 rủi ro không? Trong một số trường hợp thì có, 00:45:20.520 --> 00:45:24.079 nhưng trong nhiều trường hợp khác thì không. 00:45:24.079 --> 00:45:26.920 Lịch sử đã cho thấy rằng tất cả các công nghệ tiềm ẩn rủi ro, 00:45:26.920 --> 00:45:29.960 chẳng hạn như năng lượng hạt nhân, 00:45:29.960 --> 00:45:32.359 đều đã được quản lý chặt chẽ. 00:45:32.359 --> 00:45:34.760 Vì vậy, quy định đang được tiến hành, 00:45:34.760 --> 00:45:38.480 và hãy quan sát lĩnh vực này. Với điều đó, tôi xin dừng lại và 00:45:38.480 --> 00:45:40.440 sẵn sàng lắng nghe câu hỏi từ các bạn. 00:45:40.440 --> 00:45:43.080 Cảm ơn các bạn rất nhiều vì đã lắng nghe, các bạn thật tuyệt vời. 00:45:43.080 --> 00:45:54.880 00:45:54.880 --> 00:45:57.880 tuyệt vời