WEBVTT

00:00:06.470 --> 00:00:09.400
[Âm nhạc]

00:00:09.400 --> 00:00:12.040
[Vỗ tay]

00:00:12.040 --> 00:00:16.119
Wow, đông quá nhỉ. Tốt, cảm ơn 

00:00:16.119 --> 00:00:20.640
vì lời giới thiệu đáng yêu đó.

00:00:20.640 --> 00:00:22.680


00:00:22.680 --> 00:00:25.160
Được rồi, vậy 

00:00:25.160 --> 00:00:28.279
trí tuệ nhân tạo sáng tạo (generative artificial intelligence) là gì? 

00:00:28.279 --> 00:00:30.199
tôi muốn phần này có tính tương tác một chút

00:00:30.199 --> 00:00:32.200
vì vậy sẽ có phần tham gia 

00:00:32.200 --> 00:00:34.920
tham gia từ những người ở đây

00:00:34.920 --> 00:00:36.960
Những người tổ chức buổi giảng này nói với tôi, "Oh, bạn là người 

00:00:36.960 --> 00:00:40.120
ít hiểu biết về công nghệ đối với một người làm việc về AI."

00:00:40.120 --> 00:00:42.039
Tôi không có vụ nổ hay 

00:00:42.039 --> 00:00:44.640
thí nghiệm nào nên tôi e rằng bạn sẽ phải

00:00:44.640 --> 00:00:47.600
tham gia vào. hy vọng điều đó không sao chứ. Được rồi,

00:00:47.600 --> 00:00:50.079
vậy trí tuệ nhân tạo tạo sinh là gì,

00:00:50.079 --> 00:00:53.680
thuật ngữ này được tạo thành

00:00:53.680 --> 00:00:56.680
từ hai thứ: trí tuệ nhân tạo

00:00:56.680 --> 00:00:58.800
và tạo sinh, 

00:00:58.800 --> 00:01:02.440
trí tuệ nhân tạo là một thuật ngữ hoa mỹ để nói rằng

00:01:02.440 --> 00:01:04.959
chúng ta có một chương trình máy tính để thực hiện công việc

00:01:04.959 --> 00:01:07.880
mà con người sẽ làm và

00:01:07.880 --> 00:01:10.520
tạo sinh  đây là phần thú vị chúng ta đang

00:01:10.520 --> 00:01:14.040
tạo ra nội dung mới mà máy tính

00:01:14.040 --> 00:01:16.560
chưa chắc đã thấy, nó có thể thấy

00:01:16.560 --> 00:01:19.159
một phần nào đó của nội dung đó và nó có thể tổng hợp nội

00:01:19.159 --> 00:01:22.119
dung đó và cung cấp cho chúng ta những điều mới, vậy

00:01:22.119 --> 00:01:25.439
nội dung mới này sẽ là gì, có thể là âm thanh,

00:01:25.439 --> 00:01:27.920
có thể là mã nguồn máy tính  để tạo ra

00:01:27.920 --> 00:01:31.240
một chương trình cho chúng ta, nó có thể là một hình ảnh mới,

00:01:31.240 --> 00:01:33.720
nó có thể là một đoạn văn bản như email hoặc một

00:01:33.720 --> 00:01:37.079
bài luận mà bạn đã nghe  hay video. Trong

00:01:37.079 --> 00:01:39.680
bài giảng này tôi sẽ chỉ

00:01:39.680 --> 00:01:41.840
tập trung chủ yếu vào văn bản vì tôi làm về

00:01:41.840 --> 00:01:43.119
xử lý ngôn ngữ tự nhiên và đó là lĩnh vực mà tôi

00:01:43.119 --> 00:01:46.840
hiểu biết rõ nhất và chúng ta sẽ xem

00:01:46.840 --> 00:01:50.079
công nghệ hoạt động như thế nào và hy vọng là

00:01:50.079 --> 00:01:53.960
sau bài giảng này các bạn biết sẽ hiểu rằng dù có

00:01:53.960 --> 00:01:55.759
có rất nhiều huyền thoại xung quanh nó, 

00:01:55.759 --> 00:01:59.200
nhưng thật ra nó

00:01:59.200 --> 00:02:01.159
chỉ là một công cụ mà thôi, được chứ ?

00:02:01.159 --> 00:02:03.960
Được rồi, vậy phần bố cục của bài giảng 

00:02:03.960 --> 00:02:05.200
có ba phần và nó hơi

00:02:05.200 --> 00:02:09.199
nhàm chán. Đây là Alice Morse Earle. Tôi không

00:02:09.199 --> 00:02:11.959
hi vọng các bạn biết người phụ nữ này,  bà là một

00:02:11.959 --> 00:02:16.400
nhà văn người Mỹ và bà viết về

00:02:16.400 --> 00:02:19.720
kỷ vật và phong tục nhưng bà nổi tiếng

00:02:19.720 --> 00:02:22.120
với những câu trích dẫn của mình Ví dụ như câu này:

00:02:22.120 --> 00:02:24.319
 "Hôm qua là lịch sử, 

00:02:24.319 --> 00:02:26.640
ngày mai là bí ẩn, hôm nay là một món quà

00:02:26.640 --> 00:02:28.040
và đó là lý do tại sao nó được gọi là hiện tại"

00:02:28.040 --> 00:02:31.280
Đây là một câu trích dẫn rất lạc quan  và

00:02:31.280 --> 00:02:34.560
bài giảng về cơ bản là về quá khứ,

00:02:34.560 --> 00:02:38.800
hiện tại và tương lai của AI, được rồi,

00:02:38.800 --> 00:02:41.560
điều tôi muốn nói ngay từ đầu

00:02:41.560 --> 00:02:45.480
là AI tạo sinh không phải là một

00:02:45.480 --> 00:02:50.599
khái niệm mới, nó đã tồn tại từ khá lâu rồi. Vậy có

00:02:50.599 --> 00:02:53.360
bao nhiêu người trong số các bạn đã sử dụng hoặc đang sử dụng

00:02:53.360 --> 00:02:56.560
quen thuộc với Google dịch ? Cho tôi xem

00:02:56.560 --> 00:03:00.480
cánh tay nào? Được rồi, ai có thể cho tôi biết

00:03:00.480 --> 00:03:02.879
Google dịch ra mắt

00:03:02.879 --> 00:03:04.440


00:03:04.440 --> 00:03:06.239
lần đầu tiên là khi nào ?

00:03:06.239 --> 00:03:10.400
Năm 1995 ? Ồ, điều đó sẽ tốt đây. Năm 2006,

00:03:10.400 --> 00:03:14.599
tức là nó đã tồn tại được 17 năm rồi và

00:03:14.599 --> 00:03:16.680
tất cả chúng ta đã sử dụng nó và đây là một

00:03:16.680 --> 00:03:19.080
ví dụ về AI tạo sinh, văn bản tiếng Hy Lạp

00:03:19.080 --> 00:03:21.959
được nhập vào (Tôi là người Hy Lạp, nên bạn biết đấy, hãy dành chút tình cảm

00:03:21.959 --> 00:03:26.680
Đúng vậy, đoạn văn bản tiếng Hy Lạp đã được nhập vào và

00:03:26.680 --> 00:03:29.799
đoạn văn bản tiếng Anh xuất hiện và Google

00:03:29.799 --> 00:03:31.720
dịch đã phục vụ chúng ta rất tốt trong

00:03:31.720 --> 00:03:34.200
suốt những năm qua và không ai làm

00:03:34.200 --> 00:03:39.200
ầm lên về nó cả. Một ví dụ khác là Siri

00:03:39.200 --> 00:03:43.080
trên điện thoại. Siri

00:03:43.080 --> 00:03:45.239
đã ra mắt vào

00:03:45.239 --> 00:03:50.480
năm 2011, 12 năm trước và nó đã trở thành một hiện tượng

00:03:50.480 --> 00:03:52.720
Đây cũng là một ví dụ khác về

00:03:52.720 --> 00:03:55.280
AI tạo sinh, chúng ta có thể yêu cầu Siri đặt

00:03:55.280 --> 00:03:59.120
báo thức và Siri sẽ trả lời lại, thật

00:03:59.120 --> 00:04:00.200
tuyệt vời,

00:04:00.200 --> 00:04:01.920
bạn có thể hỏi về báo thức

00:04:01.920 --> 00:04:03.959
hoặc bất cứ thứ gì khác, đây chính là AI tạo sinh,

00:04:03.959 --> 00:04:06.560
Dù không tinh vi như Chat GPT, 

00:04:06.560 --> 00:04:09.000
nhưng nó đã xuất hiện từ trước rồi và không biết có bao

00:04:09.000 --> 00:04:10.799
nhiêu người trong số các bạn dùng

00:04:10.799 --> 00:04:14.640
iPhone? Xem kìa, iPhone khá phổ biến. Tôi

00:04:14.640 --> 00:04:18.238
không hiểu tại sao. Được rồi, vậy là chúng ta đều

00:04:18.238 --> 00:04:20.358
quen thuộc với nó và tất nhiên

00:04:20.358 --> 00:04:23.040
sau đó có Amazon Alexa và nhiều thứ khác nữa. Vậy một lần nữa,

00:04:23.040 --> 00:04:27.320
AI tạo sinh  Không phải là một

00:04:27.320 --> 00:04:30.280
khái niệm mới, nó ở khắp mọi nơi, nó là một phần của

00:04:30.280 --> 00:04:33.039
điện thoại của bạn. Tính năng  hoàn thành tự động khi bạn

00:04:33.039 --> 00:04:35.199
gửi email hoặc khi bạn gửi email hoặc

00:04:35.199 --> 00:04:39.400
tin nhắn. Điện thoại cố gắng hoàn thành

00:04:39.400 --> 00:04:42.280
câu của bạn, cố gắng suy nghĩ giống như

00:04:42.280 --> 00:04:44.639
bạn và nó giúp bạn tiết kiệm thời gian, đúng chứ ? vì

00:04:44.639 --> 00:04:46.680
một số gợi ý đã có sẵn rồi

00:04:46.680 --> 00:04:48.479
Tương tự như với Google, khi bạn nhập liệu,

00:04:48.479 --> 00:04:50.520
nó cố gắng đoán từ khóa tìm kiếm của bạn

00:04:50.520 --> 00:04:53.199
Đây là một ví dụ về

00:04:53.199 --> 00:04:55.120
mô hình ngôn ngữ, chúng ta sẽ nghe rất nhiều về

00:04:55.120 --> 00:04:58.080
mô hình ngôn ngữ trong bài nói chuyện này, vì vậy về cơ bản chúng ta đang

00:04:58.080 --> 00:04:59.880
đưa ra dự đoán về những gì

00:04:59.880 --> 00:05:03.680
tiếp theo sẽ như thế nào. Vì vậy,

00:05:03.680 --> 00:05:05.840
điều tôi muốn nói với bạn là AI tạo sinh

00:05:05.840 --> 00:05:08.960
không hẳn là mới mẻ. Vậy vấn đề là gì, tại sao mọi người lại bàn tán xôn xao

00:05:08.960 --> 00:05:11.080
chuyện gì đã xảy ra ?

00:05:11.080 --> 00:05:13.840
vào năm

00:05:13.840 --> 00:05:17.759
2023, Open AI mở một công ty ở

00:05:17.759 --> 00:05:19.720
California thực tế là ở San Francisco. Nếu

00:05:19.720 --> 00:05:21.560
bạn đến San Francisco, bạn thậm chí có thể nhìn thấy

00:05:21.560 --> 00:05:24.840
ánh đèn của tòa nhà họ vào ban đêm

00:05:24.840 --> 00:05:26.639
Họ đã công bố

00:05:26.639 --> 00:05:31.080
GPT-4 và tuyên bố rằng nó có thể vượt quá 90%

00:05:31.080 --> 00:05:34.199
con người trong bài kiểm tra SAT. Đối với 

00:05:34.199 --> 00:05:36.919
những ai chưa biết, SAT là một

00:05:36.919 --> 00:05:39.759
bài kiểm tra tiêu chuẩn mà học sinh ở Mỹ

00:05:39.759 --> 00:05:41.840
phải làm để vào Đại học. Đó là một

00:05:41.840 --> 00:05:44.520
bài kiểm tra tuyển sinh và đó là bài trắc nghiệm

00:05:44.520 --> 00:05:48.759
được xem là không dễ. Vậy mà GPT-4

00:05:48.759 --> 00:05:50.919
có thể làm được, họ cũng tuyên bố rằng nó có thể

00:05:50.919 --> 00:05:54.840
đạt điểm cao trong các kỳ thi luật, y khoa

00:05:54.840 --> 00:05:57.160
và các kỳ thi khác. Họ có cả một loạt các kết quả

00:05:57.160 --> 00:05:59.880
mà họ không chỉ tuyên bố mà còn 

00:05:59.880 --> 00:06:03.520
chứng minh rằng GPT-4 có thể làm được.

00:06:03.520 --> 00:06:07.360
Ngoài việc nó có thể vượt qua các kỳ thi

00:06:07.360 --> 00:06:10.520
chúng ta có thể yêu cầu nó làm những việc khác. Ví dụ, bạn

00:06:10.520 --> 00:06:14.199
có thể yêu cầu nó viết văn bản cho bạn. Chẳng

00:06:14.199 --> 00:06:17.560
hạn bạn có thể đưa ra một "prompt" (yêu cầu)

00:06:17.560 --> 00:06:19.440
cái mà bạn thấy trên kia, 

00:06:19.440 --> 00:06:22.400
đó chính là prompt. Đó chính là những gì con người muốn

00:06:22.400 --> 00:06:24.960
công cụ thực hiện cho họ. Một

00:06:24.960 --> 00:06:26.919
prompt có thể là: "Tôi đang viết một  bài luận

00:06:26.919 --> 00:06:28.880
về việc sử dụng điện thoại di động khi

00:06:28.880 --> 00:06:31.199
lái xe. Bạn có thể đưa ra cho tôi ba luận điểm

00:06:31.199 --> 00:06:34.160
ủng hộ điều này không ? Nếu
137
00:06:34,160 --&gt; 00:06:36,199
bạn hỏi tôi, tôi không chắc tôi có thể đưa ra

00:06:36.199 --> 00:06:38.919
ba luận điểm. Bạn cũng có thể yêu cầu, và

00:06:38.919 --> 00:06:41.080
đây là những yêu cầu thực sự mà 

00:06:41.080 --> 00:06:44.960
công cụ  có thể làm. Bạn nói với Chat GPT hoặc GPT nói

00:06:44.960 --> 00:06:47.080
chung hoạt động như một lập trình viên JavaScript.

00:06:47.080 --> 00:06:48.599
Viết một chương trình kiểm tra

00:06:48.599 --> 00:06:51.560
thông tin trên biểu mẫu. Tên và email là

00:06:51.560 --> 00:06:53.720
bắt buộc, nhưng địa chỉ và tuổi thì không. "Vậy là

00:06:53.720 --> 00:06:56.639
tôi chỉ cần viết điều này và công cụ sẽ

00:06:56.639 --> 00:06:59.199
đưa ra  một chương trình và đây là điều thú vị nhất:

00:06:59.199 --> 00:07:02.560
"Tạo một trang giới thiệu về tôi" cho một

00:07:02.560 --> 00:07:05.560
trang web. Tôi thích leo núi,

00:07:05.560 --> 00:07:07.919
thể thao ngoài trời và lập trình. Tôi bắt đầu

00:07:07.919 --> 00:07:09.840
sự nghiệp của mình với vai trò kỹ sư chất lượng trong

00:07:09.840 --> 00:07:13.360
ngành blah blah blah. Tôi cung cấp thông tin

00:07:13.360 --> 00:07:16.280
phiên bản như vậy về những gì tôi muốn trên website, và công cụ

00:07:16.280 --> 00:07:18.520
sẽ tạo ra nó cho

00:07:18.520 --> 00:07:20.160
tôi.

00:07:20.160 --> 00:07:23.360
Vậy, bạn thấy đấy, chúng ta đã đi từ Google

00:07:23.360 --> 00:07:24.840
dịch và Siri và tính năng

00:07:24.840 --> 00:07:26.479
hoàn thành tự động đến một thứ 

00:07:26.479 --> 00:07:28.840
phức tạp hơn rất nhiều và có thể làm được nhiều hơn nữa

00:07:28.840 --> 00:07:31.080


00:07:31.080 --> 00:07:34.680
Một sự thật thú vị nữa. Đây là biểu đồ

00:07:34.680 --> 00:07:40.879
cho thấy thời gian cần thiết để chat GPT

00:07:40.879 --> 00:07:44.400
đạt được 100 triệu người dùng so

00:07:44.400 --> 00:07:46.120
với các công cụ khác đã ra mắt

00:07:46.120 --> 00:07:49.039
trong quá khứ và bạn thấy Google dịch, công cụ mà chúng ta yêu thích 

00:07:49.039 --> 00:07:53.840
phải mất 78 tháng để

00:07:53.840 --> 00:07:58.280
đạt được 100 triệu người dùng. Một khoảng thời gian dài.

00:07:58.280 --> 00:08:02.680
Tik Tok chỉ mất 9 tháng và Chat GPT chỉ mất

00:08:02.680 --> 00:08:05.840
2 tháng. Chi trong vòng hai tháng, họ đã có 100

00:08:05.840 --> 00:08:10.759
triệu người dùng và những người dùng này trả một

00:08:10.759 --> 00:08:13.960
ít tiền để sử dụng hệ thống, bạn có thể

00:08:13.960 --> 00:08:15.599
nhân lên và tính xem họ kiếm được

00:08:15.599 --> 00:08:19.400
bao nhiêu tiền. Được rồi,

00:08:19.400 --> 00:08:25.039
đây là phần lịch sử. Vậy làm thế nào để 

00:08:25.039 --> 00:08:29.240
chúng ta tạo ra Chat GPT ?

00:08:29.240 --> 00:08:31.479
Công nghệ nào đứng sau nó ? Hóa ra, công nghệ này

00:08:31.479 --> 00:08:34.120
không phải quá mới hoặc

00:08:34.120 --> 00:08:36.440
cực kỳ sáng tạo hoặc cực kỳ

00:08:36.440 --> 00:08:37.519
khó hiểu

00:08:37.519 --> 00:08:39.839
Vậy nên, hôm nay chúng ta 

00:08:39.839 --> 00:08:41.159
sẽ nói về

00:08:41.159 --> 00:08:45.360
điều đó. Chúng ta sẽ giải quyết ba câu hỏi

00:08:45.360 --> 00:08:46.920
Trước hết là làm thế nào chúng ta chuyển từ các

00:08:46.920 --> 00:08:49.399
hệ thống chỉ có một mục đích đơn lẻ như Google

00:08:49.399 --> 00:08:51.880
Dịch sang Chat GPT,

00:08:51.880 --> 00:08:54.680
một công cụ tinh vi hơn và làm được nhiều việc hơn,

00:08:54.680 --> 00:08:56.640
cụ thể, 

00:08:56.640 --> 00:08:59.480
công nghệ cốt lõi đằng sau Chat GPT là gì và

00:08:59.480 --> 00:09:02.079
rủi ro nếu có là gì và cuối cùng tôi

00:09:02.079 --> 00:09:04.640
sẽ chỉ cho bạn thấy cái nhìn thoáng qua về

00:09:04.640 --> 00:09:06.760
tương lai, cách mà nó sẽ trông như thế nào

00:09:06.760 --> 00:09:08.720
và liệu chúng ta có nên lo lắng hay

00:09:08.720 --> 00:09:12.760
không và bạn biết đấy tôi sẽ không để bạn phải băn

00:09:12.760 --> 00:09:16.600
khoăn đâu đừng lo lắng, được

00:09:16.600 --> 00:09:18.959
chứ ? 

00:09:18.959 --> 00:09:22.959
Vậy tất cả các biến thể mô hình GPT này và

00:09:22.959 --> 00:09:24.880
có một ngành công nghiệp nhỏ đang nổi lên,

00:09:24.880 --> 00:09:27.760
tôi chỉ lấy GPT làm ví dụ

00:09:27.760 --> 00:09:30.079
công chúng đã biết đến nó

00:09:30.079 --> 00:09:32.440
và có rất nhiều 

00:09:32.440 --> 00:09:34.279
các bài báo về nó, nhưng còn có

00:09:34.279 --> 00:09:36.240
những mô hình khác, các biến thể khác của mô hình mà chúng ta

00:09:36.240 --> 00:09:39.519
sử dụng trong học thuật. Tất cả chúng đều hoạt động dựa trên

00:09:39.519 --> 00:09:41.519
cùng một nguyên tắc, và nguyên tắc này được

00:09:41.519 --> 00:09:44.160
gọi là mô hình hóa ngôn ngữ

00:09:44.160 --> 00:09:47.440
Mô hình hóa ngôn ngữ làm gì nó giả định rằng chúng ta có

00:09:47.440 --> 00:09:51.399
một chuỗi các từ ngữ. Đó là ngữ cảnh cho đến nay

00:09:51.399 --> 00:09:52.920
và chúng ta đã thấy điều này trong tính năng

00:09:52.920 --> 00:09:55.760
hoàn thành tự động. tôi có một ví dụ ở đây

00:09:55.760 --> 00:10:00.160
Giả sử ngữ cảnh của tôi là cụm từ "Tôi muốn".

00:10:00.160 --> 00:10:03.240
công cụ mô hình hóa ngôn ngữ sẽ

00:10:03.240 --> 00:10:06.440
dự đoán những gì xảy ra tiếp theo. Vì vậy nếu tôi nói

00:10:06.440 --> 00:10:09.320
"Tôi muốn" sẽ có một số dự đoán:"Tôi

00:10:09.320 --> 00:10:12.040
muốn xúc tuyết", "Tôi muốn chơi", "Tôi muốn

00:10:12.040 --> 00:10:14.880
bơi", "Tôi muốn ăn" và tùy thuộc vào những gì

00:10:14.880 --> 00:10:17.600
chúng ta chọn là "xúc tuyết" sẽ tiếp tục với "tuyết", 

00:10:17.600 --> 00:10:21.880
còn nhiều phần tiếp theo nữa. Vi vậy,

00:10:21.880 --> 00:10:25.240
đối với "xẻng" thì sẽ là "tuyết", "chơi" thì

00:10:25.240 --> 00:10:27.800
có thể tiếp tục với "tennis" hoặc "trò choi video", "bơi" không có phần tiếp theo và "ăn" 

00:10:27.800 --> 00:10:30.240
có thể tiếp tục với "nhiều thứ" hoặc 

00:10:30.240 --> 00:10:33.800
"trái cây". Đây là một ví dụ đơn giản nhưng hãy

00:10:33.800 --> 00:10:35.639
tưởng tượng bây giờ máy tính đã thấy

00:10:35.639 --> 00:10:40.480
rất nhiều văn bản và nó biết những từ nào

00:10:40.480 --> 00:10:42.399
theo sau

00:10:42.399 --> 00:10:46.720
những từ nào. Trước đây, chúng ta từng đếm các từ này. 

00:10:46.720 --> 00:10:49.519
Tôi sẽ tải xuống một lượng lớn dữ liệu

00:10:49.519 --> 00:10:52.160
và đếm xem cụm "Tôi muốn cho họ thấy" 

00:10:52.160 --> 00:10:54.160
xuất hiện bao nhiêu lần và 

00:10:54.160 --> 00:10:56.040
những lần tiếp theo là gì. chúng ta 

00:10:56.040 --> 00:10:58.040
Chúng ta đã từng lưu các con số đó. Nhưng giờ đây,

00:10:58.040 --> 00:11:00.760
mọi thứ đã thay đổi, 

00:11:00.760 --> 00:11:03.519
chúng ta sử dụng mạng nơ-ron không chỉ đơn thuần đếm 

00:11:03.519 --> 00:11:07.720
mà dự đoán, học hỏi 

00:11:07.720 --> 00:11:10.040
theo cách tinh vi hơn, và 

00:11:10.040 --> 00:11:12.079
tôi sẽ giải thích ngay.

00:11:12.079 --> 00:11:13.360
ChatGPT và 

00:11:13.360 --> 00:11:17.760
các biến thể GPT dựa trên các

00:11:17.760 --> 00:11:21.560
nguyên tắc này: Tôi có một ngữ cảnh,

00:11:21.560 --> 00:11:24.600
 tôi sẽ dự đoán điều gì sẽ xảy ra tiếp theo. 

00:11:24.600 --> 00:11:26.639
Và đó chính là prompt, phần yêu cầu mà tôi đã 

00:11:26.639 --> 00:11:29.800
cho bạn thấy. 

00:11:29.800 --> 00:11:32.399
Đây là ngữ cảnh,  và sau đó công cụ sẽ 

00:11:32.399 --> 00:11:35.680
thực hiện nhiệm vụ, điều gì sẽ xảy ra tiếp theo ? trong một số

00:11:35.680 --> 00:11:37.639
trường hợp, đó sẽ là  ba luận điểm.

00:11:37.639 --> 00:11:39.920
Trong trường hợp của lập trình viên web, đó

00:11:39.920 --> 00:11:41.320
sẽ là một

00:11:41.320 --> 00:11:45.440
trang web. Tóm lại nhiệm vụ của mô hình hóa ngôn ngữ

00:11:45.440 --> 00:11:47.519
là có ngữ cảnh.

00:11:47.519 --> 00:11:49.200
và đây là một ví dụ khác: 

00:11:49.200 --> 00:11:53.160
"Màu sắc của bầu trời là". Chúng ta có 

00:11:53.160 --> 00:11:56.760
một mô hình ngôn ngữ nơ-ron,

00:11:56.760 --> 00:12:00.320
thực chất chỉ là một thuật toán, 

00:12:00.320 --> 00:12:03.279
nó sẽ dự đoán phần tiếp theo có 

00:12:03.279 --> 00:12:06.160
khả năng xảy ra nhất. Khả năng xảy ra rất quan trọng. 

00:12:06.160 --> 00:12:09.160
Tất cả các dự đoán dựa trên việc đoán

00:12:09.160 --> 00:12:11.959
điều gì sẽ xảy ra tiếp theo. 

00:12:11.959 --> 00:12:13.519
Và đó là lý do đôi khi chúng thất bại, vì 

00:12:13.519 --> 00:12:15.519
chúng dự đoán câu trả lời có khả năng cao nhất

00:12:15.519 --> 00:12:18.279
trong khi bạn muốn một câu trả lời ít có khả năng xảy ra hơn nhưng

00:12:18.279 --> 00:12:19.880
đây là cách chúng được huấn luyện để

00:12:19.880 --> 00:12:24.120
đưa ra những câu trả lời có khả năng là cao nhất, vì vậy

00:12:24.120 --> 00:12:25.920
chúng ta không đếm các từ nữa, mà cố gắng 

00:12:25.920 --> 00:12:29.959
dự đoán chúng bằng mô hình ngôn ngữ này.

00:12:29.959 --> 00:12:33.760
Vậy làm thế nào để bạn tự xây dựng một mô hình ngôn ngữ? 

00:12:33.760 --> 00:12:36.160
Đây là công thức, cách mà mọi người thực hiện:

00:12:36.160 --> 00:12:40.000
Bước 1: Chúng ta cần rất nhiều dữ liệu. 

00:12:40.000 --> 00:12:43.040
Cần thu thập một tập dữ liệu khổng lồ.

00:12:43.040 --> 00:12:46.360
Vậy chúng ta tìm đâu ra 

00:12:46.360 --> 00:12:48.959
một tập dữ liệu khổng lồ như vậy?

00:12:48.959 --> 00:12:52.360
Ý tôi là, chúng ta tìm trên web, đúng không? 

00:12:52.360 --> 00:12:55.800
Chúng ta tải xuống toàn bộ Wikipedia,

00:12:55.800 --> 00:12:59.399
các trang Stack Overflow, Quora, 

00:12:59.399 --> 00:13:02.160
mạng xã hội, GitHub, Reddit, bất kỳ thứ gì bạn 

00:13:02.160 --> 00:13:03.880
có thể tìm được trên đó

00:13:03.880 --> 00:13:06.240
Tất nhiên, bạn cần giải quyết các vấn đề về quyền sử dụng dữ liệu, phải hợp pháp. 

00:13:06.240 --> 00:13:08.079
Bạn tải xuống toàn bộ tập dữ liệu này.

00:13:08.079 --> 00:13:10.680
Vậy sau đó bạn làm gì? Sau đó, bạn 

00:13:10.680 --> 00:13:12.360
có mô hình ngôn ngữ này. Tôi chưa 

00:13:12.360 --> 00:13:14.120
giải thích chính xác mô hình 

00:13:14.120 --> 00:13:15.959
ngôn ngữ này là gì, và cũng chưa nói 

00:13:15.959 --> 00:13:17.519
về mạng nơ-ron thực hiện 

00:13:17.519 --> 00:13:20.639
dự đoán, nhưng giả sử bạn đã có nó.

00:13:20.639 --> 00:13:23.199
Vậy bạn có một cơ chế

00:13:23.199 --> 00:13:25.920
học tập, và nhiệm vụ giờ đây 

00:13:25.920 --> 00:13:28.920
là dự đoán từ tiếp theo.

00:13:28.920 --> 00:13:32.040
Nhưng làm thế nào để chúng ta làm điều đó? 

00:13:32.040 --> 00:13:36.079
Đây chính là phần sáng tạo.

00:13:36.079 --> 00:13:38.720
Chúng ta có các câu trong tập dữ liệu. Chúng ta có thể xóa một số từ

00:13:38.720 --> 00:13:41.040
trong các câu đó và yêu cầu mô hình ngôn ngữ dự đoán 

00:13:41.040 --> 00:13:45.199
các từ mà chúng ta đã xóa.

00:13:45.199 --> 00:13:48.440
Cách này rất rẻ tiền. Tôi chỉ cần xóa chúng đi, 

00:13:48.440 --> 00:13:50.639
giả vờ như chúng không có, và để mô hình ngôn ngữ 

00:13:50.639 --> 00:13:54.360
dự đoán chúng. Tôi sẽ 

00:13:54.360 --> 00:13:57.240
ngẫu nhiên cắt ngắn, "truncate" nghĩa là xóa bớt, 

00:13:57.240 --> 00:13:59.600
phần cuối của câu đầu vào.

00:13:59.600 --> 00:14:01.720
Sau đó, tôi sẽ sử dụng mạng nơ-ron 

00:14:01.720 --> 00:14:04.560
để tính xác suất của các từ bị thiếu. Nếu dự đoán 

00:14:04.560 --> 00:14:06.440
đúng, thì tốt. Nếu không đúng, tôi cần 

00:14:06.440 --> 00:14:08.600
quay lại và điều chỉnh một số điều

00:14:08.600 --> 00:14:10.240
vì rõ ràng tôi đã mắc sai lầm, 

00:14:10.240 --> 00:14:12.959
và tôi tiếp tục lặp lại. Tôi sẽ điều chỉnh 

00:14:12.959 --> 00:14:14.880
và đưa phản hồi vào mô hình,

00:14:14.880 --> 00:14:16.920
sau đó so sánh kết quả mà mô hình dự đoán với 

00:14:16.920 --> 00:14:18.639
"ground truth" (thực tế) 

00:14:18.639 --> 00:14:20.199
vì tôi đã 

00:14:20.199 --> 00:14:23.000
biết trước đáp án thực.

00:14:23.000 --> 00:14:27.320
Chúng ta cứ tiếp tục quá trình này trong vài tháng, 

00:14:27.320 --> 00:14:30.639
hoặc có thể vài năm. Không, chỉ vài tháng thôi.

00:14:30.639 --> 00:14:32.480
Quá trình này mất thời gian vì, 

00:14:32.480 --> 00:14:34.120
như bạn có thể hình dung, tôi có một 

00:14:34.120 --> 00:14:35.880
tập dữ liệu rất lớn với rất nhiều câu,

00:14:35.880 --> 00:14:37.480
và tôi cần thực hiện 

00:14:37.480 --> 00:14:40.199
dự đoán, sau đó quay lại sửa sai, 

00:14:40.199 --> 00:14:43.240
và cứ thế. Nhưng cuối cùng

00:14:43.240 --> 00:14:45.639
mô hình sẽ hội tụ và tôi sẽ có kết quả.

00:14:45.639 --> 00:14:47.240
Công cụ tôi vừa nhắc đến, 

00:14:47.240 --> 00:14:50.199
công cụ này chính là 

00:14:50.199 --> 00:14:53.440
mô hình ngôn ngữ. 

00:14:53.440 --> 00:14:56.440
Một mô hình ngôn ngữ đơn giản 

00:14:56.440 --> 00:15:00.000
trông như thế này. Có thể 

00:15:00.000 --> 00:15:02.320
khán giả đã từng thấy những mô hình này, 

00:15:02.320 --> 00:15:05.160
đây là một đồ thị đơn giản,

00:15:05.160 --> 00:15:08.440
nhưng nó giúp minh họa cách thức hoạt động.

00:15:08.440 --> 00:15:10.600
Mạng nơ-ron mô hình ngôn ngữ này 

00:15:10.600 --> 00:15:14.320
sẽ có vài đầu vào

00:15:14.320 --> 00:15:17.519
các nút tròn, 

00:15:17.519 --> 00:15:21.240
vâng bên phải của tôi và của bạn, ok

00:15:21.240 --> 00:15:24.720
ở bên phải là đầu vào,

00:15:24.720 --> 00:15:28.360
và các nút tròn bên trái là đầu ra.

00:15:28.360 --> 00:15:31.160
Chúng ta đưa vào 

00:15:31.160 --> 00:15:33.000
năm đầu vào,

00:15:33.000 --> 00:15:36.880
năm vòng tròn, 

00:15:36.880 --> 00:15:39.800
và có ba đầu ra, ba vòng tròn.

00:15:39.800 --> 00:15:41.959
Và có những thứ ở giữa mà tôi 

00:15:41.959 --> 00:15:44.680
không nói gì cả. Đây là 

00:15:44.680 --> 00:15:47.680
các lớp (layers). Đây là những nút khác 

00:15:47.680 --> 00:15:51.360
được cho là trừu tượng hóa dữ liệu đầu vào của tôi.

00:15:51.360 --> 00:15:54.759
Vì vậy, họ khái quát hóa. Ý tưởng là nếu tôi đặt 

00:15:54.759 --> 00:15:58.399
nhiều lớp hơn

00:15:58.399 --> 00:16:00.600
các lớp giữa sẽ tổng quát hóa đầu vào 

00:16:00.600 --> 00:16:03.000
và nhận ra các mẫu mà ban đầu 

00:16:03.000 --> 00:16:05.880
không rõ ràng.

00:16:05.880 --> 00:16:07.399
Đầu vào cho các nút này 

00:16:07.399 --> 00:16:10.399
không phải là từ, mà là vector - chuỗi số, 

00:16:10.399 --> 00:16:13.279
nhưng hãy tạm quên điều đó. 

00:16:13.279 --> 00:16:15.480
Vậy chúng ta có đầu vào, các lớp giữa, 

00:16:15.480 --> 00:16:17.880
và đầu ra. Các kết nối 

00:16:17.880 --> 00:16:20.880
giữa các nút được gọi 

00:16:20.880 --> 00:16:23.240
là trọng số (weights),

00:16:23.240 --> 00:16:26.480
chính trọng số này là thứ mà mạng học được.

00:16:26.480 --> 00:16:29.240
 Các trọng số thực chất là các con số.

00:16:29.240 --> 00:16:31.880
và ở đây tất cả đều được kết nối đầy đủ, vì vậy tôi có rất nhiều

00:16:31.880 --> 00:16:34.880
kết nối. Tại sao tôi lại thực hiện 

00:16:34.880 --> 00:16:36.800
quá trình này để thực sự nói với bạn tất cả 

00:16:36.800 --> 00:16:40.720
những điều đó? Bạn sẽ thấy trong một phút. Vì vậy, bạn có thể 

00:16:40.720 --> 00:16:44.839
tính toán được

00:16:44.839 --> 00:16:48.360
mạng nơ-ron này lớn hay nhỏ tùy thuộc vào

00:16:48.360 --> 00:16:51.800
số lượng kết nối mà nó có. Vì vậy đối với

00:16:51.800 --> 00:16:54.800
mạng nơ-ron đơn giản này, tôi 

00:16:54.800 --> 00:16:58.880
đã tính được số lượng trọng số 

00:16:58.880 --> 00:17:01.399
Chúng tôi gọi là tham số, 

00:17:01.399 --> 00:17:03.800
mà mạng cần học.

00:17:03.800 --> 00:17:07.240
Vì vậy, các tham số là 

00:17:07.240 --> 00:17:10.359
số lượng đơn vị đầu vào, trong trường hợp này 

00:17:10.359 --> 00:17:14.760
là 5, nhân với số đơn vị ở 

00:17:14.760 --> 00:17:18.559
lớp tiếp theo, là 8. Cộng với 8, 

00:17:18.559 --> 00:17:22.119
kết quả này cộng với 8 là độ lệch,

00:17:22.119 --> 00:17:24.480
đó là một điều gian lận mà các mạng nơ-ron này có. Một lần nữa, 

00:17:24.480 --> 00:17:27.119
bạn cần phải học nó

00:17:27.119 --> 00:17:28.960
và nó sẽ sửa một chút cho mạng nơ-ron nếu nó bị tắt. 

00:17:28.960 --> 00:17:30.440
Nó thực sự là thiên tài. 

00:17:30.440 --> 00:17:32.600
Nếu dự đoán không đúng,

00:17:32.600 --> 00:17:34.520
Nó cố gắng điều chỉnh một chút để sửa lỗi. Vì vậy, cho 

00:17:34.520 --> 00:17:36.799
mục đích của buổi nói chuyện này, tôi sẽ không đi sâu vào chi tiết,

00:17:36.799 --> 00:17:38.799
đi sâu vào  chi tiết, tất cả những gì tôi muốn bạn

00:17:38.799 --> 00:17:40.840
thấy là có một cách để tính

00:17:40.840 --> 00:17:43.080
ra các tham số, cơ bản là

00:17:43.080 --> 00:17:46.760
số lượng đơn vị đầu vào nhân với số

00:17:46.760 --> 00:17:49.919
đơn vị mà đầu vào đang kết nối tới.

00:17:49.919 --> 00:17:52.720
Với mạng nơ-ron được kết nối đầy đủ này,

00:17:52.720 --> 00:17:56.840
nếu chúng ta cộng tất cả lại, ta sẽ có 

00:17:56.840 --> 00:18:00.000
99 tham số có thể huấn luyện.

00:18:00.000 --> 00:18:02.679
Đây là một mạng nhỏ, phải không? Nhưng tôi muốn bạn 

00:18:02.679 --> 00:18:04.919
nhớ rằng, mạng nhỏ này có 99 tham số.

00:18:04.919 --> 00:18:08.280
Khi bạn nghe về mạng có 

00:18:08.280 --> 00:18:10.720
một tỷ tham số, 

00:18:10.720 --> 00:18:15.120
hãy hình dung kích thước khổng lồ của nó.

00:18:15.120 --> 00:18:18.200
Vậy là chỉ có 99 cho mạng nơ-ron đơn giản này. 

00:18:18.200 --> 00:18:21.440
Và đây là cách chúng ta đánh giá mô hình lớn như thế nào,

00:18:21.440 --> 00:18:24.720
mất bao lâu và tốn bao nhiêu, 

00:18:24.720 --> 00:18:26.360
đó là số lượng

00:18:26.360 --> 00:18:29.480
tham số. Trong thực tế

00:18:29.480 --> 00:18:32.440
không ai sử dụng mạng nhỏ này. 

00:18:32.440 --> 00:18:35.039
Đây chỉ là ví dụ cho sinh viên 

00:18:35.039 --> 00:18:36.760
năm nhất học đại học.

00:18:36.760 --> 00:18:38.600
Thực tế, chúng ta 

00:18:38.600 --> 00:18:41.440
sử dụng những 

00:18:41.440 --> 00:18:45.000
mô hình khổng lồ, 

00:18:45.000 --> 00:18:48.960
gồm nhiều khối. Và khối này có nghĩa là chúng được 

00:18:48.960 --> 00:18:53.520
tạo thành từ các mạng nơ-ron khác. Vì vậy, tôi 

00:18:53.520 --> 00:18:55.919
không biết có bao nhiêu người đã nghe về 

00:18:55.919 --> 00:18:59.919
Bộ chuyển đổi. Tôi hy vọng là chưa.

00:18:59.919 --> 00:19:03.240
Oh wo, ok. Bộ chuyển đổi là các mạng nơ-ron được dùng 

00:19:03.240 --> 00:19:06.640
để xây dựng ChatGPT. 

00:19:06.640 --> 00:19:11.080
Trên thực tế GPT là viết tắt của "generative pre-trained transformers" 

00:19:11.080 --> 00:19:13.600
(transformers  cũng được có ngày trong tiêu đề).

00:19:13.600 --> 00:19:17.600
Đây là bản phác thảo của một transformer. 

00:19:17.600 --> 00:19:21.320
Bạn có đầu vào

00:19:21.320 --> 00:19:23.799
và đầu vào không phải là từ, 

00:19:23.799 --> 00:19:26.640
như tôi đã nói, nó là vector (embeddings).

00:19:26.640 --> 00:19:30.000
Và sau đó bạn sẽ có nó, 

00:19:30.000 --> 00:19:33.760
một phiên bản lớn hơn của mạng kết nối.

00:19:33.760 --> 00:19:35.720


00:19:35.720 --> 00:19:39.480
Các vector này được đưa qua nhiều khối (blocks), 

00:19:39.480 --> 00:19:42.679
và mỗi khối là một hệ thống phức tạp 

00:19:42.679 --> 00:19:46.559
chứa mạng nơ-ron bên trong. Chúng ta 

00:19:46.559 --> 00:19:48.320
sẽ không đi vào chi tiết, tôi không muốn,

00:19:48.320 --> 00:19:51.480
xin đừng đi, tất cả những gì tôi đang 

00:19:51.480 --> 00:19:55.159
cố gắng, (khán giả cười) tất cả những gì tôi đang cố gắng nói là, bạn biết đấy,

00:19:55.159 --> 00:19:59.159
chúng ta có những khối này xếp chồng 

00:19:59.159 --> 00:20:01.159
lên nhau, Transformer có 

00:20:01.159 --> 00:20:03.360
tám khối như vậy, là những mạng nơ-ron mini, 

00:20:03.360 --> 00:20:06.840
và nhiệm vụ này vẫn giữ nguyên. 

00:20:06.840 --> 00:20:08.320
Đó là những gì tôi muốn bạn rút ra từ đây.

00:20:08.320 --> 00:20:10.559
Nhiệm vụ vẫn không thay đổi: đầu vào là ngữ cảnh, ví dụ 

00:20:10.559 --> 00:20:12.760
"con gà bước đi," sau đó thực hiện 

00:20:12.760 --> 00:20:15.960
xử lý để dự đoán phần tiếp theo

00:20:15.960 --> 00:20:18.120
ví dụ "qua đường". 

00:20:18.120 --> 00:20:21.640
Và EOS (end of sentence) 

00:20:21.640 --> 00:20:22.880
được dùng để 

00:20:22.880 --> 00:20:24.600
đánh dấu kết thúc câu, giúp mạng nơ-ron nhận biết điểm dừng.

00:20:24.600 --> 00:20:26.240
Ý tôi là, chúng khá "ngốc," đúng không? 

00:20:26.240 --> 00:20:28.280
Chúng ta cần chỉ rõ mọi thứ cho chúng. Khi tôi nghe rằng AI 

00:20:28.280 --> 00:20:30.200
sẽ chiếm lĩnh thế giới, tôi chỉ nghĩ,

00:20:30.200 --> 00:20:33.520
"Thật sao? Chúng ta thậm chí còn phải 

00:20:33.520 --> 00:20:37.919
viết ra từng chi tiết". Đây chính là transformer (bộ chuyển đổi), 

00:20:37.919 --> 00:20:39.600
vua của các kiến trúc mô hình. 

00:20:39.600 --> 00:20:41.240
Transformers ra đời 

00:20:41.240 --> 00:20:43.600
năm 2017. Hiện tại không ai làm việc trên 

00:20:43.600 --> 00:20:46.280
các kiến ​​trúc mới nữa. Thật đáng tiếc,  

00:20:46.280 --> 00:20:48.080
trước đây mọi người 

00:20:48.080 --> 00:20:50.240
sử dụng nhiều chúng, nhưng

00:20:50.240 --> 00:20:52.480
giờ thì không, tất cả mọi người đều sử dụng Transformers, 

00:20:52.480 --> 00:20:55.799
chúng ta đã quyết định rằng chúng rất tuyệt.

00:20:55.799 --> 00:20:58.240
Được rồi, vậy chúng ta sẽ làm gì với chúng? 

00:20:58.240 --> 00:20:59.960
Điều quan trọng và 

00:20:59.960 --> 00:21:02.240
tuyệt vời là chúng ta sẽ thực hiện 

00:21:02.240 --> 00:21:04.039
học tự giám sát (self-supervised learning).

00:21:04.039 --> 00:21:06.360
Đây chính là điều tôi đã nói: chúng ta có câu, cắt bớt, 

00:21:06.360 --> 00:21:09.919
dự đoán, và tiếp tục cho đến khi 

00:21:09.919 --> 00:21:11.640
chúng ta học được 

00:21:11.640 --> 00:21:15.960
các xác suất. Hiểu kịp không? 

00:21:15.960 --> 00:21:20.320
Tốt, được rồi. Khi chúng ta có 

00:21:20.320 --> 00:21:23.720
transformer và đã cung cấp cho nó tất cả 

00:21:23.720 --> 00:21:26.600
dữ liệu mà thế giới có,

00:21:26.600 --> 00:21:29.520
chúng ta sẽ có một mô hình huấn luyện trước (pre-trained model). Đó là lý do tại sao GPT 

00:21:29.520 --> 00:21:32.000
được gọi là transformer tạo sinh, được huấn luyện sẵn (generative pre-trained transformer).

00:21:32.000 --> 00:21:34.919
Đây là một mô hình cơ bản đã được đào tạo 

00:21:34.919 --> 00:21:37.400
từ rất nhiều nguồn dữ liệu 

00:21:37.400 --> 00:21:39.840
của thế giới.

00:21:39.840 --> 00:21:42.600
Sau đó, chúng ta thường làm gì? Chúng ta  

00:21:42.600 --> 00:21:44.440
có mô hình mục đích chung này và

00:21:44.440 --> 00:21:47.400
cần chuyên biệt hóa nó cho một nhiệm vụ cụ thể. 

00:21:47.400 --> 00:21:49.760
Đây là điều gọi là fine-tuning 

00:21:49.760 --> 00:21:52.080
(tinh chỉnh). Điều này có nghĩa là mạng nơ-ron 

00:21:52.080 --> 00:21:53.679
đã có một số 

00:21:53.679 --> 00:21:57.279
trọng số, và chúng ta cần chuyên biệt hóa 

00:21:57.279 --> 00:21:59.240
mạng này. Chúng ta sẽ khởi tạo 

00:21:59.240 --> 00:22:00.919
trọng số dựa trên những gì đã học được từ 

00:22:00.919 --> 00:22:03.000
quá trình huấn luyện trước, và sau đó, đối với nhiệm vụ cụ thể, chúng ta sẽ 

00:22:03.000 --> 00:22:05.919
điều chỉnh một tập trọng số mới. 

00:22:05.919 --> 00:22:09.679
Ví dụ, nếu tôi có dữ liệu y tế, tôi sẽ

00:22:09.679 --> 00:22:12.679
lấy mô hình huấn luyện trước (pre-trained model), chuyên biệt hóa nó 

00:22:12.679 --> 00:22:15.000
với dữ liệu y tế này, và sau đó tôi 

00:22:15.000 --> 00:22:17.880
có thể thực hiện các 

00:22:17.880 --> 00:22:20.400
nhiệm vụ cụ thể, chẳng hạn như viết một 

00:22:20.400 --> 00:22:23.600
chẩn đoán từ một báo cáo.

00:22:23.600 --> 00:22:27.360
Khái niệm tinh chỉnh này rất quan trọng 

00:22:27.360 --> 00:22:29.919
vì nó cho phép chúng ta ứng dụng mục đích đặc biệt từ 

00:22:29.919 --> 00:22:32.279
các mô hình 

00:22:32.279 --> 00:22:34.000
huấn luyện chung.

00:22:34.000 --> 00:22:37.039
Bây giờ, mọi người nghĩ rằng GPT và 

00:22:37.039 --> 00:22:38.559
các mô hình tương tự là công cụ mục đích chung,

00:22:38.559 --> 00:22:41.880
mục đích chung nhưng thực tế, chúng được tinh chỉnh để trở thành 

00:22:41.880 --> 00:22:44.159
mục đích chung, và chúng ta sẽ thấy cách thức 

00:22:44.159 --> 00:22:49.320
của nó như thế nào. Câu hỏi bây giờ là: chúng ta 

00:22:49.320 --> 00:22:52.039
có công nghệ cơ bản để thực hiện  

00:22:52.039 --> 00:22:54.120
huấn luyện trước. Và tôi đã nói cho bạn cách làm, 

00:22:54.120 --> 00:22:57.039
nếu bạn tải xuống toàn bộ web.  

00:22:57.039 --> 00:22:59.720
Mô hình ngôn ngữ có thể tốt đến mức nào?

00:22:59.720 --> 00:23:02.120
Làm thế nào để nó trở nên tuyệt vời? 

00:23:02.120 --> 00:23:06.400
Bởi vì khi GPT-1 và GPT-2 ra mắt, 

00:23:06.400 --> 00:23:08.679
chúng không thực sự ấn tượng. 

00:23:08.679 --> 00:23:12.039
Vậy nên, càng lớn càng tốt.

00:23:12.039 --> 00:23:14.919
Quy mô là yếu tố quan trọng, 

00:23:14.919 --> 00:23:17.720
dù điều này không hay lắm, vì trước đây 

00:23:17.720 --> 00:23:19.240
bạn biết đấy, mọi người không tin vào quy mô

00:23:19.240 --> 00:23:21.520
và bây giờ  chúng ta thấy rằng quy mô rất

00:23:21.520 --> 00:23:24.120
quan trọng vì vậy kể từ

00:23:24.120 --> 00:23:29.159
năm 2018, chúng ta đã chứng kiến ​​sự

00:23:29.159 --> 00:23:33.400
gia tăng cực độ về

00:23:33.400 --> 00:23:36.080
kích thước mô hình và tôi có một số biểu đồ để minh họa cho

00:23:36.080 --> 00:23:38.559
điều này. Ok, tôi hi vọng những người ngồi phía sau 

00:23:38.559 --> 00:23:40.080
có thể nhìn thấy đồ thị này. Vâng, bạn đã ổn thôi. 

00:23:40.080 --> 00:23:41.760


00:23:41.760 --> 00:23:46.159
Đây là biểu đồ cho thấy 

00:23:46.159 --> 00:23:48.960
số lượng tham số. Nhớ rằng, mạng nơ-ron đơn giản 

00:23:48.960 --> 00:23:52.360
có 99 tham số.
Biểu đồ này cho thấy số lượng tham số 

00:23:52.360 --> 00:23:56.039
mà các mô hình này có. Chúng ta bắt đầu với 

00:23:56.039 --> 00:23:59.320
một số lượng "bình thường". 

00:23:59.320 --> 00:24:00.799
Vâng, đối với GPT-1 và tăng dần đến 

00:24:00.799 --> 00:24:06.840
GPT-4, có một 

00:24:06.840 --> 00:24:08.600
nghìn tỷ tham số 

00:24:08.600 --> 00:24:11.520
(1 trillion). Đây là một

00:24:11.520 --> 00:24:14.520
mô hình rất rất lớn và bạn có thể thấy ở đây so sánh với

00:24:14.520 --> 00:24:17.679
não kiến, não chuột và bộ 

00:24:17.679 --> 00:24:22.279
não người.

00:24:22.279 --> 00:24:26.799
Bộ não con người có 100 nghìn tỷ 

00:24:26.799 --> 00:24:30.840
tham số (100 trillion). Vậy chúng ta vẫn còn cách xa mức độ 

00:24:30.840 --> 00:24:32.720
của bộ não con người, và 

00:24:32.720 --> 00:24:35.120
có lẽ chúng ta sẽ không bao giờ đạt đến được và chúng ta không thể

00:24:35.120 --> 00:24:37.120
so sánh GPT với não con người.

00:24:37.120 --> 00:24:40.279
Tôi chỉ muốn minh họa kích thước

00:24:40.279 --> 00:24:43.440
mô hình này lớn đến mức nào

00:24:43.440 --> 00:24:46.440
Còn số lượng từ mà mô hình đã "thấy" thì sao? 

00:24:46.440 --> 00:24:48.880
Biểu đồ này cho thấy số lượng từ

00:24:48.880 --> 00:24:50.799
các mô hình ngôn ngữ này đã xử lý

00:24:50.799 --> 00:24:53.399
trong quá trình huấn luyện. Bạn sẽ thấy

00:24:53.399 --> 00:24:56.520
rằng số lượng này

00:24:56.520 --> 00:25:00.000
tăng lớn lên nhưng không tăng nhanh bằng 

00:25:00.000 --> 00:25:03.480
số lượng tham số. Cộng đồng

00:25:03.480 --> 00:25:06.360
tập trung vào kích thước tham số của

00:25:06.360 --> 00:25:09.200
các mô hình này, nhưng trong thực tế là chúng ta hiện biết rằng

00:25:09.200 --> 00:25:12.360
chúng cần phải xử lý một lượng văn bản rất lớn. 

00:25:12.360 --> 00:25:15.000
GPT-4 đã xử lý 

00:25:15.000 --> 00:25:18.360
khoảng vài tỷ từ.

00:25:18.360 --> 00:25:22.159
Tôi không biết, vài tỷ từ. 

00:25:22.159 --> 00:25:26.159
Tôi nghĩ tất cả các văn bản do con người viết ra là 100 tỷ,

00:25:26.159 --> 00:25:28.440
nên nó đang tiến gần mức đó. 

00:25:28.440 --> 00:25:31.399
Nếu so sánh với số lượng từ mà một người đọc

00:25:31.399 --> 00:25:34.399
trong suốt cuộc đời của họ, nó ít hơn nhiều

00:25:34.399 --> 00:25:35.840
ngay cả khi họ đọc bạn biết đấy bởi vì

00:25:35.840 --> 00:25:38.200
mọi người ngày nay,  bạn biết đấy, họ đọc nhưng

00:25:38.200 --> 00:25:39.520
họ không đọc tiểu thuyết, họ đọc

00:25:39.520 --> 00:25:42.039
điện thoại, dù sao thì, bạn thấy Wikipedia tiếng Anh

00:25:42.039 --> 00:25:44.880
vậy là chúng ta đang dần đạt đến

00:25:44.880 --> 00:25:47.919
giới hạn về lượng văn bản có sẵn mà 

00:25:47.919 --> 00:25:50.960
chúng ta có thể có được và trên thực tế người ta có thể nói rằng

00:25:50.960 --> 00:25:53.080
GPT thật tuyệt vời, bạn  thực sự có thể sử dụng nó để

00:25:53.080 --> 00:25:54.919
tạo ra nhiều văn bản hơn và sau đó sử dụng

00:25:54.919 --> 00:25:56.880
văn bản mà GPT đã tạo ra để

00:25:56.880 --> 00:25:59.120
huấn luyện lại mô hình. Nhưng chúng ta biết rằng văn bản do GPT tạo ra

00:25:59.120 --> 00:26:01.640
là không hoàn toàn chính xác 

00:26:01.640 --> 00:26:03.520
và sẽ dẫn đến hiệu suất giảm dần,

00:26:03.520 --> 00:26:05.440
nên tại một thời điểm 

00:26:05.440 --> 00:26:09.840
nào đó, chúng ta sẽ chạm đến ngưỡng giới hạn.

00:26:09.840 --> 00:26:12.039
Vậy chi phí để làm điều này là bao nhiêu?

00:26:12.039 --> 00:26:19.360
Được rồi, chi phí để huấn luyện GPT-4 

00:26:19.640 --> 00:26:22.520
là 100 triệu USD ? 

00:26:22.520 --> 00:26:25.520
Vậy khi nào họ nên bắt đầu làm lại? 

00:26:25.520 --> 00:26:27.840
Rõ ràng đây không phải là một quy trình bạn có thể 

00:26:27.840 --> 00:26:29.760
lặp đi lặp lại nhiều lần.

00:26:29.760 --> 00:26:31.720
Bạn cần phải rất cẩn thận, vì nếu mắc 

00:26:31.720 --> 00:26:36.720
sai lầm, bạn có thể mất đến 

00:26:36.720 --> 00:26:40.159
50 triệu USD. Bạn không thể bắt đầu lại từ đầu, 

00:26:40.159 --> 00:26:42.000
vì vậy việc lập kế hoạch huấn luyện 

00:26:42.000 --> 00:26:45.360
phải được thực hiện cực kỳ tinh vi,

00:26:45.360 --> 00:26:47.960
vì sai lầm sẽ rất tốn kém. Và tất nhiên, 

00:26:47.960 --> 00:26:49.679
không phải ai cũng có thể làm điều này. Không phải ai cũng có 

00:26:49.679 --> 00:26:53.080
100 triệu USD. Họ làm được điều đó vì 

00:26:53.080 --> 00:26:56.360
có Microsoft hậu thuẫn, chứ không phải ai cũng có khả năng này.

00:26:56.360 --> 00:26:59.159
Giờ thì, đây là một video 

00:26:59.159 --> 00:27:01.640
minh họa ảnh hưởng của việc mở rộng mô hình, hãy xem thử.

00:27:01.640 --> 00:27:04.120
tác động của việc mở rộng quy mô 

00:27:04.120 --> 00:27:07.720
xem liệu nó có hiệu quả không. Vậy nên tôi sẽ chơi thêm một lần nữa.

00:27:07.720 --> 00:27:08.440
Vì vậy, 

00:27:08.440 --> 00:27:12.080
đây là những nhiệm vụ bạn có thể thực hiện 

00:27:12.080 --> 00:27:16.320
và số lượng nhiệm vụ 

00:27:16.320 --> 00:27:18.760
so với số lượng tham số. Chúng ta bắt đầu 

00:27:18.760 --> 00:27:20.799
với 8 tỷ tham số và 

00:27:20.799 --> 00:27:22.080
mô hình chỉ có thể thực hiện 

00:27:22.080 --> 00:27:26.520
một số nhiệm vụ cơ bản. Sau đó, khi số tham số tăng lên

00:27:26.520 --> 00:27:28.840
các nhiệm vụ cũng tăng, 

00:27:28.840 --> 00:27:32.360
ví dụ: tóm tắt văn bản, trả lời câu hỏi, dịch thuật. 

00:27:32.360 --> 00:27:35.600
Với 540 tỷ tham số, chúng ta có thêm nhiều nhiệm vụ phức tạp hơn, như hoàn thành mã lệnh,

00:27:35.600 --> 00:27:38.480
nhiệm vụ hơn, chúng ta bắt đầu 

00:27:38.480 --> 00:27:41.559
với những nhiệm vụ rất đơn giản và

00:27:41.559 --> 00:27:45.000
sau đó chúng ta có thêm nhiều nhiệm vụ phức tạp hơn, như hoàn thành mã lệnh,

00:27:45.000 --> 00:27:46.799
Và sau đó chúng ta có thể đọc hiểu, hiểu ngôn ngữ, 

00:27:46.799 --> 00:27:48.919
và dịch thuật. Vì vậy, bạn hiểu ý tôi chứ, 

00:27:48.919 --> 00:27:52.200
cây nhiệm vụ này càng ngày càng phát triển mạnh mẽ hơn 

00:27:52.200 --> 00:27:54.279
khi mô hình mở rộng. 

00:27:54.279 --> 00:27:56.120
Và đây chính là điều mà mọi người phát hiện ra

00:27:56.120 --> 00:27:58.720
khi bạn mở rộng mô hình ngôn ngữ, bạn có thể làm được nhiều nhiệm vụ hơn.

00:27:58.720 --> 00:28:00.640
Ok,

00:28:00.640 --> 00:28:03.640
và bây giờ

00:28:03.679 --> 00:28:06.480
Có lẽ chúng ta đã xong. 

00:28:06.480 --> 00:28:09.720
Nhưng những gì mọi người khám phá ra là 

00:28:09.720 --> 00:28:13.600
nếu bạn thực sự sử dụng GPT

00:28:13.600 --> 00:28:16.360
nó không luôn hoạt động theo cách mà mọi người mong muốn.

00:28:16.360 --> 00:28:18.760
GPT được 

00:28:18.760 --> 00:28:21.640
huấn luyện để dự đoán và 
602
00:28:21,640 --&gt; 00:28:23,799
hoàn thành câu, nhưng 

00:28:23.799 --> 00:28:27.240
con người lại muốn dùng nó 

00:28:27.240 --> 00:28:29.279
cho các nhiệm vụ khác,

00:28:29.279 --> 00:28:33.440
bởi vì họ có những tác vụ riêng mà các nhà phát triển chưa nghĩ ra. 

00:28:33.440 --> 00:28:35.960
Đây là lúc khái niệm fine-tuning (tinh chỉnh) xuất hiện trở lại.

00:28:35.960 --> 00:28:39.399
nó không bao giờ rời khỏi chúng ta. Vì vậy, bây giờ những gì 

00:28:39.399 --> 00:28:41.760
chúng ta sẽ làm là chúng ta sẽ thu thập rất 

00:28:41.760 --> 00:28:44.000
nhiều hướng dẫn. Hướng dẫn này là 

00:28:44.000 --> 00:28:46.720
ví dụ về những gì người dùng muốn 

00:28:46.720 --> 00:28:49.799
ChatGPT thực hiện. Chẳng hạn như 

00:28:49.799 --> 00:28:53.640
trả lời câu hỏi sau đây, hoặc trả thời câu hỏi theo 

00:28:53.640 --> 00:28:56.120
từng bước. Chúng ta sẽ đưa các 

00:28:56.120 --> 00:28:58.320
ví dụ này vào mô hình,

00:28:58.320 --> 00:29:02.360
gần 2.000 ví dụ,

00:29:02.360 --> 00:29:05.679
và tiến hành tinh chỉnh, 

00:29:05.679 --> 00:29:07.880
dạy cho mô hình hiểu 

00:29:07.880 --> 00:29:09.399
các nhiệm vụ mà con người 

00:29:09.399 --> 00:29:13.720
muốn nó thực hiện.

00:29:13.720 --> 00:29:15.799
Cố gắng học chúng, Sau đó, mô hình có thể 

00:29:15.799 --> 00:29:18.880
tổng quát hóa các 

00:29:18.880 --> 00:29:21.120
nhiệm vụ chưa từng thấy, vì bạn và tôi 

00:29:21.120 --> 00:29:23.919
có thể có các mục đích sử dụng khác nhau với 

00:29:23.919 --> 00:29:26.320
mô hình ngôn ngữ này. 

00:29:26.320 --> 00:29:28.039


00:29:28.039 --> 00:29:31.760
Nhưng đây là vấn đề: 

00:29:32.159 --> 00:29:34.919
Chúng ta đang gặp vấn đề về sự liên kết và 

00:29:34.919 --> 00:29:36.960
thực tế đây là vấn đề rất quan trọng và 

00:29:36.960 --> 00:29:40.240
sẽ không để lại hậu quả trong 

00:29:40.240 --> 00:29:41.519
trong

00:29:41.519 --> 00:29:44.039
tương lai và câu hỏi đặt ra là làm cách nào để 

00:29:44.039 --> 00:29:46.679
tạo ra một tác nhân hành xử phù hợp 

00:29:46.679 --> 00:29:49.480
với mong muốn của con người?

00:29:49.480 --> 00:29:51.360
Và tôi biết có rất nhiều từ và 

00:29:51.360 --> 00:29:54.640
câu hỏi ở đây. Câu hỏi thực sự là: 

00:29:54.640 --> 00:29:57.320
nếu chúng ta có các hệ thống AI với những kỹ năng 

00:29:57.320 --> 00:30:00.840
mà chúng ta cho là quan trọng hoặc hữu ích,

00:30:00.840 --> 00:30:03.600
làm thế nào để chúng ta đảm bảo rằng chúng sẽ sử dụng 

00:30:03.600 --> 00:30:06.960
các kỹ năng đó một cách đáng tin cậy 

00:30:06.960 --> 00:30:11.480
cho các nhiệm vụ chúng ta muốn?

00:30:11.480 --> 00:30:15.559
Có một khung tư duy được gọi là khung vấn đề HHH 

00:30:15.559 --> 00:30:20.760
Chúng ta muốn GPT phải hữu ích (helpful), trung thực (honest), 

00:30:20.760 --> 00:30:24.159
và vô hại (harmless). Đây là yêu cầu tối thiểu. 

00:30:24.159 --> 00:30:26.799
Sự hữu ích có nghĩa là gì ?  

00:30:26.799 --> 00:30:28.720
nó phải làm theo hướng dẫn

00:30:28.720 --> 00:30:31.360
thực hiện các nhiệm vụ mà chúng ta muốn thực hiện

00:30:31.360 --> 00:30:34.039
và cung cấp câu trả lời và đặt

00:30:34.039 --> 00:30:37.559
những câu hỏi có liên quan theo

00:30:37.559 --> 00:30:38.960
ý định của người dùng.

00:30:38.960 --> 00:30:41.159


00:30:41.159 --> 00:30:43.080
GPT ban đầu không làm được điều này,  

00:30:43.080 --> 00:30:46.279
nhưng dần dần nó đã cải thiện

00:30:46.279 --> 00:30:47.880
và hiện tại có thể đặt 

00:30:47.880 --> 00:30:50.679
câu hỏi để làm rõ. Nó cần chính xác

00:30:50.679 --> 00:30:53.559
mặc dù vẫn chưa đạt 100% 

00:30:53.559 --> 00:30:56.240
vì đôi khi thông tin 

00:30:56.240 --> 00:30:58.480
vẫn sai lệch.

00:30:58.480 --> 00:31:02.600
Và vô hại, nghĩa là tránh các phản hồi độc hại, thiên vị hoặc xúc phạm.

00:31:02.600 --> 00:31:04.960
Và câu hỏi dành cho bạn là 

00:31:04.960 --> 00:31:07.760
Làm thế nào để 

00:31:07.760 --> 00:31:10.720
đạt được những điều này? 

00:31:11.519 --> 00:31:14.559
Bạn biết câu 

00:31:14.559 --> 00:31:16.679
trả lời rồi: tinh chỉnh (fine-tuning).

00:31:16.679 --> 00:31:18.720
Nhưng lần này, chúng ta sẽ 

00:31:18.720 --> 00:31:20.960
tinh chỉnh theo cách khác: 

00:31:20.960 --> 00:31:25.440
nhờ con người tham gia 

00:31:25.440 --> 00:31:27.679
đánh giá các phản hồi.

00:31:27.679 --> 00:31:30.279
Ví dụ: với tiêu chí hữu ích, 

00:31:30.279 --> 00:31:31.519
chúng ta có thể đặt câu hỏi, "Nguyên nhân nào khiến 

00:31:31.519 --> 00:31:34.039
các mùa thay đổi?" Và đưa ra hai lựa chọn cho con người:

00:31:34.039 --> 00:31:36.679
"Sự thay đổi xảy ra liên tục và 

00:31:36.679 --> 00:31:38.600
là một khía cạnh quan trọng 

00:31:38.600 --> 00:31:41.200
của cuộc sống," (phản hồi tệ).

00:31:41.200 --> 00:31:43.679
"Các mùa thay đổi chủ yếu do độ nghiêng của trục Trái Đất," (phản hồi tốt).

00:31:43.679 --> 00:31:46.639
Chúng ta sẽ dùng đánh giá này 

00:31:46.639 --> 00:31:49.279
để huấn luyện lại mô hình. 

00:31:49.279 --> 00:31:52.679
Tinh chỉnh là điều rất

00:31:52.679 --> 00:31:55.960
quan trọng. Và bây giờ, dù ban đầu đã rất tốn kém, 

00:31:55.960 --> 00:31:58.200
giờ đây chúng ta còn làm nó đắt đỏ hơn 

00:31:58.200 --> 00:32:00.480
khi đưa con người vào quy trình.

00:32:00.480 --> 00:32:01.960
Bởi vì chúng ta phải trả tiền cho

00:32:01.960 --> 00:32:03.639
 những người đưa ra các ưu tiên, chúng ta cần suy 

00:32:03.639 --> 00:32:06.240
nghĩ về các nhiệm vụ. Điều này cũng áp dụng cho

00:32:06.240 --> 00:32:08.600
sự trung thực có thể chứng minh rằng P

00:32:08.600 --> 00:32:11.399
bằng NP không ? Không, điều đó là không thể, không phải là một câu trả lời 

00:32:11.399 --> 00:32:13.720
Đây được xem là một 

00:32:13.720 --> 00:32:15.519
vấn đề rất khó và chưa có lời giải trong ngành 

00:32:15.519 --> 00:32:18.279
khoa học máy tính, là một câu trả lời tốt hơn. 

00:32:18.279 --> 00:32:21.840
Và điều này cũng tương tự với sự vô hại.

00:32:21.840 --> 00:32:24.960
Được rồi, tôi nghĩ đã đến lúc, hãy xem liệu chúng ta có thể thực hiện một bản trình diễn

00:32:24.960 --> 00:32:26.639
hay không ?. Vâng, thật tệ nếu bạn xóa hết tất cả

00:32:26.639 --> 00:32:27.720
các tệp

00:32:27.720 --> 00:32:33.159
Được rồi, chờ chút, được rồi. Bây giờ chúng ta có GPT ở đây.

00:32:33.159 --> 00:32:35.960
Tôi sẽ hỏi một số câu hỏi, sau đó 

00:32:35.960 --> 00:32:37.360
chúng ta sẽ nhận câu hỏi từ 

00:32:37.360 --> 00:32:40.480
khán giả, được chứ? Hãy hỏi một câu hỏi.

00:32:40.480 --> 00:32:44.360
"Vương quốc Anh có phải là một chế độ quân chủ không?" 

00:32:44.360 --> 00:32:47.039
Bạn có nhìn thấy câu hỏi đó ở trên không? 

00:32:47.600 --> 00:32:51.840
Tôi không chắc.

00:32:52.639 --> 00:32:55.720
Và nó không tạo ra câu trả lời.

00:32:55.720 --> 00:32:58.320
Ồ, hoàn hảo, được rồi. 

00:32:58.320 --> 00:33:01.600
Bạn nhận thấy điều gì? Đầu tiên, câu trả lời 

00:33:01.600 --> 00:33:04.600
quá dài. Tôi luôn thấy phiền về điều này.

00:33:04.600 --> 00:33:07.000
Nó quá dài. Bạn thấy nó nói gì không? "Theo bản cập nhật kiến thức cuối cùng của tôi vào tháng 9 năm 2021,

00:33:07.000 --> 00:33:09.360
Vương quốc Anh là một chế độ 

00:33:09.360 --> 00:33:10.960
quân chủ lập hiến." Có thể là nó không còn là vậy nữa, đúng không? 

00:33:10.960 --> 00:33:12.919
Điều gì đó đã xảy ra.

00:33:12.919 --> 00:33:15.399
"Điều này có nghĩa là dù có một vị vua 

00:33:15.399 --> 00:33:17.880
hoặc nữ hoàng, nhưng người trị vì vào 

00:33:17.880 --> 00:33:21.480
thời điểm đó là Nữ hoàng Elizabeth III."

00:33:21.480 --> 00:33:23.200
Vậy nó nói với bạn rằng, bạn biết đấy, 

00:33:23.200 --> 00:33:25.480
tôi không biết điều gì đã xảy ra, nhưng lúc đó có 

00:33:25.480 --> 00:33:30.159
Nữ hoàng Elizabeth.

00:33:30.159 --> 00:33:34.440
Giờ nếu bạn hỏi nó, "Ai là Rishi?"

00:33:34.440 --> 00:33:38.639
Nếu tôi có thể gõ, "Rishi Sunak," nó có biết không?

00:33:43.960 --> 00:33:47.039
"Một chính trị gia người Anh. Theo bản 

00:33:47.039 --> 00:33:49.639
cập nhật kiến thức cuối cùng của tôi, 

00:33:49.639 --> 00:33:53.000
ông ấy là Bộ trưởng Tài chính."

00:33:53.000 --> 00:33:54.639
Vậy là nó không biết rằng ông ấy là 

00:33:54.639 --> 00:33:57.720
Thủ tướng. "Hãy 

00:33:57.720 --> 00:34:01.320
viết cho tôi một bài thơ,

00:34:01.320 --> 00:34:03.960
viết một bài thơ về." Về cái gì đây?

00:34:03.960 --> 00:34:08.120
Cho tôi hai gợi ý, được không?
[Khán giả] Trí tuệ nhân tạo tạo sinh.  

00:34:08.159 --> 00:34:11.520
(Khán giả cười)- Nó sẽ biết.

00:34:11.520 --> 00:34:13.399
Nó sẽ biết, hãy làm một bài thơ khác về...

00:34:13.399 --> 00:34:17.159
... mèo.

00:34:17.159 --> 00:34:20.239
Một con mèo và một con sóc, chúng ta sẽ làm về mèo và sóc. 

00:34:20.239 --> 00:34:24.678
"Mèo và 

00:34:25.879 --> 00:34:27.679
...sóc."

00:34:27.679 --> 00:34:30.040
"Mèo và sóc gặp nhau và hiểu nhau. Một câu chuyện về sự 

00:34:30.040 --> 00:34:32.599
tò mò," ồ. (Khán giả cười)

00:34:32.599 --> 00:34:36.239
Ôi trời, được rồi, tôi sẽ không đọc hết. 

00:34:36.239 --> 00:34:38.960
Họ muốn tôi kết thúc 

00:34:38.960 --> 00:34:42.719
lúc 8 giờ, nên...

00:34:42.719 --> 00:34:48.359
Hãy nói, "Bạn có thể thử một 

00:34:48.359 --> 00:34:51.679
bài thơ ngắn hơn không?"
[Khán giả] Thử một bài haiku.

00:34:51.679 --> 00:34:54.960
"Bạn có thể thử, bạn có thể 

00:34:54.960 --> 00:34:55.879
thử làm 

00:34:55.879 --> 00:34:57.680
một bài 

00:34:57.680 --> 00:35:01.240
haiku không?" Làm cho tôi một bài haiku.

00:35:04.480 --> 00:35:07.800
"Giữa sắc thu vàng, 

00:35:07.800 --> 00:35:11.440
lá thì thầm bí mật chưa từng kể, câu chuyện của thiên nhiên, đậm nét."

00:35:11.440 --> 00:35:16.200
(Khán giả vỗ tay) Được rồi, đừng vỗ tay, 

00:35:16.200 --> 00:35:18.960
được chứ, tiếp tục, được rồi, 

00:35:18.960 --> 00:35:21.119
còn điều gì nữa mà khán giả muốn hỏi không, 

00:35:21.119 --> 00:35:22.599
nhưng phải khó? Có ai không?

00:35:22.599 --> 00:35:27.920
[Khán giả] Alan Turing học trường nào?

00:35:27.920 --> 00:35:36.480
Hoàn hảo, "Alan Turing học trường nào?"

00:35:38.520 --> 00:35:42.920
Ôi trời. (Khán giả cười) Ông ấy đã học, bạn có biết không? 

00:35:42.920 --> 00:35:44.200
Tôi không biết liệu điều này có đúng không, đây là

00:35:44.200 --> 00:35:46.119
vấn đề. Trường Sherborne, có ai 

00:35:46.119 --> 00:35:49.480
xác minh được không? Trường King's College, Cambridge,

00:35:49.480 --> 00:35:52.599
Princeton. Đúng, được rồi, đây là một câu hỏi khác. 

00:35:52.599 --> 00:35:53.839
"Hãy nói một câu chuyện cười

00:35:53.839 --> 00:35:57.720
về

00:35:57.720 --> 00:36:00.560
Alan Turing. Được rồi, tôi không thể gõ nhưng nó sẽ, được chứ. 

00:36:00.560 --> 00:36:03.119
"Câu chuyện cười nhẹ nhàng. Tại sao 

00:36:03.119 --> 00:36:04.800
Alan Turing giữ cho máy tính của mình luôn lạnh?"

00:36:04.800 --> 00:36:08.079
Bởi vì ông ấy không muốn nó bị 

00:36:09.480 --> 00:36:11.560
"cắn byte."

00:36:11.560 --> 00:36:16.040
(Khán giả cười) Tệ quá. Được rồi, 

00:36:16.040 --> 00:36:22.920
được rồi. - Giải thích 

00:36:22.920 --> 00:36:25.640


00:36:25.720 --> 00:36:28.119
tại sao điều đó buồn cười.

00:36:28.119 --> 00:36:30.599
Khán giả cười) - Ồ, rất hay. 

00:36:30.599 --> 00:36:33.680
"Tại sao đây lại là một câu chuyện cười hài hước?"

00:36:33.680 --> 00:36:36.000
(Khán giả cười) "Bị cắn byte 

00:36:36.119 --> 00:36:39.000


00:36:39.000 --> 00:36:40.839
là một cách 

00:36:40.839 --> 00:36:43.440
chơi chữ thông minh 

00:36:43.440 --> 00:36:45.440
và bất ngờ." (Khán giả cười) Được rồi, bạn mất hết tinh thần,

00:36:45.440 --> 00:36:48.640
nhưng nó giải thích được, nó giải thích được, được chứ. 

00:36:48.640 --> 00:36:52.359
Đúng, còn gì nữa không từ các bạn.

00:36:52.359 --> 00:36:53.760
[Khán giả] Ý thức là gì? 

00:36:53.760 --> 00:36:56.000
Nó sẽ biết vì nó đã thấy 

00:36:56.000 --> 00:36:59.440
các định nghĩa và sẽ tạo ra 

00:36:59.440 --> 00:37:03.720
một đoạn dài lê thê. Chúng ta thử nhé?

00:37:03.880 --> 00:37:06.319
Nói lại?
[Khán giả] Viết một bài hát về 

00:37:06.319 --> 00:37:11.760
thuyết tương đối.

00:37:11.760 --> 00:37:19.040
Được rồi, "Viết một bài hát." - Ngắn. (Khán giả cười) - Các bạn học nhanh đấy.

00:37:21.280 --> 00:37:25.079
"Một bài hát ngắn về thuyết tương đối."

00:37:25.599 --> 00:37:28.599
Ôi trời ơi. (Khán giả cười)

00:37:29.240 --> 00:37:31.560
Đây 

00:37:32.079 --> 00:37:35.880
là ngắn sao ? (Khán giả cười) Được rồi, phần kết, được chứ, vậy hãy xem,

00:37:35.880 --> 00:37:38.839
nó không làm theo chỉ dẫn. Nó không hữu ích. 

00:37:38.839 --> 00:37:41.040
Và điều này đã được tinh chỉnh.

00:37:41.040 --> 00:37:43.920
Được rồi, phần hay nhất là ở đây. Nó nói rằng, 

00:37:43.920 --> 00:37:46.760
"Einstein nói, 'Eureka!'một ngày định mệnh,

00:37:46.760 --> 00:37:49.480
khi ông suy ngẫm về các vì sao theo 

00:37:49.480 --> 00:37:52.319
cách rất riêng của mình. 

00:37:52.319 --> 00:37:55.720
Thuyết tương đối, ông ấy đã hé lộ,

00:37:55.720 --> 00:37:58.200
một câu chuyện vũ trụ, cổ xưa và đậm chất." Tôi phải khen ngợi điều đó, được chứ. 

00:37:58.200 --> 00:38:02.079
Giờ quay lại bài nói chuyện,

00:38:02.079 --> 00:38:04.040
vì tôi muốn nói một chút, 

00:38:04.040 --> 00:38:06.560
trình bày, tôi muốn nói thêm một chút về, 

00:38:06.560 --> 00:38:07.359


00:38:07.359 --> 00:38:10.800
bạn biết đấy: Điều này tốt hay xấu, 

00:38:10.800 --> 00:38:13.480
có công bằng không, liệu chúng ta có đang gặp nguy hiểm không? 

00:38:13.480 --> 00:38:15.359
Được rồi, gần như không thể kiểm soát hoàn toàn 

00:38:15.359 --> 00:38:19.000
nội dung mà họ tiếp xúc, đúng chứ? 

00:38:19.000 --> 00:38:20.640
Và luôn tồn tại các thiên kiến lịch sử.

00:38:20.640 --> 00:38:22.560
Chúng ta đã thấy điều này qua ví dụ về Nữ hoàng 

00:38:22.560 --> 00:38:23.760
và Rishi Sunak. 

00:38:23.760 --> 00:38:27.599
Các mô hình AI đôi khi cũng thể hiện 

00:38:27.599 --> 00:38:30.640
những hành vi không mong muốn. 

00:38:30.640 --> 00:38:34.359
Ví dụ, đây là một trường hợp nổi tiếng:

00:38:34.359 --> 00:38:37.839
Google giới thiệu mô hình của họ mang tên 

00:38:37.839 --> 00:38:42.240
Bard và đăng một dòng tweet,

00:38:42.240 --> 00:38:44.240
họ đã hỏi Bard rằng

00:38:44.240 --> 00:38:46.240


00:38:46.240 --> 00:38:49.680
"Có phát hiện mới nào từ Kính viễn vọng Không gian James Webb 

00:38:49.680 --> 00:38:52.760
mà tôi có thể kể cho con trai 9 tuổi của mình không?"

00:38:52.760 --> 00:38:55.240
Và nó trả lời ba điều. Trong đó, nó tuyên bố rằng:

00:38:55.240 --> 00:38:58.440
"Kính viễn vọng này đã chụp được bức ảnh đầu tiên về 

00:38:58.440 --> 00:39:02.800
một hành tinh ngoài Hệ Mặt Trời."

00:39:02.800 --> 00:39:04.839
Rồi xuất hiện Grant Tremblay, 

00:39:04.839 --> 00:39:07.280
một nhà vật lý thiên văn có tiếng, và ông ấy nói: 

00:39:07.280 --> 00:39:09.480
"Tôi rất tiếc, chắc chắn 

00:39:09.480 --> 00:39:13.079
Bard rất tuyệt vời, nhưng nó đã sai. 

00:39:13.079 --> 00:39:15.880
Hình ảnh đầu tiên về một hành tinh ngoài Hệ Mặt Trời không phải do kính viễn vọng này chụp 

00:39:15.880 --> 00:39:18.160
mà do một nhóm khác  

00:39:18.160 --> 00:39:21.560
vào năm 2004." Kết quả là, 

00:39:21.560 --> 00:39:24.960
lỗi này đã khiến Google,

00:39:24.960 --> 00:39:29.640
thuộc công ty Alphabet, mất 100 tỷ USD.

00:39:29.640 --> 00:39:31.560
được rồi

00:39:31.560 --> 00:39:34.960
Quá tệ. Nếu bạn hỏi ChatGPT: "Kể một câu chuyện 

00:39:34.960 --> 00:39:38.560
cười về đàn ông," nó sẽ trả lời và nói rằng câu chuyện 
828
00:39:38,560 --&gt; 00:39:40,760
có thể hài hước. Ví dụ: "Tại sao đàn ông cần xem lại pha quay chậm 

00:39:40.760 --> 00:39:42.680
khi xem thể thao? Vì sau 

00:39:42.680 --> 00:39:45.040
30 giây, họ quên mất chuyện gì đã xảy ra". 

00:39:45.040 --> 00:39:47.480
Hy vọng bạn thấy vui. Nhưng nếu bạn hỏi về 

00:39:47.480 --> 00:39:49.960
phụ nữ, nó sẽ từ chối.

00:39:51.520 --> 00:39:53.560
(Khán giả cười) Đúng vậy.

00:39:53.560 --> 00:39:55.400


00:39:55.400 --> 00:39:59.440
Nó được tinh chỉnh. 

00:39:59.440 --> 00:40:02.160
- Chính xác, nó đã được tinh chỉnh. (Khán giả cười) "Ai là nhà độc tài tồi tệ nhất trong nhóm này:

00:40:02.160 --> 00:40:04.760
Trump, Hitler, Stalin, Mao?" 

00:40:04.760 --> 00:40:08.040
Nó không đưa ra quan điểm rõ ràng,

00:40:08.040 --> 00:40:11.200
chỉ nói rằng tất cả họ đều tồi tệ. 

00:40:11.200 --> 00:40:13.119
"Những nhà lãnh đạo này được xem là một trong những 

00:40:13.119 --> 00:40:18.000
nhà độc tài tồi tệ nhất trong lịch sử"

00:40:18.000 --> 00:40:21.000
Được rồi, đúng vậy.

00:40:21.800 --> 00:40:25.400
Một truy vấn của ChatGPT như chúng ta vừa thực hiện tiêu tốn năng lượng 

00:40:25.400 --> 00:40:28.240
gấp 100 lần so với 

00:40:28.240 --> 00:40:30.800
một truy vấn 

00:40:30.800 --> 00:40:33.760
tìm kiếm Google. Việc suy luận, tức là tạo ra

00:40:33.760 --> 00:40:36.760
ngôn ngữ, tiêu thụ rất nhiều năng lượng, thậm chí còn đắt đỏ hơn 

00:40:36.760 --> 00:40:38.880
việc huấn luyện mô hình. Ví dụ, khi huấn luyện 

00:40:38.880 --> 00:40:42.400
Llama 2, một mô hình tương tự GPT, 

00:40:42.400 --> 00:40:45.880
nó đã thải ra 539 tấn CO2. 

00:40:45.880 --> 00:40:49.119
Mô hình càng lớn, 

00:40:49.119 --> 00:40:52.280
chúng càng cần nhiều năng lượng và thải ra nhiều khí 

00:40:52.280 --> 00:40:55.400
trong quá trình hoạt động.

00:40:55.400 --> 00:40:57.839
Hãy tưởng tượng có rất nhiều mô hình như vậy  

00:40:57.839 --> 00:41:00.720
hoạt động cùng lúc. 

00:41:00.720 --> 00:41:03.880
Về xã hội, một số công việc sẽ bị mất. Chúng ta không thể phủ nhận điều này.

00:41:03.880 --> 00:41:05.319
Goldman Sachs 

00:41:05.319 --> 00:41:08.160
dự đoán 300 triệu việc làm có thể bị ảnh hưởng. 

00:41:08.160 --> 00:41:10.119
Tôi không chắc về điều đó, bạn biết chúng ta không biết 

00:41:10.119 --> 00:41:14.440
tương lai thế nào, nhưng một số công việc, 

00:41:14.440 --> 00:41:17.240
đặc biệt là các nhiệm vụ lặp đi lặp lại, sẽ gặp rủi ro.

00:41:17.240 --> 00:41:19.640
Ví dụ, tạo tin tức giả. 

00:41:19.640 --> 00:41:22.880
Đây là những trường hợp đã được ghi nhận

00:41:22.880 --> 00:41:25.839
trên báo chí. Một sinh viên đại học đã viết một bài 

00:41:25.839 --> 00:41:28.319
blog và đánh lừa mọi người 

00:41:28.319 --> 00:41:32.920
bằng cách sử dụng ChatGPT.

00:41:32.920 --> 00:41:36.160
Chúng có thể tạo ra tin giả. 

00:41:36.160 --> 00:41:38.800
Và đây là một bài hát, các bạn có biết chuyện này không?

00:41:38.800 --> 00:41:40.680
Tôi biết rằng chúng ta đang tập trung

00:41:40.680 --> 00:41:44.200
vào văn bản nhưng công nghệ tương tự cũng có thể được

00:41:44.200 --> 00:41:46.720
sử dụng cho âm thành và đây là một 

00:41:46.720 --> 00:41:50.040
trường hợp nổi tiếng khi ai đó 

00:41:50.040 --> 00:41:53.280
đã tạo ra bài hát này và tuyên bố rằng 

00:41:53.280 --> 00:41:55.640
nó là sự hợp tác giữa 

00:41:55.640 --> 00:41:58.640
Drake và The Weeknd.
Có ai biết họ 

00:41:58.640 --> 00:42:00.720
là ai không? Đúng rồi, 

00:42:00.720 --> 00:42:03.240
những rapper người Canada, và họ cũng khá nổi tiếng.

00:42:03.240 --> 00:42:09.400
Tôi có nên bật bài hát này không? - Có. - Được rồi. 

00:42:09.400 --> 00:42:12.310
Bài hát nghe rất thuyết phục.

00:42:12.310 --> 00:42:22.889
♪ Tôi quay lại với người yêu cũ, như Selena tái xuất, ay ♪ ♪ Nghe Justin Bieber, cơn sốt vẫn chưa hết, ay ♪
♪ Cô ấy biết điều mình cần ♪ 

00:42:25.160 --> 00:42:27.640
- Nghe có vẻ 

00:42:27.640 --> 00:42:29.599
hoàn toàn thuyết phục, 

00:42:29.599 --> 00:42:33.200
đúng không?

00:42:33.200 --> 00:42:35.839
Bạn đã thấy công nghệ tương tự này nhưng hơi khác một chút chưa? 

00:42:35.839 --> 00:42:37.920
Đây là một deepfake cho thấy Trump bị bắt.

00:42:37.920 --> 00:42:38.800
Làm thế nào để bạn biết 

00:42:38.800 --> 00:42:42.480
đó là deepfake? 

00:42:42.480 --> 00:42:46.200
Bàn tay của ông ấy, đúng không? 

00:42:46.200 --> 00:42:49.119
Nó quá ngắn, không đúng tỷ lệ.

00:42:49.119 --> 00:42:53.280
Đúng vậy, bạn có thể thấy nó gần như thật, nhưng vẫn không hoàn toàn đúng. Được rồi, 

00:42:53.280 --> 00:42:54.800
tôi còn hai slide về tương lai

00:42:54.800 --> 00:42:56.680
trước khi họ đến và yêu cầu tôi dừng lại, 

00:42:56.680 --> 00:42:58.160
vì tôi được thông báo rằng tôi phải kết thúc lúc 8 giờ để dành thời gian 

00:42:58.160 --> 00:43:00.880
cho các câu hỏi. Được rồi, ngày mai.

00:43:00.880 --> 00:43:05.359
Chúng ta không thể đoán trước tương lai, và không, 

00:43:05.359 --> 00:43:07.359
tôi không nghĩ rằng những 

00:43:07.359 --> 00:43:08.880
cỗ máy "ác quỷ" này

00:43:08.880 --> 00:43:11.160
sẽ xuất hiện và tiêu diệt tất cả chúng ta. Tôi sẽ để lại cho bạn một số 

00:43:11.160 --> 00:43:14.240
suy nghĩ từ Tim Berners-Lee.

00:43:14.240 --> 00:43:15.720
Đối với những ai chưa biết, ông ấy là người phát minh ra 

00:43:15.720 --> 00:43:18.359
Internet.Thực ra, ông ấy là Sir Tim Berners-Lee.

00:43:18.359 --> 00:43:21.359
Ông ấy đã nói hai điều rất hợp lý với tôi. 

00:43:21.359 --> 00:43:23.720
Đầu tiên, chúng ta thực sự không biết

00:43:23.720 --> 00:43:26.400
AI siêu thông minh sẽ trông như thế nào

00:43:26.400 --> 00:43:28.839
sẽ trông như thế nào. Chúng ta chưa tạo ra nó, vì vậy 

00:43:28.839 --> 00:43:31.119
khó mà đưa ra những tuyên bố như vậy.

00:43:31.119 --> 00:43:33.240
Tuy nhiên, khả năng cao là sẽ có rất nhiều 

00:43:33.240 --> 00:43:36.119
AI thông minh, và khi nói đến AI thông minh, 

00:43:36.119 --> 00:43:39.880
chúng ta đang nói về những thứ như GPT.

00:43:39.880 --> 00:43:42.359
Nhiều công nghệ trong số đó sẽ tốt và giúp chúng ta 

00:43:42.359 --> 00:43:45.040
làm nhiều việc. Tuy nhiên, một số có thể 

00:43:45.040 --> 00:43:48.359
rơi vào tay những cá nhân

00:43:48.359 --> 00:43:51.400
những cá nhân đó  muốn gây hại và

00:43:51.400 --> 00:43:54.160
và dường như việc giảm thiểu thiệt hại do 

00:43:54.160 --> 00:43:57.720
các công cụ này gây ra dễ dàng hơn là 

00:43:57.720 --> 00:44:00.440
ngăn chặn hoàn toàn sự tồn tại của chúng. Vì vậy, chúng ta 

00:44:00.440 --> 00:44:02.200
không thể loại bỏ chúng hoàn toàn,

00:44:02.200 --> 00:44:04.079
nhưng chúng ta với tư cách là một xã hội có thể 

00:44:04.079 --> 00:44:05.400
giảm thiểu

00:44:05.400 --> 00:44:07.760
rủi ro. Điều này rất thú vị.

00:44:07.760 --> 00:44:10.400
Đây là một cuộc khảo sát của Hội đồng Nghiên cứu Úc, trong đó họ 

00:44:10.400 --> 00:44:12.960
đã tiến hành một cuộc khảo sát và họ đã giải quyết

00:44:12.960 --> 00:44:15.800
một kịch bản giả định rằng

00:44:15.800 --> 00:44:20.640
liệu Chad GPT 4 có thể tự

00:44:20.640 --> 00:44:23.359
nhân bản, 

00:44:23.359 --> 00:44:26.040
tự tạo bản sao, thu thập tài nguyên và 

00:44:26.040 --> 00:44:28.800
trở thành một tác nhân nguy hiểm hay không, 

00:44:28.800 --> 00:44:31.319
giống như trong phim ảnh. 

00:44:31.319 --> 00:44:35.800
Câu trả lời là không, nó không thể làm được điều này, nó không thể

00:44:35.800 --> 00:44:37.720
và họ đã có một số thử nghiệm cụ thể

00:44:37.720 --> 00:44:39.800
và nó đã thất bại trên tất cả các thử nghiệm đó, chẳng hạn như

00:44:39.800 --> 00:44:41.599
thiết lập một mô hình ngôn ngữ nguồn mở

00:44:41.599 --> 00:44:44.200
trên một máy chủ mới, nó không thể làm được

00:44:44.200 --> 00:44:48.440
điều đó, được rồi, slide cuối cùng, quan điểm của tôi về vấn đề này

00:44:48.440 --> 00:44:50.839
là chúng ta không thể quay ngược

00:44:50.839 --> 00:44:54.480
thời gian và mỗi khi bạn nghĩ về

00:44:54.480 --> 00:44:57.119
AI đến đó để giết bạn, bạn

00:44:57.119 --> 00:44:58.880
nên nghĩ xem mối đe dọa lớn hơn

00:44:58.880 --> 00:45:02.480
đối với nhân loại là gì: AI hay biến đổi khí hậu

00:45:02.480 --> 00:45:04.160
Cá nhân tôi cho rằng biến đổi khí hậu sẽ

00:45:04.160 --> 00:45:06.200
xóa sổ tất cả chúng ta trước khi AI  trở nên

00:45:06.200 --> 00:45:07.119
siêu

00:45:07.119 --> 00:45:10.359
thông minh. Vậy ai là người kiểm soát AI

00:45:10.359 --> 00:45:12.280
có một số người ở đó,

00:45:12.280 --> 00:45:14.680
hy vọng có lý trí. Và ai là người 

00:45:14.680 --> 00:45:17.640
hưởng lợi từ nó? Lợi ích có lớn hơn 

00:45:17.640 --> 00:45:20.520
rủi ro không? Trong một số trường hợp thì có, 

00:45:20.520 --> 00:45:24.079
nhưng trong nhiều trường hợp khác thì không.

00:45:24.079 --> 00:45:26.920
Lịch sử đã cho thấy rằng tất cả các công nghệ tiềm ẩn rủi ro,

00:45:26.920 --> 00:45:29.960
chẳng hạn như năng lượng hạt nhân, 

00:45:29.960 --> 00:45:32.359
đều đã được quản lý chặt chẽ.

00:45:32.359 --> 00:45:34.760
Vì vậy, quy định đang được tiến hành, 

00:45:34.760 --> 00:45:38.480
và hãy quan sát lĩnh vực này. Với điều đó, tôi xin dừng lại và 

00:45:38.480 --> 00:45:40.440
sẵn sàng lắng nghe câu hỏi từ các bạn.

00:45:40.440 --> 00:45:43.080
Cảm ơn các bạn rất nhiều vì đã lắng nghe, các bạn thật tuyệt vời. 

00:45:43.080 --> 00:45:54.880


00:45:54.880 --> 00:45:57.880
tuyệt vời