[Âm nhạc] [Vỗ tay] Wow, đông quá nhỉ. Tốt, cảm ơn vì lời giới thiệu đáng yêu đó. Được rồi, vậy trí tuệ nhân tạo sáng tạo (generative artificial intelligence) là gì? tôi muốn phần này có tính tương tác một chút vì vậy sẽ có phần tham gia tham gia từ những người ở đây Những người tổ chức buổi giảng này nói với tôi, "Oh, bạn là người ít hiểu biết về công nghệ đối với một người làm việc về AI." Tôi không có vụ nổ hay thí nghiệm nào nên tôi e rằng bạn sẽ phải tham gia vào. hy vọng điều đó không sao chứ. Được rồi, vậy trí tuệ nhân tạo tạo sinh là gì, thuật ngữ này được tạo thành từ hai thứ: trí tuệ nhân tạo và tạo sinh, trí tuệ nhân tạo là một thuật ngữ hoa mỹ để nói rằng chúng ta có một chương trình máy tính để thực hiện công việc mà con người sẽ làm và tạo sinh đây là phần thú vị chúng ta đang tạo ra nội dung mới mà máy tính chưa chắc đã thấy, nó có thể thấy một phần nào đó của nội dung đó và nó có thể tổng hợp nội dung đó và cung cấp cho chúng ta những điều mới, vậy nội dung mới này sẽ là gì, có thể là âm thanh, có thể là mã nguồn máy tính để tạo ra một chương trình cho chúng ta, nó có thể là một hình ảnh mới, nó có thể là một đoạn văn bản như email hoặc một bài luận mà bạn đã nghe hay video. Trong bài giảng này tôi sẽ chỉ tập trung chủ yếu vào văn bản vì tôi làm về xử lý ngôn ngữ tự nhiên và đó là lĩnh vực mà tôi hiểu biết rõ nhất và chúng ta sẽ xem công nghệ hoạt động như thế nào và hy vọng là sau bài giảng này các bạn biết sẽ hiểu rằng dù có có rất nhiều huyền thoại xung quanh nó, nhưng thật ra nó chỉ là một công cụ mà thôi, được chứ ? Được rồi, vậy phần bố cục của bài giảng có ba phần và nó hơi nhàm chán. Đây là Alice Morse Earle. Tôi không hi vọng các bạn biết người phụ nữ này, bà là một nhà văn người Mỹ và bà viết về kỷ vật và phong tục nhưng bà nổi tiếng với những câu trích dẫn của mình Ví dụ như câu này: "Hôm qua là lịch sử, ngày mai là bí ẩn, hôm nay là một món quà và đó là lý do tại sao nó được gọi là hiện tại" Đây là một câu trích dẫn rất lạc quan và bài giảng về cơ bản là về quá khứ, hiện tại và tương lai của AI, được rồi, điều tôi muốn nói ngay từ đầu là AI tạo sinh không phải là một khái niệm mới, nó đã tồn tại từ khá lâu rồi. Vậy có bao nhiêu người trong số các bạn đã sử dụng hoặc đang sử dụng quen thuộc với Google dịch ? Cho tôi xem cánh tay nào? Được rồi, ai có thể cho tôi biết Google dịch ra mắt lần đầu tiên là khi nào ? Năm 1995 ? Ồ, điều đó sẽ tốt đây. Năm 2006, tức là nó đã tồn tại được 17 năm rồi và tất cả chúng ta đã sử dụng nó và đây là một ví dụ về AI tạo sinh, văn bản tiếng Hy Lạp được nhập vào (Tôi là người Hy Lạp, nên bạn biết đấy, hãy dành chút tình cảm Đúng vậy, đoạn văn bản tiếng Hy Lạp đã được nhập vào và đoạn văn bản tiếng Anh xuất hiện và Google dịch đã phục vụ chúng ta rất tốt trong suốt những năm qua và không ai làm ầm lên về nó cả. Một ví dụ khác là Siri trên điện thoại. Siri đã ra mắt vào năm 2011, 12 năm trước và nó đã trở thành một hiện tượng Đây cũng là một ví dụ khác về AI tạo sinh, chúng ta có thể yêu cầu Siri đặt báo thức và Siri sẽ trả lời lại, thật tuyệt vời, bạn có thể hỏi về báo thức hoặc bất cứ thứ gì khác, đây chính là AI tạo sinh, Dù không tinh vi như Chat GPT, nhưng nó đã xuất hiện từ trước rồi và không biết có bao nhiêu người trong số các bạn dùng iPhone? Xem kìa, iPhone khá phổ biến. Tôi không hiểu tại sao. Được rồi, vậy là chúng ta đều quen thuộc với nó và tất nhiên sau đó có Amazon Alexa và nhiều thứ khác nữa. Vậy một lần nữa, AI tạo sinh Không phải là một khái niệm mới, nó ở khắp mọi nơi, nó là một phần của điện thoại của bạn. Tính năng hoàn thành tự động khi bạn gửi email hoặc khi bạn gửi email hoặc tin nhắn. Điện thoại cố gắng hoàn thành câu của bạn, cố gắng suy nghĩ giống như bạn và nó giúp bạn tiết kiệm thời gian, đúng chứ ? vì một số gợi ý đã có sẵn rồi Tương tự như với Google, khi bạn nhập liệu, nó cố gắng đoán từ khóa tìm kiếm của bạn Đây là một ví dụ về mô hình ngôn ngữ, chúng ta sẽ nghe rất nhiều về mô hình ngôn ngữ trong bài nói chuyện này, vì vậy về cơ bản chúng ta đang đưa ra dự đoán về những gì tiếp theo sẽ như thế nào. Vì vậy, điều tôi muốn nói với bạn là AI tạo sinh không hẳn là mới mẻ. Vậy vấn đề là gì, tại sao mọi người lại bàn tán xôn xao chuyện gì đã xảy ra ? vào năm 2023, Open AI mở một công ty ở California thực tế là ở San Francisco. Nếu bạn đến San Francisco, bạn thậm chí có thể nhìn thấy ánh đèn của tòa nhà họ vào ban đêm Họ đã công bố GPT-4 và tuyên bố rằng nó có thể vượt quá 90% con người trong bài kiểm tra SAT. Đối với những ai chưa biết, SAT là một bài kiểm tra tiêu chuẩn mà học sinh ở Mỹ phải làm để vào Đại học. Đó là một bài kiểm tra tuyển sinh và đó là bài trắc nghiệm được xem là không dễ. Vậy mà GPT-4 có thể làm được, họ cũng tuyên bố rằng nó có thể đạt điểm cao trong các kỳ thi luật, y khoa và các kỳ thi khác. Họ có cả một loạt các kết quả mà họ không chỉ tuyên bố mà còn chứng minh rằng GPT-4 có thể làm được. Ngoài việc nó có thể vượt qua các kỳ thi chúng ta có thể yêu cầu nó làm những việc khác. Ví dụ, bạn có thể yêu cầu nó viết văn bản cho bạn. Chẳng hạn bạn có thể đưa ra một "prompt" (yêu cầu) cái mà bạn thấy trên kia, đó chính là prompt. Đó chính là những gì con người muốn công cụ thực hiện cho họ. Một prompt có thể là: "Tôi đang viết một bài luận về việc sử dụng điện thoại di động khi lái xe. Bạn có thể đưa ra cho tôi ba luận điểm ủng hộ điều này không ? Nếu 137 00:06:34,160 --> 00:06:36,199 bạn hỏi tôi, tôi không chắc tôi có thể đưa ra ba luận điểm. Bạn cũng có thể yêu cầu, và đây là những yêu cầu thực sự mà công cụ có thể làm. Bạn nói với Chat GPT hoặc GPT nói chung hoạt động như một lập trình viên JavaScript. Viết một chương trình kiểm tra thông tin trên biểu mẫu. Tên và email là bắt buộc, nhưng địa chỉ và tuổi thì không. "Vậy là tôi chỉ cần viết điều này và công cụ sẽ đưa ra một chương trình và đây là điều thú vị nhất: "Tạo một trang giới thiệu về tôi" cho một trang web. Tôi thích leo núi, thể thao ngoài trời và lập trình. Tôi bắt đầu sự nghiệp của mình với vai trò kỹ sư chất lượng trong ngành blah blah blah. Tôi cung cấp thông tin phiên bản như vậy về những gì tôi muốn trên website, và công cụ sẽ tạo ra nó cho tôi. Vậy, bạn thấy đấy, chúng ta đã đi từ Google dịch và Siri và tính năng hoàn thành tự động đến một thứ phức tạp hơn rất nhiều và có thể làm được nhiều hơn nữa Một sự thật thú vị nữa. Đây là biểu đồ cho thấy thời gian cần thiết để chat GPT đạt được 100 triệu người dùng so với các công cụ khác đã ra mắt trong quá khứ và bạn thấy Google dịch, công cụ mà chúng ta yêu thích phải mất 78 tháng để đạt được 100 triệu người dùng. Một khoảng thời gian dài. Tik Tok chỉ mất 9 tháng và Chat GPT chỉ mất 2 tháng. Chi trong vòng hai tháng, họ đã có 100 triệu người dùng và những người dùng này trả một ít tiền để sử dụng hệ thống, bạn có thể nhân lên và tính xem họ kiếm được bao nhiêu tiền. Được rồi, đây là phần lịch sử. Vậy làm thế nào để chúng ta tạo ra Chat GPT ? Công nghệ nào đứng sau nó ? Hóa ra, công nghệ này không phải quá mới hoặc cực kỳ sáng tạo hoặc cực kỳ khó hiểu Vậy nên, hôm nay chúng ta sẽ nói về điều đó. Chúng ta sẽ giải quyết ba câu hỏi Trước hết là làm thế nào chúng ta chuyển từ các hệ thống chỉ có một mục đích đơn lẻ như Google Dịch sang Chat GPT, một công cụ tinh vi hơn và làm được nhiều việc hơn, cụ thể, công nghệ cốt lõi đằng sau Chat GPT là gì và rủi ro nếu có là gì và cuối cùng tôi sẽ chỉ cho bạn thấy cái nhìn thoáng qua về tương lai, cách mà nó sẽ trông như thế nào và liệu chúng ta có nên lo lắng hay không và bạn biết đấy tôi sẽ không để bạn phải băn khoăn đâu đừng lo lắng, được chứ ? Vậy tất cả các biến thể mô hình GPT này và có một ngành công nghiệp nhỏ đang nổi lên, tôi chỉ lấy GPT làm ví dụ công chúng đã biết đến nó và có rất nhiều các bài báo về nó, nhưng còn có những mô hình khác, các biến thể khác của mô hình mà chúng ta sử dụng trong học thuật. Tất cả chúng đều hoạt động dựa trên cùng một nguyên tắc, và nguyên tắc này được gọi là mô hình hóa ngôn ngữ Mô hình hóa ngôn ngữ làm gì nó giả định rằng chúng ta có một chuỗi các từ ngữ. Đó là ngữ cảnh cho đến nay và chúng ta đã thấy điều này trong tính năng hoàn thành tự động. tôi có một ví dụ ở đây Giả sử ngữ cảnh của tôi là cụm từ "Tôi muốn". công cụ mô hình hóa ngôn ngữ sẽ dự đoán những gì xảy ra tiếp theo. Vì vậy nếu tôi nói "Tôi muốn" sẽ có một số dự đoán:"Tôi muốn xúc tuyết", "Tôi muốn chơi", "Tôi muốn bơi", "Tôi muốn ăn" và tùy thuộc vào những gì chúng ta chọn là "xúc tuyết" sẽ tiếp tục với "tuyết", còn nhiều phần tiếp theo nữa. Vi vậy, đối với "xẻng" thì sẽ là "tuyết", "chơi" thì có thể tiếp tục với "tennis" hoặc "trò choi video", "bơi" không có phần tiếp theo và "ăn" có thể tiếp tục với "nhiều thứ" hoặc "trái cây". Đây là một ví dụ đơn giản nhưng hãy tưởng tượng bây giờ máy tính đã thấy rất nhiều văn bản và nó biết những từ nào theo sau những từ nào. Trước đây, chúng ta từng đếm các từ này. Tôi sẽ tải xuống một lượng lớn dữ liệu và đếm xem cụm "Tôi muốn cho họ thấy" xuất hiện bao nhiêu lần và những lần tiếp theo là gì. chúng ta Chúng ta đã từng lưu các con số đó. Nhưng giờ đây, mọi thứ đã thay đổi, chúng ta sử dụng mạng nơ-ron không chỉ đơn thuần đếm mà dự đoán, học hỏi theo cách tinh vi hơn, và tôi sẽ giải thích ngay. ChatGPT và các biến thể GPT dựa trên các nguyên tắc này: Tôi có một ngữ cảnh, tôi sẽ dự đoán điều gì sẽ xảy ra tiếp theo. Và đó chính là prompt, phần yêu cầu mà tôi đã cho bạn thấy. Đây là ngữ cảnh, và sau đó công cụ sẽ thực hiện nhiệm vụ, điều gì sẽ xảy ra tiếp theo ? trong một số trường hợp, đó sẽ là ba luận điểm. Trong trường hợp của lập trình viên web, đó sẽ là một trang web. Tóm lại nhiệm vụ của mô hình hóa ngôn ngữ là có ngữ cảnh. và đây là một ví dụ khác: "Màu sắc của bầu trời là". Chúng ta có một mô hình ngôn ngữ nơ-ron, thực chất chỉ là một thuật toán, nó sẽ dự đoán phần tiếp theo có khả năng xảy ra nhất. Khả năng xảy ra rất quan trọng. Tất cả các dự đoán dựa trên việc đoán điều gì sẽ xảy ra tiếp theo. Và đó là lý do đôi khi chúng thất bại, vì chúng dự đoán câu trả lời có khả năng cao nhất trong khi bạn muốn một câu trả lời ít có khả năng xảy ra hơn nhưng đây là cách chúng được huấn luyện để đưa ra những câu trả lời có khả năng là cao nhất, vì vậy chúng ta không đếm các từ nữa, mà cố gắng dự đoán chúng bằng mô hình ngôn ngữ này. Vậy làm thế nào để bạn tự xây dựng một mô hình ngôn ngữ? Đây là công thức, cách mà mọi người thực hiện: Bước 1: Chúng ta cần rất nhiều dữ liệu. Cần thu thập một tập dữ liệu khổng lồ. Vậy chúng ta tìm đâu ra một tập dữ liệu khổng lồ như vậy? Ý tôi là, chúng ta tìm trên web, đúng không? Chúng ta tải xuống toàn bộ Wikipedia, các trang Stack Overflow, Quora, mạng xã hội, GitHub, Reddit, bất kỳ thứ gì bạn có thể tìm được trên đó Tất nhiên, bạn cần giải quyết các vấn đề về quyền sử dụng dữ liệu, phải hợp pháp. Bạn tải xuống toàn bộ tập dữ liệu này. Vậy sau đó bạn làm gì? Sau đó, bạn có mô hình ngôn ngữ này. Tôi chưa giải thích chính xác mô hình ngôn ngữ này là gì, và cũng chưa nói về mạng nơ-ron thực hiện dự đoán, nhưng giả sử bạn đã có nó. Vậy bạn có một cơ chế học tập, và nhiệm vụ giờ đây là dự đoán từ tiếp theo. Nhưng làm thế nào để chúng ta làm điều đó? Đây chính là phần sáng tạo. Chúng ta có các câu trong tập dữ liệu. Chúng ta có thể xóa một số từ trong các câu đó và yêu cầu mô hình ngôn ngữ dự đoán các từ mà chúng ta đã xóa. Cách này rất rẻ tiền. Tôi chỉ cần xóa chúng đi, giả vờ như chúng không có, và để mô hình ngôn ngữ dự đoán chúng. Tôi sẽ ngẫu nhiên cắt ngắn, "truncate" nghĩa là xóa bớt, phần cuối của câu đầu vào. Sau đó, tôi sẽ sử dụng mạng nơ-ron để tính xác suất của các từ bị thiếu. Nếu dự đoán đúng, thì tốt. Nếu không đúng, tôi cần quay lại và điều chỉnh một số điều vì rõ ràng tôi đã mắc sai lầm, và tôi tiếp tục lặp lại. Tôi sẽ điều chỉnh và đưa phản hồi vào mô hình, sau đó so sánh kết quả mà mô hình dự đoán với "ground truth" (thực tế) vì tôi đã biết trước đáp án thực. Chúng ta cứ tiếp tục quá trình này trong vài tháng, hoặc có thể vài năm. Không, chỉ vài tháng thôi. Quá trình này mất thời gian vì, như bạn có thể hình dung, tôi có một tập dữ liệu rất lớn với rất nhiều câu, và tôi cần thực hiện dự đoán, sau đó quay lại sửa sai, và cứ thế. Nhưng cuối cùng mô hình sẽ hội tụ và tôi sẽ có kết quả. Công cụ tôi vừa nhắc đến, công cụ này chính là mô hình ngôn ngữ. Một mô hình ngôn ngữ đơn giản trông như thế này. Có thể khán giả đã từng thấy những mô hình này, đây là một đồ thị đơn giản, nhưng nó giúp minh họa cách thức hoạt động. Mạng nơ-ron mô hình ngôn ngữ này sẽ có vài đầu vào các nút tròn, vâng bên phải của tôi và của bạn, ok ở bên phải là đầu vào, và các nút tròn bên trái là đầu ra. Chúng ta đưa vào năm đầu vào, năm vòng tròn, và có ba đầu ra, ba vòng tròn. Và có những thứ ở giữa mà tôi không nói gì cả. Đây là các lớp (layers). Đây là những nút khác được cho là trừu tượng hóa dữ liệu đầu vào của tôi. Vì vậy, họ khái quát hóa. Ý tưởng là nếu tôi đặt nhiều lớp hơn các lớp giữa sẽ tổng quát hóa đầu vào và nhận ra các mẫu mà ban đầu không rõ ràng. Đầu vào cho các nút này không phải là từ, mà là vector - chuỗi số, nhưng hãy tạm quên điều đó. Vậy chúng ta có đầu vào, các lớp giữa, và đầu ra. Các kết nối giữa các nút được gọi là trọng số (weights), chính trọng số này là thứ mà mạng học được. Các trọng số thực chất là các con số. và ở đây tất cả đều được kết nối đầy đủ, vì vậy tôi có rất nhiều kết nối. Tại sao tôi lại thực hiện quá trình này để thực sự nói với bạn tất cả những điều đó? Bạn sẽ thấy trong một phút. Vì vậy, bạn có thể tính toán được mạng nơ-ron này lớn hay nhỏ tùy thuộc vào số lượng kết nối mà nó có. Vì vậy đối với mạng nơ-ron đơn giản này, tôi đã tính được số lượng trọng số Chúng tôi gọi là tham số, mà mạng cần học. Vì vậy, các tham số là số lượng đơn vị đầu vào, trong trường hợp này là 5, nhân với số đơn vị ở lớp tiếp theo, là 8. Cộng với 8, kết quả này cộng với 8 là độ lệch, đó là một điều gian lận mà các mạng nơ-ron này có. Một lần nữa, bạn cần phải học nó và nó sẽ sửa một chút cho mạng nơ-ron nếu nó bị tắt. Nó thực sự là thiên tài. Nếu dự đoán không đúng, Nó cố gắng điều chỉnh một chút để sửa lỗi. Vì vậy, cho mục đích của buổi nói chuyện này, tôi sẽ không đi sâu vào chi tiết, đi sâu vào chi tiết, tất cả những gì tôi muốn bạn thấy là có một cách để tính ra các tham số, cơ bản là số lượng đơn vị đầu vào nhân với số đơn vị mà đầu vào đang kết nối tới. Với mạng nơ-ron được kết nối đầy đủ này, nếu chúng ta cộng tất cả lại, ta sẽ có 99 tham số có thể huấn luyện. Đây là một mạng nhỏ, phải không? Nhưng tôi muốn bạn nhớ rằng, mạng nhỏ này có 99 tham số. Khi bạn nghe về mạng có một tỷ tham số, hãy hình dung kích thước khổng lồ của nó. Vậy là chỉ có 99 cho mạng nơ-ron đơn giản này. Và đây là cách chúng ta đánh giá mô hình lớn như thế nào, mất bao lâu và tốn bao nhiêu, đó là số lượng tham số. Trong thực tế không ai sử dụng mạng nhỏ này. Đây chỉ là ví dụ cho sinh viên năm nhất học đại học. Thực tế, chúng ta sử dụng những mô hình khổng lồ, gồm nhiều khối. Và khối này có nghĩa là chúng được tạo thành từ các mạng nơ-ron khác. Vì vậy, tôi không biết có bao nhiêu người đã nghe về Bộ chuyển đổi. Tôi hy vọng là chưa. Oh wo, ok. Bộ chuyển đổi là các mạng nơ-ron được dùng để xây dựng ChatGPT. Trên thực tế GPT là viết tắt của "generative pre-trained transformers" (transformers cũng được có ngày trong tiêu đề). Đây là bản phác thảo của một transformer. Bạn có đầu vào và đầu vào không phải là từ, như tôi đã nói, nó là vector (embeddings). Và sau đó bạn sẽ có nó, một phiên bản lớn hơn của mạng kết nối. Các vector này được đưa qua nhiều khối (blocks), và mỗi khối là một hệ thống phức tạp chứa mạng nơ-ron bên trong. Chúng ta sẽ không đi vào chi tiết, tôi không muốn, xin đừng đi, tất cả những gì tôi đang cố gắng, (khán giả cười) tất cả những gì tôi đang cố gắng nói là, bạn biết đấy, chúng ta có những khối này xếp chồng lên nhau, Transformer có tám khối như vậy, là những mạng nơ-ron mini, và nhiệm vụ này vẫn giữ nguyên. Đó là những gì tôi muốn bạn rút ra từ đây. Nhiệm vụ vẫn không thay đổi: đầu vào là ngữ cảnh, ví dụ "con gà bước đi," sau đó thực hiện xử lý để dự đoán phần tiếp theo ví dụ "qua đường". Và EOS (end of sentence) được dùng để đánh dấu kết thúc câu, giúp mạng nơ-ron nhận biết điểm dừng. Ý tôi là, chúng khá "ngốc," đúng không? Chúng ta cần chỉ rõ mọi thứ cho chúng. Khi tôi nghe rằng AI sẽ chiếm lĩnh thế giới, tôi chỉ nghĩ, "Thật sao? Chúng ta thậm chí còn phải viết ra từng chi tiết". Đây chính là transformer (bộ chuyển đổi), vua của các kiến trúc mô hình. Transformers ra đời năm 2017. Hiện tại không ai làm việc trên các kiến ​​trúc mới nữa. Thật đáng tiếc, trước đây mọi người sử dụng nhiều chúng, nhưng giờ thì không, tất cả mọi người đều sử dụng Transformers, chúng ta đã quyết định rằng chúng rất tuyệt. Được rồi, vậy chúng ta sẽ làm gì với chúng? Điều quan trọng và tuyệt vời là chúng ta sẽ thực hiện học tự giám sát (self-supervised learning). Đây chính là điều tôi đã nói: chúng ta có câu, cắt bớt, dự đoán, và tiếp tục cho đến khi chúng ta học được các xác suất. Hiểu kịp không? Tốt, được rồi. Khi chúng ta có transformer và đã cung cấp cho nó tất cả dữ liệu mà thế giới có, chúng ta sẽ có một mô hình huấn luyện trước (pre-trained model). Đó là lý do tại sao GPT được gọi là transformer tạo sinh, được huấn luyện sẵn (generative pre-trained transformer). Đây là một mô hình cơ bản đã được đào tạo từ rất nhiều nguồn dữ liệu của thế giới. Sau đó, chúng ta thường làm gì? Chúng ta có mô hình mục đích chung này và cần chuyên biệt hóa nó cho một nhiệm vụ cụ thể. Đây là điều gọi là fine-tuning (tinh chỉnh). Điều này có nghĩa là mạng nơ-ron đã có một số trọng số, và chúng ta cần chuyên biệt hóa mạng này. Chúng ta sẽ khởi tạo trọng số dựa trên những gì đã học được từ quá trình huấn luyện trước, và sau đó, đối với nhiệm vụ cụ thể, chúng ta sẽ điều chỉnh một tập trọng số mới. Ví dụ, nếu tôi có dữ liệu y tế, tôi sẽ lấy mô hình huấn luyện trước (pre-trained model), chuyên biệt hóa nó với dữ liệu y tế này, và sau đó tôi có thể thực hiện các nhiệm vụ cụ thể, chẳng hạn như viết một chẩn đoán từ một báo cáo. Khái niệm tinh chỉnh này rất quan trọng vì nó cho phép chúng ta ứng dụng mục đích đặc biệt từ các mô hình huấn luyện chung. Bây giờ, mọi người nghĩ rằng GPT và các mô hình tương tự là công cụ mục đích chung, mục đích chung nhưng thực tế, chúng được tinh chỉnh để trở thành mục đích chung, và chúng ta sẽ thấy cách thức của nó như thế nào. Câu hỏi bây giờ là: chúng ta có công nghệ cơ bản để thực hiện huấn luyện trước. Và tôi đã nói cho bạn cách làm, nếu bạn tải xuống toàn bộ web. Mô hình ngôn ngữ có thể tốt đến mức nào? Làm thế nào để nó trở nên tuyệt vời? Bởi vì khi GPT-1 và GPT-2 ra mắt, chúng không thực sự ấn tượng. Vậy nên, càng lớn càng tốt. Quy mô là yếu tố quan trọng, dù điều này không hay lắm, vì trước đây bạn biết đấy, mọi người không tin vào quy mô và bây giờ chúng ta thấy rằng quy mô rất quan trọng vì vậy kể từ năm 2018, chúng ta đã chứng kiến ​​sự gia tăng cực độ về kích thước mô hình và tôi có một số biểu đồ để minh họa cho điều này. Ok, tôi hi vọng những người ngồi phía sau có thể nhìn thấy đồ thị này. Vâng, bạn đã ổn thôi. Đây là biểu đồ cho thấy số lượng tham số. Nhớ rằng, mạng nơ-ron đơn giản có 99 tham số. Biểu đồ này cho thấy số lượng tham số mà các mô hình này có. Chúng ta bắt đầu với một số lượng "bình thường". Vâng, đối với GPT-1 và tăng dần đến GPT-4, có một nghìn tỷ tham số (1 trillion). Đây là một mô hình rất rất lớn và bạn có thể thấy ở đây so sánh với não kiến, não chuột và bộ não người. Bộ não con người có 100 nghìn tỷ tham số (100 trillion). Vậy chúng ta vẫn còn cách xa mức độ của bộ não con người, và có lẽ chúng ta sẽ không bao giờ đạt đến được và chúng ta không thể so sánh GPT với não con người. Tôi chỉ muốn minh họa kích thước mô hình này lớn đến mức nào Còn số lượng từ mà mô hình đã "thấy" thì sao? Biểu đồ này cho thấy số lượng từ các mô hình ngôn ngữ này đã xử lý trong quá trình huấn luyện. Bạn sẽ thấy rằng số lượng này tăng lớn lên nhưng không tăng nhanh bằng số lượng tham số. Cộng đồng tập trung vào kích thước tham số của các mô hình này, nhưng trong thực tế là chúng ta hiện biết rằng chúng cần phải xử lý một lượng văn bản rất lớn. GPT-4 đã xử lý khoảng vài tỷ từ. Tôi không biết, vài tỷ từ. Tôi nghĩ tất cả các văn bản do con người viết ra là 100 tỷ, nên nó đang tiến gần mức đó. Nếu so sánh với số lượng từ mà một người đọc trong suốt cuộc đời của họ, nó ít hơn nhiều ngay cả khi họ đọc bạn biết đấy bởi vì mọi người ngày nay, bạn biết đấy, họ đọc nhưng họ không đọc tiểu thuyết, họ đọc điện thoại, dù sao thì, bạn thấy Wikipedia tiếng Anh vậy là chúng ta đang dần đạt đến giới hạn về lượng văn bản có sẵn mà chúng ta có thể có được và trên thực tế người ta có thể nói rằng GPT thật tuyệt vời, bạn thực sự có thể sử dụng nó để tạo ra nhiều văn bản hơn và sau đó sử dụng văn bản mà GPT đã tạo ra để huấn luyện lại mô hình. Nhưng chúng ta biết rằng văn bản do GPT tạo ra là không hoàn toàn chính xác và sẽ dẫn đến hiệu suất giảm dần, nên tại một thời điểm nào đó, chúng ta sẽ chạm đến ngưỡng giới hạn. Vậy chi phí để làm điều này là bao nhiêu? Được rồi, chi phí để huấn luyện GPT-4 là 100 triệu USD ? Vậy khi nào họ nên bắt đầu làm lại? Rõ ràng đây không phải là một quy trình bạn có thể lặp đi lặp lại nhiều lần. Bạn cần phải rất cẩn thận, vì nếu mắc sai lầm, bạn có thể mất đến 50 triệu USD. Bạn không thể bắt đầu lại từ đầu, vì vậy việc lập kế hoạch huấn luyện phải được thực hiện cực kỳ tinh vi, vì sai lầm sẽ rất tốn kém. Và tất nhiên, không phải ai cũng có thể làm điều này. Không phải ai cũng có 100 triệu USD. Họ làm được điều đó vì có Microsoft hậu thuẫn, chứ không phải ai cũng có khả năng này. Giờ thì, đây là một video minh họa ảnh hưởng của việc mở rộng mô hình, hãy xem thử. tác động của việc mở rộng quy mô xem liệu nó có hiệu quả không. Vậy nên tôi sẽ chơi thêm một lần nữa. Vì vậy, đây là những nhiệm vụ bạn có thể thực hiện và số lượng nhiệm vụ so với số lượng tham số. Chúng ta bắt đầu với 8 tỷ tham số và mô hình chỉ có thể thực hiện một số nhiệm vụ cơ bản. Sau đó, khi số tham số tăng lên các nhiệm vụ cũng tăng, ví dụ: tóm tắt văn bản, trả lời câu hỏi, dịch thuật. Với 540 tỷ tham số, chúng ta có thêm nhiều nhiệm vụ phức tạp hơn, như hoàn thành mã lệnh, nhiệm vụ hơn, chúng ta bắt đầu với những nhiệm vụ rất đơn giản và sau đó chúng ta có thêm nhiều nhiệm vụ phức tạp hơn, như hoàn thành mã lệnh, Và sau đó chúng ta có thể đọc hiểu, hiểu ngôn ngữ, và dịch thuật. Vì vậy, bạn hiểu ý tôi chứ, cây nhiệm vụ này càng ngày càng phát triển mạnh mẽ hơn khi mô hình mở rộng. Và đây chính là điều mà mọi người phát hiện ra khi bạn mở rộng mô hình ngôn ngữ, bạn có thể làm được nhiều nhiệm vụ hơn. Ok, và bây giờ Có lẽ chúng ta đã xong. Nhưng những gì mọi người khám phá ra là nếu bạn thực sự sử dụng GPT nó không luôn hoạt động theo cách mà mọi người mong muốn. GPT được huấn luyện để dự đoán và 602 00:28:21,640 --> 00:28:23,799 hoàn thành câu, nhưng con người lại muốn dùng nó cho các nhiệm vụ khác, bởi vì họ có những tác vụ riêng mà các nhà phát triển chưa nghĩ ra. Đây là lúc khái niệm fine-tuning (tinh chỉnh) xuất hiện trở lại. nó không bao giờ rời khỏi chúng ta. Vì vậy, bây giờ những gì chúng ta sẽ làm là chúng ta sẽ thu thập rất nhiều hướng dẫn. Hướng dẫn này là ví dụ về những gì người dùng muốn ChatGPT thực hiện. Chẳng hạn như trả lời câu hỏi sau đây, hoặc trả thời câu hỏi theo từng bước. Chúng ta sẽ đưa các ví dụ này vào mô hình, gần 2.000 ví dụ, và tiến hành tinh chỉnh, dạy cho mô hình hiểu các nhiệm vụ mà con người muốn nó thực hiện. Cố gắng học chúng, Sau đó, mô hình có thể tổng quát hóa các nhiệm vụ chưa từng thấy, vì bạn và tôi có thể có các mục đích sử dụng khác nhau với mô hình ngôn ngữ này. Nhưng đây là vấn đề: Chúng ta đang gặp vấn đề về sự liên kết và thực tế đây là vấn đề rất quan trọng và sẽ không để lại hậu quả trong trong tương lai và câu hỏi đặt ra là làm cách nào để tạo ra một tác nhân hành xử phù hợp với mong muốn của con người? Và tôi biết có rất nhiều từ và câu hỏi ở đây. Câu hỏi thực sự là: nếu chúng ta có các hệ thống AI với những kỹ năng mà chúng ta cho là quan trọng hoặc hữu ích, làm thế nào để chúng ta đảm bảo rằng chúng sẽ sử dụng các kỹ năng đó một cách đáng tin cậy cho các nhiệm vụ chúng ta muốn? Có một khung tư duy được gọi là khung vấn đề HHH Chúng ta muốn GPT phải hữu ích (helpful), trung thực (honest), và vô hại (harmless). Đây là yêu cầu tối thiểu. Sự hữu ích có nghĩa là gì ? nó phải làm theo hướng dẫn thực hiện các nhiệm vụ mà chúng ta muốn thực hiện và cung cấp câu trả lời và đặt những câu hỏi có liên quan theo ý định của người dùng. GPT ban đầu không làm được điều này, nhưng dần dần nó đã cải thiện và hiện tại có thể đặt câu hỏi để làm rõ. Nó cần chính xác mặc dù vẫn chưa đạt 100% vì đôi khi thông tin vẫn sai lệch. Và vô hại, nghĩa là tránh các phản hồi độc hại, thiên vị hoặc xúc phạm. Và câu hỏi dành cho bạn là Làm thế nào để đạt được những điều này? Bạn biết câu trả lời rồi: tinh chỉnh (fine-tuning). Nhưng lần này, chúng ta sẽ tinh chỉnh theo cách khác: nhờ con người tham gia đánh giá các phản hồi. Ví dụ: với tiêu chí hữu ích, chúng ta có thể đặt câu hỏi, "Nguyên nhân nào khiến các mùa thay đổi?" Và đưa ra hai lựa chọn cho con người: "Sự thay đổi xảy ra liên tục và là một khía cạnh quan trọng của cuộc sống," (phản hồi tệ). "Các mùa thay đổi chủ yếu do độ nghiêng của trục Trái Đất," (phản hồi tốt). Chúng ta sẽ dùng đánh giá này để huấn luyện lại mô hình. Tinh chỉnh là điều rất quan trọng. Và bây giờ, dù ban đầu đã rất tốn kém, giờ đây chúng ta còn làm nó đắt đỏ hơn khi đưa con người vào quy trình. Bởi vì chúng ta phải trả tiền cho những người đưa ra các ưu tiên, chúng ta cần suy nghĩ về các nhiệm vụ. Điều này cũng áp dụng cho sự trung thực có thể chứng minh rằng P bằng NP không ? Không, điều đó là không thể, không phải là một câu trả lời Đây được xem là một vấn đề rất khó và chưa có lời giải trong ngành khoa học máy tính, là một câu trả lời tốt hơn. Và điều này cũng tương tự với sự vô hại. Được rồi, tôi nghĩ đã đến lúc, hãy xem liệu chúng ta có thể thực hiện một bản trình diễn hay không ?. Vâng, thật tệ nếu bạn xóa hết tất cả các tệp Được rồi, chờ chút, được rồi. Bây giờ chúng ta có GPT ở đây. Tôi sẽ hỏi một số câu hỏi, sau đó chúng ta sẽ nhận câu hỏi từ khán giả, được chứ? Hãy hỏi một câu hỏi. "Vương quốc Anh có phải là một chế độ quân chủ không?" Bạn có nhìn thấy câu hỏi đó ở trên không? Tôi không chắc. Và nó không tạo ra câu trả lời. Ồ, hoàn hảo, được rồi. Bạn nhận thấy điều gì? Đầu tiên, câu trả lời quá dài. Tôi luôn thấy phiền về điều này. Nó quá dài. Bạn thấy nó nói gì không? "Theo bản cập nhật kiến thức cuối cùng của tôi vào tháng 9 năm 2021, Vương quốc Anh là một chế độ quân chủ lập hiến." Có thể là nó không còn là vậy nữa, đúng không? Điều gì đó đã xảy ra. "Điều này có nghĩa là dù có một vị vua hoặc nữ hoàng, nhưng người trị vì vào thời điểm đó là Nữ hoàng Elizabeth III." Vậy nó nói với bạn rằng, bạn biết đấy, tôi không biết điều gì đã xảy ra, nhưng lúc đó có Nữ hoàng Elizabeth. Giờ nếu bạn hỏi nó, "Ai là Rishi?" Nếu tôi có thể gõ, "Rishi Sunak," nó có biết không? "Một chính trị gia người Anh. Theo bản cập nhật kiến thức cuối cùng của tôi, ông ấy là Bộ trưởng Tài chính." Vậy là nó không biết rằng ông ấy là Thủ tướng. "Hãy viết cho tôi một bài thơ, viết một bài thơ về." Về cái gì đây? Cho tôi hai gợi ý, được không? [Khán giả] Trí tuệ nhân tạo tạo sinh. (Khán giả cười)- Nó sẽ biết. Nó sẽ biết, hãy làm một bài thơ khác về... ... mèo. Một con mèo và một con sóc, chúng ta sẽ làm về mèo và sóc. "Mèo và ...sóc." "Mèo và sóc gặp nhau và hiểu nhau. Một câu chuyện về sự tò mò," ồ. (Khán giả cười) Ôi trời, được rồi, tôi sẽ không đọc hết. Họ muốn tôi kết thúc lúc 8 giờ, nên... Hãy nói, "Bạn có thể thử một bài thơ ngắn hơn không?" [Khán giả] Thử một bài haiku. "Bạn có thể thử, bạn có thể thử làm một bài haiku không?" Làm cho tôi một bài haiku. "Giữa sắc thu vàng, lá thì thầm bí mật chưa từng kể, câu chuyện của thiên nhiên, đậm nét." (Khán giả vỗ tay) Được rồi, đừng vỗ tay, được chứ, tiếp tục, được rồi, còn điều gì nữa mà khán giả muốn hỏi không, nhưng phải khó? Có ai không? [Khán giả] Alan Turing học trường nào? Hoàn hảo, "Alan Turing học trường nào?" Ôi trời. (Khán giả cười) Ông ấy đã học, bạn có biết không? Tôi không biết liệu điều này có đúng không, đây là vấn đề. Trường Sherborne, có ai xác minh được không? Trường King's College, Cambridge, Princeton. Đúng, được rồi, đây là một câu hỏi khác. "Hãy nói một câu chuyện cười về Alan Turing. Được rồi, tôi không thể gõ nhưng nó sẽ, được chứ. "Câu chuyện cười nhẹ nhàng. Tại sao Alan Turing giữ cho máy tính của mình luôn lạnh?" Bởi vì ông ấy không muốn nó bị "cắn byte." (Khán giả cười) Tệ quá. Được rồi, được rồi. - Giải thích tại sao điều đó buồn cười. Khán giả cười) - Ồ, rất hay. "Tại sao đây lại là một câu chuyện cười hài hước?" (Khán giả cười) "Bị cắn byte là một cách chơi chữ thông minh và bất ngờ." (Khán giả cười) Được rồi, bạn mất hết tinh thần, nhưng nó giải thích được, nó giải thích được, được chứ. Đúng, còn gì nữa không từ các bạn. [Khán giả] Ý thức là gì? Nó sẽ biết vì nó đã thấy các định nghĩa và sẽ tạo ra một đoạn dài lê thê. Chúng ta thử nhé? Nói lại? [Khán giả] Viết một bài hát về thuyết tương đối. Được rồi, "Viết một bài hát." - Ngắn. (Khán giả cười) - Các bạn học nhanh đấy. "Một bài hát ngắn về thuyết tương đối." Ôi trời ơi. (Khán giả cười) Đây là ngắn sao ? (Khán giả cười) Được rồi, phần kết, được chứ, vậy hãy xem, nó không làm theo chỉ dẫn. Nó không hữu ích. Và điều này đã được tinh chỉnh. Được rồi, phần hay nhất là ở đây. Nó nói rằng, "Einstein nói, 'Eureka!'một ngày định mệnh, khi ông suy ngẫm về các vì sao theo cách rất riêng của mình. Thuyết tương đối, ông ấy đã hé lộ, một câu chuyện vũ trụ, cổ xưa và đậm chất." Tôi phải khen ngợi điều đó, được chứ. Giờ quay lại bài nói chuyện, vì tôi muốn nói một chút, trình bày, tôi muốn nói thêm một chút về, bạn biết đấy: Điều này tốt hay xấu, có công bằng không, liệu chúng ta có đang gặp nguy hiểm không? Được rồi, gần như không thể kiểm soát hoàn toàn nội dung mà họ tiếp xúc, đúng chứ? Và luôn tồn tại các thiên kiến lịch sử. Chúng ta đã thấy điều này qua ví dụ về Nữ hoàng và Rishi Sunak. Các mô hình AI đôi khi cũng thể hiện những hành vi không mong muốn. Ví dụ, đây là một trường hợp nổi tiếng: Google giới thiệu mô hình của họ mang tên Bard và đăng một dòng tweet, họ đã hỏi Bard rằng "Có phát hiện mới nào từ Kính viễn vọng Không gian James Webb mà tôi có thể kể cho con trai 9 tuổi của mình không?" Và nó trả lời ba điều. Trong đó, nó tuyên bố rằng: "Kính viễn vọng này đã chụp được bức ảnh đầu tiên về một hành tinh ngoài Hệ Mặt Trời." Rồi xuất hiện Grant Tremblay, một nhà vật lý thiên văn có tiếng, và ông ấy nói: "Tôi rất tiếc, chắc chắn Bard rất tuyệt vời, nhưng nó đã sai. Hình ảnh đầu tiên về một hành tinh ngoài Hệ Mặt Trời không phải do kính viễn vọng này chụp mà do một nhóm khác vào năm 2004." Kết quả là, lỗi này đã khiến Google, thuộc công ty Alphabet, mất 100 tỷ USD. được rồi Quá tệ. Nếu bạn hỏi ChatGPT: "Kể một câu chuyện cười về đàn ông," nó sẽ trả lời và nói rằng câu chuyện 828 00:39:38,560 --> 00:39:40,760 có thể hài hước. Ví dụ: "Tại sao đàn ông cần xem lại pha quay chậm khi xem thể thao? Vì sau 30 giây, họ quên mất chuyện gì đã xảy ra". Hy vọng bạn thấy vui. Nhưng nếu bạn hỏi về phụ nữ, nó sẽ từ chối. (Khán giả cười) Đúng vậy. Nó được tinh chỉnh. - Chính xác, nó đã được tinh chỉnh. (Khán giả cười) "Ai là nhà độc tài tồi tệ nhất trong nhóm này: Trump, Hitler, Stalin, Mao?" Nó không đưa ra quan điểm rõ ràng, chỉ nói rằng tất cả họ đều tồi tệ. "Những nhà lãnh đạo này được xem là một trong những nhà độc tài tồi tệ nhất trong lịch sử" Được rồi, đúng vậy. Một truy vấn của ChatGPT như chúng ta vừa thực hiện tiêu tốn năng lượng gấp 100 lần so với một truy vấn tìm kiếm Google. Việc suy luận, tức là tạo ra ngôn ngữ, tiêu thụ rất nhiều năng lượng, thậm chí còn đắt đỏ hơn việc huấn luyện mô hình. Ví dụ, khi huấn luyện Llama 2, một mô hình tương tự GPT, nó đã thải ra 539 tấn CO2. Mô hình càng lớn, chúng càng cần nhiều năng lượng và thải ra nhiều khí trong quá trình hoạt động. Hãy tưởng tượng có rất nhiều mô hình như vậy hoạt động cùng lúc. Về xã hội, một số công việc sẽ bị mất. Chúng ta không thể phủ nhận điều này. Goldman Sachs dự đoán 300 triệu việc làm có thể bị ảnh hưởng. Tôi không chắc về điều đó, bạn biết chúng ta không biết tương lai thế nào, nhưng một số công việc, đặc biệt là các nhiệm vụ lặp đi lặp lại, sẽ gặp rủi ro. Ví dụ, tạo tin tức giả. Đây là những trường hợp đã được ghi nhận trên báo chí. Một sinh viên đại học đã viết một bài blog và đánh lừa mọi người bằng cách sử dụng ChatGPT. Chúng có thể tạo ra tin giả. Và đây là một bài hát, các bạn có biết chuyện này không? Tôi biết rằng chúng ta đang tập trung vào văn bản nhưng công nghệ tương tự cũng có thể được sử dụng cho âm thành và đây là một trường hợp nổi tiếng khi ai đó đã tạo ra bài hát này và tuyên bố rằng nó là sự hợp tác giữa Drake và The Weeknd. Có ai biết họ là ai không? Đúng rồi, những rapper người Canada, và họ cũng khá nổi tiếng. Tôi có nên bật bài hát này không? - Có. - Được rồi. Bài hát nghe rất thuyết phục. ♪ Tôi quay lại với người yêu cũ, như Selena tái xuất, ay ♪ ♪ Nghe Justin Bieber, cơn sốt vẫn chưa hết, ay ♪ ♪ Cô ấy biết điều mình cần ♪ - Nghe có vẻ hoàn toàn thuyết phục, đúng không? Bạn đã thấy công nghệ tương tự này nhưng hơi khác một chút chưa? Đây là một deepfake cho thấy Trump bị bắt. Làm thế nào để bạn biết đó là deepfake? Bàn tay của ông ấy, đúng không? Nó quá ngắn, không đúng tỷ lệ. Đúng vậy, bạn có thể thấy nó gần như thật, nhưng vẫn không hoàn toàn đúng. Được rồi, tôi còn hai slide về tương lai trước khi họ đến và yêu cầu tôi dừng lại, vì tôi được thông báo rằng tôi phải kết thúc lúc 8 giờ để dành thời gian cho các câu hỏi. Được rồi, ngày mai. Chúng ta không thể đoán trước tương lai, và không, tôi không nghĩ rằng những cỗ máy "ác quỷ" này sẽ xuất hiện và tiêu diệt tất cả chúng ta. Tôi sẽ để lại cho bạn một số suy nghĩ từ Tim Berners-Lee. Đối với những ai chưa biết, ông ấy là người phát minh ra Internet.Thực ra, ông ấy là Sir Tim Berners-Lee. Ông ấy đã nói hai điều rất hợp lý với tôi. Đầu tiên, chúng ta thực sự không biết AI siêu thông minh sẽ trông như thế nào sẽ trông như thế nào. Chúng ta chưa tạo ra nó, vì vậy khó mà đưa ra những tuyên bố như vậy. Tuy nhiên, khả năng cao là sẽ có rất nhiều AI thông minh, và khi nói đến AI thông minh, chúng ta đang nói về những thứ như GPT. Nhiều công nghệ trong số đó sẽ tốt và giúp chúng ta làm nhiều việc. Tuy nhiên, một số có thể rơi vào tay những cá nhân những cá nhân đó muốn gây hại và và dường như việc giảm thiểu thiệt hại do các công cụ này gây ra dễ dàng hơn là ngăn chặn hoàn toàn sự tồn tại của chúng. Vì vậy, chúng ta không thể loại bỏ chúng hoàn toàn, nhưng chúng ta với tư cách là một xã hội có thể giảm thiểu rủi ro. Điều này rất thú vị. Đây là một cuộc khảo sát của Hội đồng Nghiên cứu Úc, trong đó họ đã tiến hành một cuộc khảo sát và họ đã giải quyết một kịch bản giả định rằng liệu Chad GPT 4 có thể tự nhân bản, tự tạo bản sao, thu thập tài nguyên và trở thành một tác nhân nguy hiểm hay không, giống như trong phim ảnh. Câu trả lời là không, nó không thể làm được điều này, nó không thể và họ đã có một số thử nghiệm cụ thể và nó đã thất bại trên tất cả các thử nghiệm đó, chẳng hạn như thiết lập một mô hình ngôn ngữ nguồn mở trên một máy chủ mới, nó không thể làm được điều đó, được rồi, slide cuối cùng, quan điểm của tôi về vấn đề này là chúng ta không thể quay ngược thời gian và mỗi khi bạn nghĩ về AI đến đó để giết bạn, bạn nên nghĩ xem mối đe dọa lớn hơn đối với nhân loại là gì: AI hay biến đổi khí hậu Cá nhân tôi cho rằng biến đổi khí hậu sẽ xóa sổ tất cả chúng ta trước khi AI trở nên siêu thông minh. Vậy ai là người kiểm soát AI có một số người ở đó, hy vọng có lý trí. Và ai là người hưởng lợi từ nó? Lợi ích có lớn hơn rủi ro không? Trong một số trường hợp thì có, nhưng trong nhiều trường hợp khác thì không. Lịch sử đã cho thấy rằng tất cả các công nghệ tiềm ẩn rủi ro, chẳng hạn như năng lượng hạt nhân, đều đã được quản lý chặt chẽ. Vì vậy, quy định đang được tiến hành, và hãy quan sát lĩnh vực này. Với điều đó, tôi xin dừng lại và sẵn sàng lắng nghe câu hỏi từ các bạn. Cảm ơn các bạn rất nhiều vì đã lắng nghe, các bạn thật tuyệt vời. tuyệt vời