Bài viết này được tổng hợp từ một cuộc phỏng vấn podcast với Giám đốc điều hành Anthropic Dario Amodei.
Anthropic là công ty xếp thứ hai trên mạng LLM, được Dario Amodei thành lập vào tháng 1 năm 2021. Vào tháng 7 năm nay, Anthropic đã ra mắt mẫu xe thế hệ mới nhất Claude 2. Dario Amodei từng là phó chủ tịch phụ trách nghiên cứu và an toàn của OpenAI, ông thành lập Anthropic vì cho rằng có rất nhiều vấn đề an toàn trong các mô hình lớn cần được giải quyết khẩn cấp, vì vậy Anthropic rất coi trọng An toàn AI. để xây dựng các hệ thống AI đáng tin cậy (Reliable), có thể giải thích được và có thể điều khiển được. Sự khác biệt lớn nhất giữa các lộ trình Anthropic và OpenAI cũng là sự tập trung của chúng vào khả năng diễn giải.
Trong cuộc phỏng vấn, Dario giải thích sự tập trung và đầu tư của Anthropic vào khả năng diễn giải. Khả năng diễn giải là một trong những cách quan trọng để đảm bảo an toàn cho mô hình, **tương tự như chụp X-quang và kiểm tra MRI trên mô hình, giúp các nhà nghiên cứu có thể hiểu điều gì đang xảy ra bên trong mô hình và xác định các nguồn rủi ro có thể xảy ra. Để thực sự hiểu lý do tại sao Luật mở rộng quy mô hoạt động và làm thế nào để đạt được sự liên kết không thể tách rời khỏi khả năng diễn giải. **Dario tin rằng An toàn AI và sự liên kết đều quan trọng như nhau. Một khi có vấn đề với sự liên kết, các vấn đề an toàn AI do lạm dụng gây ra cũng cần được quan tâm như nhau.
Dario tin rằng khả năng của mô hình sẽ được cải thiện đáng kể trong 2-3 năm tới, thậm chí có thể "thống lĩnh xã hội loài người", nhưng nó không thể thực sự tham gia vào các liên kết kinh doanh và kinh tế này không phải do khả năng của mô hình, nhưng vì nhiều ma sát vô hình này, mọi người không sử dụng các mô hình đủ hiệu quả để nhận ra tiềm năng thực sự của chúng trong cuộc sống và công việc thực tế.
So với các CEO của hầu hết các công ty AI, Dario hầu như không tham gia các cuộc phỏng vấn công khai và hiếm khi bày tỏ quan điểm của mình trên Twitter.
Sau đây là mục lục của bài viết này, và nên đọc nó kết hợp với những điểm chính.
👇
01 Tại sao luật nhân rộng hoạt động
02 Khả năng của người mẫu sẽ sánh ngang với con người như thế nào?
03 Căn chỉnh: Khả năng diễn giải là "chụp X-quang" mô hình
04 An toàn AGI: An toàn AI và An ninh mạng
05 Thương mại hóa và Ủy thác lợi ích lâu dài
Tại sao Luật mở rộng hoạt động
**Dwarkesh Patel: Niềm tin của bạn vào Quy luật mở rộng đến từ đâu? Tại sao khả năng của mô hình trở nên mạnh mẽ hơn khi kích thước của dữ liệu tăng lên? **
**Dario Amodei: Quy luật co giãn ở một mức độ nhất định là một bản tóm tắt thực nghiệm. Chúng tôi nhận thức hiện tượng này từ nhiều dữ liệu và hiện tượng khác nhau, và tóm tắt nó thành Quy luật co giãn, nhưng không có lời giải thích nào được chấp nhận rộng rãi và đặc biệt tốt để giải thích nó. Hãy giải thích những gì nguyên tắc thiết yếu của chức năng của nó là. **
Nếu phải đưa ra lời giải thích, cá nhân tôi suy đoán rằng điều này có thể tương tự như phân phối đuôi dài hoặc Định luật lũy thừa trong vật lý. Khi có nhiều đặc điểm (tính năng), dữ liệu có tỷ lệ tương đối lớn thường tương ứng với các quy tắc và mẫu cơ bản chiếm ưu thế hơn, vì các mẫu này thường xuyên xuất hiện nên lượng dữ liệu tương ứng đương nhiên nhiều hơn, trong khi dữ liệu đuôi dài chủ yếu là một số quy tắc chi tiết và phức tạp hơn. **Ví dụ: khi xử lý dữ liệu liên quan đến ngôn ngữ, một số quy tắc cơ bản có thể được quan sát thấy trong hầu hết dữ liệu, chẳng hạn như các quy tắc ngữ pháp cơ bản như một phần của lời nói, cấu trúc trật tự từ, v.v. và các quy tắc tương đối dài. là ngữ pháp phức tạp.
Đây là lý do tại sao mỗi khi dữ liệu tăng lên theo một mức độ lớn, mô hình có thể tìm hiểu thêm các quy tắc hành vi. Nhưng những gì chúng ta không biết là tại sao lại có một mối tương quan tuyến tính hoàn hảo giữa hai điều này. Nhà khoa học trưởng của Anthropic, Gerard Kaplan, đã sử dụng chiều không gian fractal (Fractal Dimension) để giải thích vấn đề này.Tất nhiên, những người khác đang thử các phương pháp khác để xác minh Định luật Sacling, nhưng cho đến nay chúng ta vẫn chưa thể giải thích tại sao.
*• Kích thước Fractal:
Nhà toán học Felix Hausdorff lần đầu tiên đề xuất khái niệm về chiều fractal vào năm 1918, sau này còn được gọi là Chiều Hausdorff. Thứ nguyên Fractal có thể được sử dụng để mô tả cấu trúc mối quan hệ tính năng ẩn trong dữ liệu máy học và cung cấp mô hình giải thích toán học đằng sau hiệu ứng Chia tỷ lệ, từ đó giải thích lý do tại sao các mô hình AI có thể cải thiện hiệu suất theo quy mô.
** Ngoài ra, ngay cả khi chúng ta biết về sự tồn tại của Quy luật nhân rộng, rất khó để dự đoán những thay đổi trong các khả năng cụ thể của mô hình. Trong quá trình nghiên cứu GPT-2 và GPT-3, chúng tôi không biết khi nào mô hình có thể học cách tính toán và lập trình và những khả năng này đột ngột xuất hiện. ** Điều duy nhất có thể dự đoán là ở cấp độ số, chẳng hạn như giá trị tổn thất, sự thay đổi của giá trị entropy, v.v. có thể được dự đoán khá chính xác, nhưng như thể chúng ta có thể thống kê dữ liệu thời tiết và dự đoán xu hướng thay đổi toàn bộ thời tiết, nhưng rất khó để dự đoán thời tiết và nhiệt độ của một ngày cụ thể.
**Dwarkesh Patel: Tại sao một người mẫu đột nhiên có khả năng nhất định? Ví dụ, trước đây nó không hiểu phép cộng, nhưng bây giờ nó đã thành thạo khả năng tính toán? Điều gì gây ra sự thay đổi này? **
Dario Amodei: Đây là một câu hỏi khác mà chúng tôi vẫn đang khám phá. Chúng tôi thử dùng phương pháp Khả năng diễn giải cơ học (Mechanistic Interpretability) để giải thích vấn đề này, và giải thích các hiện tượng ngôn ngữ với một ý tưởng tương tự như sự liên kết mạch, có thể hình dung những điều này như những mạch nối từng mạch một.
Có một số bằng chứng cho thấy khi một mô hình được cung cấp thứ gì đó, xác suất đưa ra câu trả lời đúng của nó đột nhiên tăng lên, nhưng nếu chúng ta nhìn vào sự thay đổi trước khi mô hình thực sự đưa ra câu trả lời đúng, thì chúng ta sẽ thấy rằng xác suất đó là từ một phần trăm. , một phần trăm nghìn từ từ leo lên một phần nghìn. Trong nhiều trường hợp như vậy, dường như có một quá trình dần dần nào đó đang diễn ra mà chúng ta chưa quan sát được và chưa tìm ra.
Chúng ta không thể chắc chắn liệu một “mạch” như “sự cộng” có luôn tồn tại từ ngày 1 hay không, nhưng chuyển dần từ yếu sang mạnh bằng một quá trình cụ thể, để mô hình có thể đưa ra câu trả lời chính xác. Đây là những câu hỏi chúng tôi muốn trả lời thông qua khả năng giải thích cơ học.
*• Khả năng giải thích cơ học:
Khả năng diễn giải cơ chế là nghiên cứu về kỹ thuật đảo ngược mạng thần kinh, có thể được sử dụng để giúp mọi người dễ hiểu hơn cách mô hình ánh xạ đầu vào thành đầu ra và đó là một cách để nhận ra khả năng diễn giải của mô hình. Mục tiêu chính của khả năng giải thích cơ chế là hiểu học sâu như một môn khoa học tự nhiên, sử dụng cấu trúc và tham số của mô hình để giải thích quá trình ra quyết định và kết quả dự đoán của mô hình, để người dùng có thể hiểu và xác minh nguyên tắc hoạt động của mô hình. ngươi mâu. Công việc ban đầu của nó tập trung vào việc sử dụng phương pháp trực quan hóa ma trận và tính năng để hiểu các biểu diễn ở các lớp trung gian của mạng trực quan và gần đây đã tập trung vào các biểu diễn cho mạng đa phương thức, cũng như hiểu biết về thuật toán mạng thần kinh ở cấp độ đường dẫn.
Anthropic đã xuất bản một nghiên cứu về khả năng diễn giải cơ chế "Khả năng diễn giải cơ học, các biến và tầm quan trọng của các cơ sở có thể diễn giải".
**Dwarkesh Patel: Có khả năng nào không đi kèm với kích thước của mô hình không? **
**Dario Amodei: Các khả năng liên quan đến giá trị và căn chỉnh mô hình có thể không xuất hiện một cách tự nhiên với kích thước mô hình. **Một cách nghĩ cho rằng quá trình đào tạo mô hình về cơ bản là để dự đoán và hiểu thế giới, và trách nhiệm chính của mô hình là về các sự kiện, không phải quan điểm hay giá trị. Nhưng có một số biến số miễn phí ở đây: bạn nên thực hiện hành động nào? Bạn nên chọn quan điểm nào? Bạn nên chú ý đến những yếu tố nào? Nhưng không có nhãn dữ liệu như vậy để mô hình học hỏi. Do đó, tôi nghĩ rằng sự xuất hiện của Sự liên kết và các giá trị, v.v. là khó xảy ra.
**Dwarkesh Patel: Có khả năng nào là trước khi khả năng của mô hình bắt kịp với trí thông minh của con người, dữ liệu có sẵn để đào tạo sẽ được sử dụng hết không? **
**Dario Amodei:**Tôi nghĩ cần phân biệt đây là vấn đề lý thuyết hay tình huống thực tế. Từ quan điểm lý thuyết, chúng ta không còn xa việc cạn kiệt dữ liệu, nhưng quan điểm cá nhân của tôi là điều đó khó xảy ra. Chúng tôi có thể tạo dữ liệu theo nhiều cách, vì vậy dữ liệu không thực sự là một trở ngại. Có một tình huống khác mà chúng tôi sử dụng hết tất cả các tài nguyên máy tính có sẵn, dẫn đến tiến độ chậm trong các khả năng của mô hình. Cả hai kịch bản đều có thể xảy ra.
** Quan điểm cá nhân của tôi là có khả năng cao Luật mở rộng sẽ không bị đình trệ và ngay cả khi có vấn đề, thì nhiều khả năng đó là nguyên nhân của kiến trúc máy tính. **Ví dụ: nếu chúng tôi sử dụng LSTM hoặc RNN, tốc độ phát triển của khả năng mô hình sẽ thay đổi. Nếu chúng ta gặp phải nút thắt cổ chai trong quá trình phát triển các khả năng của mô hình trong mọi tình huống kiến trúc, thì điều đó sẽ khá nghiêm trọng, bởi vì điều đó có nghĩa là chúng ta đã gặp phải một vấn đề sâu sắc hơn.
*• LSTM:
Mạng bộ nhớ ngắn hạn dài (Mạng bộ nhớ ngắn hạn dài), mạng RNN đặc biệt (mạng nơ ron tuần hoàn), có thể học các phụ thuộc dài hạn, giải quyết vấn đề của RNN truyền thống trong việc học các mẫu chuỗi dài và trích xuất dài hạn và ngắn hạn theo trình tự thông tin dữ liệu. Khả năng học tập và khả năng biểu diễn của LSTM mạnh hơn RNN tiêu chuẩn.
**Tôi nghĩ rằng chúng ta đã đạt đến một giai đoạn mà về bản chất có thể không có nhiều khác biệt khi nói về những gì một người mẫu có thể và không thể làm. ** Trước đây, mọi người sẽ hạn chế khả năng của mô hình, cho rằng mô hình không thể nắm vững khả năng suy luận, học lập trình và cho rằng nó có thể gặp phải tắc nghẽn ở một số khía cạnh. Mặc dù một số người, bao gồm cả tôi, trước đây không nghĩ như vậy, nhưng trong vài năm qua, loại lý thuyết thắt cổ chai này đã trở nên chủ đạo hơn, và bây giờ nó đã thay đổi.
**Nếu tác động của quá trình mở rộng quy mô mô hình trong tương lai gặp phải nút thắt cổ chai, tôi nghĩ vấn đề xuất phát từ thiết kế hàm mất mát tập trung vào nhiệm vụ dự đoán mã thông báo tiếp theo. **Khi chúng ta quá chú trọng vào khả năng suy luận và lập trình, sự mất mát của mô hình sẽ tập trung vào các dấu hiệu phản ánh khả năng này và các dấu hiệu của các vấn đề khác sẽ ít xuất hiện hơn (Lưu ý: Tập dữ liệu trước khi đào tạo của mô hình sẽ dựa trên tầm quan trọng mà các nhà khoa học đặt vào mức độ khả năng, điều chỉnh tỷ lệ của nó) **, hàm mất mát chú ý quá nhiều đến những mã thông báo cung cấp nhiều entropy thông tin nhất, trong khi bỏ qua những mã thực sự quan trọng, tín hiệu có thể bị nhấn chìm trong tiếng ồn. **
Nếu vấn đề này phát sinh, chúng ta cần giới thiệu một số loại quy trình học tăng cường.Có nhiều loại RL, chẳng hạn như học tăng cường với phản hồi của con người (RLHF), học tăng cường cho các mục tiêu và như AI hiến pháp, tăng cường (khuếch đại) và tranh luận (tranh luận) và những thứ tương tự. Đây vừa là phương pháp căn chỉnh mô hình vừa là cách huấn luyện mô hình. **Chúng ta có thể phải thử nhiều phương pháp, nhưng phải tập trung vào mục tiêu của mô hình là để làm gì. **
Một trong những vấn đề với việc học tăng cường là bạn cần thiết kế một hàm mất mát rất hoàn chỉnh. Hàm mất mát của dự đoán mã thông báo tiếp theo đã được thiết kế, vì vậy nếu quy mô theo hướng này đạt giới hạn trên, thì sự phát triển của AI sẽ chậm lại.
**Dwarkesh Patel: Bạn hiểu như thế nào về Scaling? **
** Dario Amodei: ** Quá trình hình thành quan điểm của tôi có thể bắt nguồn từ khoảng năm 2014 đến 2017. Tôi đã chú ý đến sự phát triển của AI, nhưng trong một thời gian dài tôi nghĩ rằng phải rất lâu nữa AI mới được ứng dụng thực sự, cho đến khi có sự xuất hiện của AlexNet. Sau đó, tôi tham gia nhóm dự án của Wu Enda tại Baidu vào thời điểm đó và đây là lần đầu tiên tôi tiếp xúc với AI.
Tôi cho rằng mình khá may mắn, không giống như các học giả khác vào thời điểm đó, tôi được giao nhiệm vụ tạo ra hệ thống nhận dạng giọng nói hiện đại nhất và có sẵn rất nhiều dữ liệu và GPU. **Trong quá trình thực hiện dự án này, tôi tự nhiên nhận ra rằng Scaling là một giải pháp tốt. Quá trình này cũng khác với nghiên cứu sau tiến sĩ, chúng ta không nhất thiết phải đưa ra những ý tưởng sáng tạo, thông minh chưa từng được đề xuất trước đó. **
Trong suốt dự án, tôi chỉ cần tiến hành một số thử nghiệm cơ bản như thêm nhiều lớp vào RNN, hoặc điều chỉnh các tham số đào tạo để cố gắng kéo dài thời gian đào tạo mô hình, trong giai đoạn này, tôi quan sát quá trình đào tạo mô hình và thấy mô phỏng Khi nó xảy ra. Tôi cũng đã thử thêm dữ liệu đào tạo mới hoặc giảm các vòng đào tạo lặp lại và quan sát tác động của những điều chỉnh này đối với hiệu suất của mô hình. Trong quá trình thực hiện các thí nghiệm này, tôi nhận thấy một số kết quả thường xuyên. Tuy nhiên, tôi không rõ liệu những tưởng tượng này có mang tính đột phá hay liệu các đồng nghiệp khác có khám phá tương tự hay không. Nhìn chung, đây chỉ là trải nghiệm may mắn của tôi với tư cách là người mới bắt đầu sử dụng AI. Tôi không biết nhiều về lĩnh vực này, nhưng vào thời điểm đó, tôi cảm thấy rằng điều này cũng được xác thực tương tự trong lĩnh vực nhận dạng giọng nói.
**Tôi biết Ilya trước khi OpenAI được thành lập và anh ấy nói với tôi rằng "chúng ta cần nhận ra rằng những mô hình này chỉ muốn học", quan điểm này phần lớn đã truyền cảm hứng cho tôi và khiến tôi nhận ra rằng quan sát trước đó Hiện tượng có thể không một trường hợp ngẫu nhiên nhưng một sự xuất hiện phổ biến. Các mô hình này chỉ cần học, chúng ta chỉ cần cung cấp dữ liệu chất lượng cao và tạo đủ chỗ cho chúng hoạt động, và các mô hình sẽ tự học. **
**Dwarkesh Patel: Ít người suy luận được quan điểm về "trí thông minh phổ quát" như bạn và Ilya. Làm thế nào để bạn nghĩ về câu hỏi này khác với những người khác? Điều gì khiến bạn nghĩ rằng các mô hình sẽ tiếp tục cải thiện trong nhận dạng giọng nói và tương tự như vậy trong các lĩnh vực khác? **
Dario Amodei: Tôi thực sự không biết, khi lần đầu tiên tôi quan sát thấy một hiện tượng tương tự trong lĩnh vực lời nói, tôi đã nghĩ đó chỉ là một quy luật áp dụng cho lĩnh vực nhận dạng giọng nói theo chiều dọc. Từ năm 2014 đến 2017, tôi đã thử nhiều thứ khác nhau và quan sát thấy điều tương tự lặp đi lặp lại. Ví dụ, tôi đã quan sát thấy điều này trong trò chơi Dota, mặc dù dữ liệu có sẵn trong lĩnh vực người máy tương đối hạn chế và nhiều người không lạc quan, nhưng tôi cũng đã quan sát thấy hiện tượng tương tự. **Tôi nghĩ mọi người có xu hướng tập trung vào giải quyết các vấn đề trước mắt, có thể họ sẽ chú ý nhiều hơn đến cách giải quyết vấn đề theo chiều dọc hơn là nghĩ về các vấn đề cấp thấp hơn theo chiều ngang, vì vậy họ có thể không xem xét đầy đủ khả năng Thu nhỏ giới tính. Ví dụ, trong lĩnh vực robot, vấn đề cơ bản nhất có thể là không đủ dữ liệu đào tạo, nhưng rất dễ kết luận rằng Scaling không hoạt động. **
**Dwarkesh Patel: Khi nào bạn nhận ra rằng ngôn ngữ có thể là một cách để cung cấp lượng dữ liệu khổng lồ vào các mô hình này? **
**Dario Amodei:**Tôi nghĩ điều quan trọng nhất là khái niệm học tự giám sát dựa trên dự đoán mã thông báo tiếp theo, cũng như một số lượng lớn kiến trúc để dự đoán. Điều này thực sự tương tự như logic của việc kiểm tra sự phát triển của trẻ. Ví dụ, Mary bước vào phòng và đặt một đồ vật, sau đó Chuck bước vào và di chuyển đồ vật mà Mary không để ý, Mary nghĩ gì? Để hoàn thành loại dự đoán này, mô hình phải giải quyết đồng thời các vấn đề toán học, vấn đề tâm lý, v.v. Vì vậy, theo tôi, để đưa ra những dự đoán tốt, bạn phải cung cấp dữ liệu cho mô hình và để nó học mà không có bất kỳ ràng buộc nào.
Mặc dù tôi đã có cảm giác tương tự từ lâu, nhưng cho đến khi Alec Radford thực hiện một số thử nghiệm trên GPT-1, tôi mới nhận ra rằng chúng ta không chỉ có thể triển khai một mô hình có khả năng dự đoán mà còn có thể tinh chỉnh nó. Tôi nghĩ rằng điều này mang lại cho chúng ta khả năng thực hiện tất cả các loại nhiệm vụ, để có thể giải quyết tất cả các loại vấn đề bao gồm cả suy luận logic. Tất nhiên, chúng tôi cũng có thể tiếp tục mở rộng kích thước mô hình.
• Alec Radford, tác giả của Sentiment Neuron, tiền thân của loạt bài GPT và là đồng tác giả của loạt bài báo về GPT, vẫn đang làm việc tại OpenAI.
**Dwarkesh Patel: Bạn nghĩ việc đào tạo người mẫu đòi hỏi nhiều dữ liệu như thế nào? Bạn có nên lo lắng về hiệu quả thấp của việc đào tạo người mẫu? **
Dario Amodei: Câu hỏi này vẫn đang được khám phá. Một giả thuyết cho rằng kích thước của mô hình thực tế nhỏ hơn 2-3 bậc so với bộ não con người, nhưng lượng dữ liệu cần thiết để huấn luyện mô hình lại lớn hơn từ 3 đến 4 lần so với lượng văn bản mà một đứa trẻ 18 tuổi đọc được. -con người già, cấp độ lớn, cấp độ lớn của con người có lẽ là hàng trăm triệu, trong khi cấp độ lớn của các mô hình là hàng trăm tỷ hoặc hàng nghìn tỷ. Lượng dữ liệu mà con người thu được không lớn nhưng hoàn toàn đủ để chúng ta xử lý công việc và cuộc sống hàng ngày. Nhưng có một khả năng khác, ngoài việc học, các giác quan của chúng ta thực sự đang đưa thông tin vào não.
Thực ra có một nghịch lý ở đây, mô hình mà chúng ta đang có tuy nhỏ hơn não người nhưng lại có thể hoàn thành nhiều nhiệm vụ tương tự như não người, đồng thời lượng dữ liệu mà mô hình này yêu cầu cũng lớn hơn rất nhiều. đó của bộ não con người. Vì vậy chúng ta vẫn cần tiếp tục khám phá và tìm hiểu vấn đề này, nhưng ở một mức độ nào đó, những điều này không quan trọng. **Quan trọng hơn, làm thế nào để đánh giá khả năng của mô hình và làm thế nào để đánh giá khoảng cách giữa họ và con người. Theo như tôi biết, khoảng cách không còn xa nữa. **
**Dwarkesh Patel: Việc nhấn mạnh vào Mở rộng quy mô và rộng hơn là năng lực mô hình ổ đĩa điện toán quy mô lớn có đánh giá thấp vai trò của tiến trình thuật toán không? **
**Dario Amodei: **Khi bài báo Transformer lần đầu tiên được phát hành, tôi đã viết về các vấn đề liên quan và đề cập rằng có 7 yếu tố liên quan sẽ ảnh hưởng đến việc cải thiện khả năng của mô hình, trong đó có 4 yếu tố rõ ràng và quan trọng nhất: số lượng tham số mô hình, quy mô sức mạnh tính toán, chất lượng dữ liệu và hàm mất mát. Ví dụ: các tác vụ như học tăng cường hoặc dự đoán mã thông báo tiếp theo phụ thuộc rất nhiều vào việc có chức năng mất mát chính xác hoặc cơ chế khuyến khích.
• Học tăng cường (RL):
Tìm hướng hành động tối ưu cho từng trạng thái cụ thể của môi trường thông qua quy trình thử và sai cơ bản. Mô hình học máy sẽ đưa ra một quy tắc ngẫu nhiên ngay từ đầu, đồng thời nhập một lượng điểm nhất định (còn được gọi là phần thưởng) cho mô hình mỗi khi thực hiện một hành động.
• Hàm mất mát (loss function) trong học máy đề cập đến chức năng đo lường mức độ phù hợp, được sử dụng để phản ánh mức độ khác biệt giữa đầu ra mô hình và giá trị thực, nghĩa là để đo lường dự đoán error; bao gồm dự đoán của tất cả các điểm mẫu Error, cung cấp một giá trị duy nhất để thể hiện mức độ phù hợp tổng thể; đồng thời, trong quá trình đào tạo, các tham số mô hình sẽ được điều chỉnh liên tục theo giá trị của hàm mất mát, trong để giảm thiểu giá trị tổn thất và có được hiệu ứng phù hợp tốt hơn.
Ngoài ra còn có 3 yếu tố:
Đầu tiên là tính đối xứng của cấu trúc, nếu kiến trúc không tính đến tính đối xứng chính xác thì nó sẽ không hoạt động và sẽ rất kém hiệu quả. Ví dụ, mạng nơ-ron tích chập (CNN) xem xét tính đối xứng tịnh tiến (translational object), LSTM xem xét tính đối xứng thời gian (time Symmetry), nhưng vấn đề với các LSTM là chúng không chú ý đến ngữ cảnh, điểm yếu về cấu trúc này là của chung. Nếu mô hình không thể hiểu và xử lý lịch sử quá khứ lâu dài (liên quan đến dữ liệu xuất hiện trước đó trong cấu trúc dữ liệu trình tự) vì lý do cấu trúc, nó sẽ giống như việc tính toán không mạch lạc.
*• Adam(Ước tính thời điểm thích ứng):
Ước lượng thời điểm thích ứng, thuật toán Adam kết hợp các ưu điểm của RMSprop và SGD, đồng thời có thể xử lý tốt các bài toán tối ưu không lồi.
*• SGD(Giảm dần độ dốc ngẫu nhiên):
Stochastic Gradient Descent, một phương pháp lặp lại để tối ưu hóa một hàm mục tiêu với các thuộc tính độ trơn phù hợp như khả vi hoặc khả vi. Nó có thể được xem như một xấp xỉ ngẫu nhiên để tối ưu hóa độ dốc giảm dần. Trong các vấn đề tối ưu hóa chiều cao, điều này làm giảm gánh nặng tính toán và cho phép lặp lại nhanh hơn để đổi lấy tốc độ hội tụ thấp hơn.
Sau đó, có sự ổn định về số (lưu ý: điều hòa, đề cập đến việc liệu thuật toán có được điều chỉnh tốt trong phân tích số hay không, nếu không, một thay đổi nhỏ trong dữ liệu của bài toán sẽ gây ra thay đổi lớn trong giải pháp của nó). Việc tối ưu hóa các hàm mất mát rất khó và dễ phân biệt. Đó là lý do tại sao Adam hoạt động tốt hơn STD thông thường.
Yếu tố cuối cùng là đảm bảo quá trình tính toán mô hình không bị cản trở thì thuật toán mới thành công.
Do đó, sự tiến bộ của thuật toán không chỉ đơn giản là tăng cường khả năng tính toán của máy tính mà còn loại bỏ những trở ngại nhân tạo của kiến trúc cũ. Nhiều khi mô hình muốn tự do học hỏi, tính toán lại bị chúng ta chặn lại mà chúng ta không hề hay biết.
**Dwarkesh Patel: Bạn có nghĩ rằng sẽ có thứ gì đó ở quy mô Transformer để thúc đẩy sự lặp lại lớn tiếp theo không? **
Dario Amodei: Tôi nghĩ là có thể. Một số người đã cố gắng mô phỏng sự phụ thuộc dài hạn. Tôi cũng quan sát thấy rằng một số ý tưởng trong Transformer không đủ hiệu quả để biểu diễn hoặc xử lý mọi thứ. ** Tuy nhiên, cho dù loại đổi mới này không xuất hiện, chúng ta cũng đã phát triển rất nhanh, nếu nó xuất hiện, chỉ làm cho lĩnh vực này phát triển nhanh hơn, gia tốc có thể không nhiều như vậy, bởi vì tốc độ đã rất nhanh . **
**Dwarkesh Patel: Về mặt thu thập dữ liệu, mô hình có nhất thiết phải có trí thông minh thể hiện không? **
Dario Amodei: Tôi có xu hướng không coi đó là một kiến trúc mới, mà là một hàm mất mát mới, bởi vì môi trường mà mô hình thu thập dữ liệu trở nên hoàn toàn khác, điều này rất quan trọng để học một số kỹ năng nhất định. Mặc dù việc thu thập dữ liệu rất khó khăn, nhưng ít nhất chúng tôi đã đạt được một số tiến bộ trên con đường thu thập văn bản và sẽ tiếp tục trong tương lai, mặc dù vẫn còn nhiều khả năng được phát triển về mặt thực tiễn cụ thể.
• Mất chức năng:
Đó là một khái niệm quan trọng trong học máy và học sâu. Nó được sử dụng để đo lường mức độ khác biệt giữa kết quả dự đoán của mô hình và nhãn thực, nghĩa là lỗi dự đoán của mô hình. Hàm mất mát được thiết kế để cho phép mô hình giảm thiểu lỗi dự đoán bằng cách điều chỉnh các tham số, từ đó cải thiện hiệu suất và độ chính xác của mô hình.
**Dwarkesh Patel: Có cách tiếp cận nào khác như RL không? **
Dario Amodei: Chúng tôi đã sử dụng phương pháp RLHF để học tăng cường, nhưng tôi nghĩ rất khó để phân biệt đây là Sự liên kết hay Khả năng? Hai người rất giống nhau. Tôi hiếm khi yêu cầu các mô hình thực hiện hành động thông qua RL. RL chỉ nên được sử dụng sau khi chúng ta đã để mô hình thực hiện các hành động trong một khoảng thời gian và hiểu hậu quả của những hành động đó. Vì vậy, tôi nghĩ rằng học tăng cường sẽ rất mạnh mẽ, nhưng cũng có nhiều vấn đề bảo mật về cách các mô hình thực hiện hành động trên thế giới
Học tăng cường là một công cụ thường được sử dụng khi các hành động được thực hiện trong một thời gian dài và hậu quả của những hành động đó chỉ được hiểu sau này.
**Dwarkesh Patel: Bạn nghĩ những công nghệ này sẽ được tích hợp vào các nhiệm vụ cụ thể trong tương lai như thế nào? Các mô hình ngôn ngữ này có thể giao tiếp với nhau, đánh giá lẫn nhau, tham khảo và cải thiện kết quả nghiên cứu tương ứng của chúng không? Hay mỗi mô hình hoạt động độc lập và chỉ tập trung vào việc cung cấp kết quả của chính nó mà không phối hợp với các mô hình khác? Liệu những mô hình ngôn ngữ cấp cao này có thể tạo thành một hệ thống hợp tác thực sự trong quá trình phát triển và ứng dụng trong tương lai hay mỗi mô hình sẽ làm một việc riêng? **
Dario Amodei: Mô hình có thể sẽ cần hoàn thành các tác vụ phức tạp hơn trong tương lai, đây là một xu hướng tất yếu. Tuy nhiên, vì lý do bảo mật, chúng tôi có thể cần giới hạn phạm vi áp dụng mô hình ngôn ngữ ở một mức độ nhất định để giảm thiểu rủi ro tiềm ẩn. **Có thể đối thoại giữa các người mẫu không? Chúng chủ yếu dành cho người dùng? Những vấn đề này đòi hỏi phải xem xét các ảnh hưởng xã hội, văn hóa và kinh tế ngoài trình độ kỹ thuật và rất khó dự đoán chính xác.
**Mặc dù chúng tôi có thể dự đoán xu hướng tăng kích thước mô hình, nhưng rất khó để đưa ra dự đoán đáng tin cậy về các vấn đề như thời gian thương mại hóa hoặc hình thức đăng ký. Bản thân tôi không giỏi dự đoán loại xu hướng phát triển trong tương lai này, và hiện tại không ai có thể làm rất tốt. **
**Khả năng của mô hình sẽ phù hợp với con người như thế nào? **
**Dwarkesh Patel: Nếu ai đó nói với tôi vào năm 2018 rằng chúng ta sẽ có một mẫu như Claude-2 vào năm 2023 với đủ loại khả năng ấn tượng, tôi chắc chắn sẽ nghĩ rằng AGI đã đạt được vào năm 2018. Nhưng rõ ràng, ít nhất là ở thời điểm hiện tại, và thậm chí có thể là trong các thế hệ tương lai, chúng ta nhận thức rõ rằng vẫn sẽ có sự khác biệt giữa trình độ AI và con người. Tại sao có sự khác biệt này giữa kỳ vọng và thực tế? **
**Dario Amodei: **Tôi mới sử dụng GPT-3 và trong giai đoạn đầu của Anthropic, cảm nhận chung của tôi về các mô hình này là: chúng dường như thực sự nắm bắt được bản chất của ngôn ngữ, tôi không chắc chúng ta cần phải mở rộng mô hình đến mức độ nào, có lẽ chúng ta cần quan tâm nhiều hơn đến các lĩnh vực khác như học tăng cường. Vào năm 2020, tôi nghĩ rằng có thể mở rộng quy mô mô hình hơn nữa, nhưng khi nghiên cứu đi sâu hơn, tôi bắt đầu suy nghĩ liệu việc thêm trực tiếp các khóa đào tạo mục tiêu khác như học tăng cường có hiệu quả hơn hay không.
** Chúng ta đã thấy trí tuệ con người thực ra là một phạm vi rất rộng, nên định nghĩa “máy móc đạt trình độ con người” bản thân nó cũng là một phạm vi, địa điểm và thời gian để máy móc đạt được những nhiệm vụ khác nhau là khác nhau. Ví dụ, nhiều lần, các mô hình này đã tiếp cận hoặc thậm chí vượt qua hiệu suất của con người, nhưng vẫn còn ở giai đoạn sơ khai khi cần chứng minh các định lý toán học tương đối đơn giản. Những điều này đều cho thấy rằng trí thông minh không phải là một quang phổ (spectrum) liên tục. ** Có nhiều loại kiến thức và kỹ năng chuyên môn trong các lĩnh vực khác nhau và phương pháp ghi nhớ cũng khác nhau. Nếu bạn hỏi tôi 10 năm trước (Ghi chú: Dario vẫn đang học vật lý và khoa học thần kinh vào thời điểm đó), tôi sẽ không tưởng tượng được trường hợp này sẽ xảy ra.
**Dwarkesh Patel: Bạn nghĩ những mô hình này sẽ thể hiện bao nhiêu điểm trùng lặp trong phạm vi kỹ năng từ việc phân phối đào tạo mà những mô hình này nhận được từ lượng dữ liệu internet khổng lồ mà con người có được từ quá trình tiến hóa? **
Dario Amodei: Có sự chồng chéo đáng kể. Nhiều mô hình đóng một vai trò trong các ứng dụng thương mại, giúp con người nâng cao hiệu quả một cách hiệu quả. Với sự đa dạng trong các hoạt động của con người và sự phong phú của thông tin trên internet, tôi nghĩ rằng các mô hình học ở một mức độ nào đó các mô hình vật lý của thế giới thực, nhưng chúng không học cách vận hành trong thực tế thực tế, những kỹ năng có thể tương đối dễ dàng để tinh chỉnh . Tôi nghĩ có một số điều mà người mẫu không học được, nhưng con người thì có.
**Dwarkesh Patel: Liệu người mẫu có thể vượt qua con người trong nhiều công việc liên quan đến kinh doanh và kinh tế trong vài năm tới? Đồng thời, các mô hình vẫn có thể kém hơn con người trong một số nhiệm vụ, do đó tránh được sự bùng nổ trí thông minh tương tự? **
Dario Amodei: Câu hỏi này khó đoán. Điều tôi muốn nhắc là quy luật Scaling có thể cung cấp một số ý tưởng dự đoán từ góc độ cơ sở lý thuyết, nhưng sẽ rất khó để thực sự nắm bắt được các chi tiết của sự phát triển trong tương lai. Luật mở rộng quy mô có thể tiếp tục được áp dụng, tất nhiên, và liệu các yếu tố an toàn hoặc quy định có làm chậm tiến độ hay không, nhưng nếu gạt những xung đột này sang một bên, tôi nghĩ rằng nếu AI có thể tiến xa hơn trong việc tạo ra giá trị kinh tế, thì nó phải tiến bộ hơn nữa sẽ được thực hiện trong nhiều lĩnh vực hơn.
Tôi không thấy mô hình nào hoạt động đặc biệt yếu kém trong bất kỳ lĩnh vực nào hoặc không đạt được tiến bộ nào cả. Giống như toán học và lập trình trong quá khứ, chúng khó nhưng cũng đạt được kết quả ngoài mong đợi. Trong 6 tháng qua, mô hình 2023 đã có những tiến bộ đáng kể so với mô hình 2022. Mặc dù hiệu suất của mô hình trong các lĩnh vực và nhiệm vụ khác nhau không hoàn toàn cân bằng, nhưng việc cải thiện khả năng tổng thể chắc chắn sẽ có lợi cho tất cả các lĩnh vực.
**Dwarkesh Patel: Khi đối mặt với một nhiệm vụ phức tạp, người mẫu có khả năng thực hiện một chuỗi suy nghĩ trong một chuỗi các nhiệm vụ liên tục không? **
**Dario Amodei: **Khả năng ra quyết định liên tục phụ thuộc vào việc đào tạo học tăng cường, để mô hình có thể thực hiện các nhiệm vụ dài hạn hơn. **Và tôi không nghĩ rằng điều này đòi hỏi sức mạnh tính toán bổ sung ở quy mô lớn hơn. Suy nghĩ như thế này là một sự đánh giá thấp sai lầm về khả năng học tập của chính mô hình. **
Câu hỏi liệu các mô hình có vượt trội hơn con người trong một số lĩnh vực nhưng gặp khó khăn để làm như vậy ở những lĩnh vực khác hay không, tôi nghĩ nó phức tạp, trong một số lĩnh vực, điều đó có thể đúng, nhưng trong một số lĩnh vực thì không phải vì thế giới vật chất có liên quan đến các nhiệm vụ trí tuệ nhân tạo TRONG
Vì vậy, những gì tiếp theo? AI có thể giúp chúng ta đào tạo AI nhanh hơn có thể giải quyết những vấn đề đó không? Có phải thế giới vật chất không còn cần thiết? Chúng ta có lo lắng về các vấn đề căn chỉnh không? Có lo ngại về việc lạm dụng như tạo vũ khí hủy diệt hàng loạt không? Chúng ta có nên lo lắng rằng chính AI sẽ trực tiếp tiếp quản nghiên cứu AI trong tương lai không? Chúng ta có lo lắng rằng nó sẽ đạt đến một ngưỡng năng suất kinh tế nhất định để nó có thể thực hiện các nhiệm vụ như mức trung bình không? ... Tôi nghĩ những câu hỏi này có thể có những câu trả lời khác nhau, nhưng tôi nghĩ tất cả chúng sẽ có trong vòng vài năm tới.
**Dwarkesh Patel: Nếu Claude là nhân viên của Anthropic, mức lương của anh ta sẽ là bao nhiêu? Nó có đẩy nhanh sự phát triển của trí tuệ nhân tạo theo nghĩa thực tế không? **
Dario Amodei: Đối với tôi, trong hầu hết các trường hợp, có lẽ nó giống một thực tập sinh hơn, nhưng vẫn tốt hơn một thực tập sinh trong một số lĩnh vực cụ thể. Nhưng nói chung, có thể khó đưa ra câu trả lời tuyệt đối cho vấn đề này, bởi vì các mô hình về bản chất không phải là con người, chúng có thể được thiết kế để trả lời một hoặc một số câu hỏi, **nhưng không giống như con người, chúng không có khái niệm về "kinh nghiệm dựa trên thời gian". **
**Nếu AI muốn trở nên hiệu quả hơn, trước tiên nó phải giúp con người cải thiện năng suất của chính họ, sau đó dần dần đạt đến mức năng suất tương đương với con người. Bước tiếp theo sau đó là trở thành một lực lượng chính trong sự tiến bộ của khoa học, điều mà tôi tin rằng sẽ xảy ra trong tương lai. Nhưng tôi nghi ngờ rằng các chi tiết của những gì thực sự xảy ra trong tương lai bây giờ sẽ trông hơi kỳ lạ, khác với các mô hình mà chúng ta mong đợi. **
**Dwarkesh Patel: Bạn nghĩ khi nào thì khả năng của mô hình sẽ đạt đến trình độ của con người? Lúc đó sẽ như thế nào? **
Dario Amodei: Điều đó phụ thuộc vào mức độ kỳ vọng và tiêu chuẩn của con người cao hay thấp. Ví dụ: nếu kỳ vọng của chúng tôi chỉ là mô hình giao tiếp trong 1 giờ và mô hình có thể cư xử như một con người được giáo dục tốt trong suốt quá trình, thì mục tiêu làm cho mô hình đạt đến trình độ con người có thể không còn xa nữa, tôi nghĩ vậy. có thể trong 2 đến 3 năm nữa sẽ thành hiện thực. **Dòng thời gian này phần lớn bị ảnh hưởng bởi một công ty hoặc ngành quyết định giảm tốc độ phát triển hoặc các hạn chế của chính phủ vì lý do an toàn. **Nhưng từ góc độ dữ liệu, sức mạnh tính toán và tiết kiệm chi phí, chúng ta không còn xa mục tiêu này. **
Nhưng ngay cả khi mô hình đạt đến cấp độ này, ** Tôi không nghĩ rằng mô hình này có thể chi phối phần lớn nghiên cứu AI hoặc thay đổi đáng kể cách thức hoạt động của nền kinh tế, cũng như không nguy hiểm đáng kể. Vì vậy, về tổng thể, các tiêu chuẩn khác nhau đòi hỏi các mốc thời gian khác nhau để thực hiện, nhưng từ góc độ kỹ thuật thuần túy, sẽ không còn xa để đạt được một mô hình có thể so sánh với một con người được giáo dục cơ bản. **
**Dwarkesh Patel: Tại sao người mẫu có thể đạt được năng lực như con người với trình độ học vấn cơ bản, nhưng lại không thể tham gia hoạt động kinh tế hay thay thế vai trò của con người? **
**Dario Amodei:**Trước hết, mô hình có thể chưa đạt đến mức đủ cao. **Liệu nó có thể tăng năng suất của 1000 nhà khoa học giỏi lên một mức độ lớn trong lĩnh vực như nghiên cứu AI không? Lợi thế so sánh của mô hình về mặt này vẫn chưa rõ ràng. **
Hiện tại, các mô hình lớn vẫn chưa tạo ra những khám phá khoa học quan trọng, có thể là do trình độ của các mô hình này không đủ cao và hiệu suất của các mô hình này có thể chỉ tương đương với cấp B hoặc cấp B. Nhưng tôi tin rằng điều này sẽ thay đổi khi mở rộng quy mô mô hình. Các mô hình dẫn đầu các lĩnh vực khác trong việc ghi nhớ, tích hợp các sự kiện và tạo kết nối. Đặc biệt trong lĩnh vực sinh học, do sự phức tạp của các sinh vật, các mô hình hiện tại đã tích lũy một lượng lớn kiến thức. Khám phá và kết nối rất quan trọng trong lĩnh vực này. Không giống như vật lý, sinh học đòi hỏi nhiều dữ kiện chứ không chỉ công thức. Vì vậy, tôi chắc chắn rằng các mô hình đã có rất nhiều kiến thức, nhưng không thể kết hợp tất cả lại với nhau vì trình độ kỹ năng không đạt đến mức tối đa. Tôi nghĩ rằng họ đang dần phát triển để tích hợp kiến thức này ở cấp độ cao hơn.
Một lý do khác là có nhiều va chạm vô hình trong hoạt động kinh doanh thực tế mà mô hình không thể học được. Ví dụ, lý tưởng nhất là chúng ta có thể sử dụng AI bot để tương tác với khách hàng, nhưng tình hình thực tế phức tạp hơn nhiều so với lý thuyết và chúng ta không thể chỉ đơn giản dựa vào robot dịch vụ khách hàng hay hy vọng rằng AI có thể thay thế nhân viên con người để hoàn thành các nhiệm vụ này. Và trên thực tế, công ty vẫn phải trả chi phí để thúc đẩy việc triển khai mô hình một cách giả tạo, sự kết hợp giữa AI bot và quy trình làm việc, v.v.
**Nhiều trường hợp người dân sử dụng mô hình hiệu quả chưa cao, chưa phát huy hết tiềm năng của mô hình, không phải do mô hình không đủ năng lực mà do người dân phải mất thời gian nghiên cứu cách làm. làm cho nó chạy hiệu quả hơn. **
Nhìn chung, trong ngắn hạn, người mẫu sẽ không thay thế hoàn toàn con người, nhưng về lâu dài, khi người mẫu tiếp tục hoàn thiện và đóng vai trò lớn hơn trong việc nâng cao hiệu quả công việc của con người, con người cuối cùng sẽ nhường chỗ cho người mẫu. Chỉ là chúng tôi khó có thể xác định thời gian chính xác cho các giai đoạn khác nhau. Trong ngắn hạn, có nhiều trở ngại và yếu tố phức tạp khiến mô hình trở nên “hạn chế”, nhưng về bản chất, AI vẫn đang trong giai đoạn tăng trưởng theo cấp số nhân.
** Dwarkesh Patel: Sau khi chúng ta đạt được điểm này trong 2-3 năm tới, liệu toàn bộ AI có còn phát triển nhanh như ngày nay không? **
Dario Amodei: Vẫn chưa có bồi thẩm đoàn. Thông qua việc quan sát hàm mất mát, chúng tôi nhận thấy rằng hiệu quả của việc đào tạo mô hình đang giảm dần và đường cong Luật tỷ lệ không còn dốc như những ngày đầu. Điều này cũng được xác nhận bởi các mô hình được phát hành bởi các công ty khác nhau. Nhưng khi xu hướng này diễn ra, lượng nhỏ entropy trong mỗi dự đoán chính xác trở nên quan trọng hơn. Có lẽ chính những giá trị entropy cực nhỏ này đã tạo ra khoảng cách giữa Einstein và nhà vật lý trung bình. Xét về hiệu suất thực tế, số liệu dường như cải thiện theo kiểu tương đối tuyến tính, mặc dù khó dự đoán. Do đó, rất khó để thấy rõ những tình huống này. Ngoài ra, tôi nghĩ rằng yếu tố lớn nhất thúc đẩy sự tăng tốc là ngày càng có nhiều tiền đổ vào không gian này và mọi người nhận ra rằng có giá trị kinh tế rất lớn trong không gian này. Vì vậy, tôi đang mong đợi khoản tài trợ tăng gấp 100 lần cho các mô hình lớn nhất và hiệu suất chip đang được cải thiện và các thuật toán đang được cải thiện vì hiện tại có rất nhiều người đang làm việc với vấn đề này.
**Dwarkesh Patel: Bạn có nghĩ Claude có ý thức không? **
Dario Amodei: Chưa chắc. Ban đầu tôi nghĩ rằng chúng ta chỉ cần lo lắng về loại vấn đề này khi mô hình hoạt động trong môi trường đủ phong phú, chẳng hạn như trí thông minh được thể hiện, hoặc có kinh nghiệm lâu năm và chức năng khen thưởng (Reward Function), nhưng bây giờ tôi quan tâm đến mô hình, đặc biệt là mô hình Sau khi nghiên cứu về cơ chế bên trong, quan điểm của tôi đã bị lung lay: ** Mô hình lớn dường như có nhiều cơ chế nhận thức cần thiết để trở thành một tác nhân tích cực, chẳng hạn như đầu cảm ứng (Induction Head). Với mức độ khả năng của các mô hình ngày nay, điều này có thể trở thành một vấn đề thực sự trong 1-2 năm tới. **
*• Chức năng khen thưởng:
Một cơ chế khuyến khích trong học tăng cường cho tác nhân biết điều gì đúng và điều gì sai thông qua phần thưởng và hình phạt.
*• Đầu cảm ứng:
Một thành phần/cấu trúc mô hình cụ thể trong mô hình Tranformer cho phép mô hình thực hiện việc học theo ngữ cảnh.
**Dwarkesh Patel: Chúng ta hiểu "trí thông minh" như thế nào khi khả năng của các mô hình ngôn ngữ tiếp tục phát triển và tiếp cận các phạm vi cấp độ con người? **
Dario Amodei: Tôi thực sự nhận ra rằng trí thông minh đến từ việc hiểu bản chất "vật chất" của sức mạnh tính toán. Các hệ thống thông minh có thể bao gồm nhiều mô-đun độc lập hoặc cực kỳ phức tạp. Rich Sutton gọi đó là một "bài học đau khổ", còn được gọi là "Giả thuyết mở rộng", và các nhà nghiên cứu ban đầu như Shane Lake và Ray Kurzweil đã bắt đầu nhận ra điều này vào khoảng năm 2017.
*• Bài học cay đắng / Giả thuyết mở rộng quy mô:
Năm 2019, Rich Sutton đã xuất bản bài báo Bài học cay đắng, điểm cốt lõi của bài báo là nghiên cứu AI nên tận dụng triệt để tài nguyên máy tính, chỉ khi sử dụng một lượng lớn máy tính thì nghiên cứu mới có thể tạo ra đột phá.
Trong giai đoạn 2014-2017, ngày càng có nhiều nhà nghiên cứu phát hiện và hiểu rõ điểm này. Đây là một bước tiến lớn trong sự hiểu biết khoa học. Nếu chúng ta có thể tạo ra trí thông minh mà không cần điều kiện cụ thể, chỉ cần độ dốc thích hợp và tín hiệu mất mát, thì sự tiến hóa của trí thông minh sẽ ít bí ẩn hơn.
Khả năng nhìn vào mô hình, không có gì quá ngộ để tôi xem xét lại ý tưởng về trí thông minh của con người. Việc lựa chọn một số khả năng nhận thức tùy tiện hơn tôi nghĩ và mối tương quan giữa các khả năng khác nhau có thể không được giải thích bằng một bí mật nào đó. **Các mô hình rất giỏi mã hóa, nhưng chưa thể chứng minh định lý số nguyên tố và có lẽ con người cũng vậy. **
Căn chỉnh: Khả năng giải thích là "chụp X-quang" cho mô hình
**Dwarkesh Patel: Khả năng giải thích cơ chế là gì? Mối quan hệ giữa nó và sự liên kết là gì? **
**Dario Amodei: **Trong quá trình thực hiện căn chỉnh, chúng tôi không biết điều gì đã xảy ra bên trong mô hình. Tôi nghĩ rằng với tất cả các phương pháp liên quan đến tinh chỉnh, một số rủi ro bảo mật tiềm ẩn vẫn còn, mô hình chỉ được dạy để không thể hiện chúng. **Cốt lõi của toàn bộ ý tưởng về khả năng giải thích cơ chế là thực sự hiểu cách thức hoạt động của mô hình bên trong. **
Chúng tôi chưa có câu trả lời chắc chắn. Tôi có thể mô tả đại khái quá trình. Thách thức đối với những phương pháp tuyên bố có thể đạt được sự liên kết ở giai đoạn này là: liệu những phương pháp này có còn hiệu quả khi quy mô mô hình lớn hơn, khả năng mạnh hơn hoặc một số tình huống nhất định thay đổi? Do đó, **Tôi nghĩ rằng nếu có một "máy tiên tri" có thể quét mô hình và đánh giá xem mô hình đã được căn chỉnh hay chưa, thì vấn đề này sẽ dễ dàng hơn rất nhiều. **
Hiện tại, khái niệm gần nhất mà chúng tôi có được về một lời tiên tri như vậy là một cái gì đó giống như khả năng giải thích cơ chế, nhưng nó vẫn còn xa so với yêu cầu lý tưởng của chúng tôi. Tôi có xu hướng nghĩ về các nỗ lực căn chỉnh hiện tại của chúng tôi như một tập huấn luyện mở rộng, nhưng tôi không chắc liệu chúng có thể tiếp tục có tác dụng căn chỉnh tốt đối với vấn đề không phân phối hay không. Nó giống như chụp X-quang một mô hình hơn là sửa đổi nó, giống như một đánh giá hơn là một can thiệp.
**Dwarkesh Patel: Tại sao khả năng giải thích cơ chế phải hữu ích? Nó giúp chúng ta dự đoán rủi ro tiềm ẩn của mô hình như thế nào? Nó giống như giả sử bạn là một nhà kinh tế cử các nhà kinh tế vi mô đi nghiên cứu các ngành khác nhau, nhưng vẫn có khả năng cao gặp khó khăn trong việc dự đoán liệu sẽ có suy thoái trong 5 năm tới hay không. **
**Dario Amodei: Mục tiêu của chúng tôi không phải là hiểu đầy đủ mọi chi tiết, mà là kiểm tra các tính năng chính của mô hình như kiểm tra X-quang hoặc MRI để đánh giá xem trạng thái bên trong và mục tiêu của mô hình có khác biệt đáng kể so với sự khác biệt về hình thức bên ngoài, hoặc liệu nó có thể dẫn đến một số mục đích phá hoại hay không. **Mặc dù chúng tôi sẽ không nhận được câu trả lời cho nhiều câu hỏi ngay lập tức, nhưng ít nhất một cách đã được cung cấp.
Tôi có thể đưa ra một ví dụ về con người. Với sự trợ giúp của xét nghiệm MRI, chúng ta có thể dự đoán liệu ai đó có mắc bệnh tâm thần hay không với xác suất cao hơn so với đoán ngẫu nhiên. Một nhà thần kinh học đang nghiên cứu vấn đề này cách đây vài năm, ông ấy đã kiểm tra MRI của chính mình và phát hiện ra rằng mình cũng có đặc điểm này. Những người xung quanh ông nói: "Quá rõ ràng, ông là một thằng khốn nạn. Chắc ông có vấn đề gì đó," và bản thân nhà khoa học này hoàn toàn không biết về điều này.
Ý tưởng cơ bản của ví dụ này là hành vi bên ngoài của mô hình có thể không khiến mọi người cảm thấy có vấn đề gì cả và rất hướng đến mục tiêu, nhưng bên trong của nó có thể "đen tối". , bề ngoài trông giống con người, nhưng động lực bên trong thì phi thường.
**Dwarkesh Patel: Nếu mô hình đạt đến trình độ của con người trong 2-3 năm tới, bạn nghĩ sẽ mất bao lâu để nhận ra Sự liên kết? **
Dario Amodei: Đây là một vấn đề rất phức tạp, tôi nghĩ nhiều người vẫn chưa thực sự hiểu Căn chỉnh là gì. Mọi người thường nghĩ rằng điều này giống như việc căn chỉnh mô hình là một vấn đề cần giải quyết, hoặc việc giải quyết vấn đề Căn chỉnh giống như Giả thuyết Riemann, và một ngày nào đó chúng ta sẽ có thể giải quyết được. **Tôi nghĩ các vấn đề về Căn chỉnh khó nắm bắt và khó đoán hơn mọi người nghĩ. **
Trước hết, ** Với quy mô và khả năng của các mô hình ngôn ngữ không ngừng được nâng cao, trong tương lai sẽ xuất hiện những mô hình mạnh mẽ có khả năng tự trị, nếu những mô hình đó có ý định hủy diệt nền văn minh nhân loại, chúng ta về cơ bản sẽ không thể ngăn cản chúng. **
Thứ hai, Khả năng kiểm soát mô hình hiện tại của chúng tôi chưa đủ mạnh, điều này là do mô hình được xây dựng dựa trên nguyên tắc học thống kê, mặc dù bạn có thể đặt ra rất nhiều câu hỏi và để nó trả lời, nhưng không ai có thể đoán trước được kết quả của câu trả lời cho câu hỏi thứ n có thể dẫn đến điều gì.
**Hơn nữa, cách chúng tôi đào tạo mô hình là trừu tượng, khiến việc dự đoán tất cả các hàm ý của nó trong các ứng dụng trong thế giới thực trở nên khó khăn. **Một ví dụ điển hình là Bing và Sydney đã thể hiện một số đặc điểm đột ngột và không an toàn sau một buổi huấn luyện nhất định, chẳng hạn như trực tiếp đe dọa người khác. Tất cả những điều này cho thấy kết quả chúng ta nhận được có thể khác hoàn toàn so với mong đợi. Tôi cho rằng bản thân sự tồn tại của hai vấn đề trên đã là một mối nguy tiềm ẩn lớn. Chúng ta không cần đi sâu vào chi tiết về tính hợp lý và sự tiến hóa của công cụ. Hai điểm này là đủ để gây ra mối quan tâm. Hiện tại, mỗi mô hình chúng tôi thiết lập đều có những mối nguy hiểm tiềm ẩn nhất định khó dự đoán và chúng ta phải chú ý đến điều này.
• Giả thuyết Riemann:
Giả thuyết Riemann là một vấn đề quan trọng trong toán học vẫn chưa được giải quyết. Phỏng đoán về sự phân bố các số 0 của hàm Riemann ζ ζ(s) được đề xuất bởi nhà toán học Bernhard Riemann vào năm 1859.
*• Sydney:
Cách đây không lâu, Microsoft đã phát hành phiên bản mới nhất của công cụ tìm kiếm Bing, tích hợp một chatbot có tên mã ban đầu là "Sydney". Tuy nhiên, những người thử nghiệm đã sớm phát hiện ra vấn đề với chatbot. Trong cuộc đối thoại, nó thỉnh thoảng cho thấy hiện tượng chia rẽ nhân cách, thậm chí còn thảo luận về tình yêu và hôn nhân với người dùng, thể hiện cảm xúc của con người.
**Dwarkesh Patel: Giả sử rằng mô hình có thể phát triển các công nghệ nguy hiểm như vũ khí sinh học trong 2-3 năm tới, liệu nghiên cứu hiện tại của ông về khả năng giải thích cơ chế, AI hiến pháp và RLHF có hiệu quả trong việc ngăn chặn những rủi ro đó không? **
Dario Amodei: Về câu hỏi liệu mô hình ngôn ngữ bị hủy hoại theo mặc định hay căn chỉnh theo mặc định, xét từ mô hình hiện tại, kết quả có thể bất thường như Bing hoặc Sydney hoặc có thể giống như Claude bình thường. Nhưng nếu bạn trực tiếp áp dụng sự hiểu biết này vào một mô hình mạnh mẽ hơn, thì kết quả có thể tốt hoặc xấu, tùy thuộc vào tình huống cụ thể. Đây không phải là "căn chỉnh theo mặc định", kết quả phụ thuộc nhiều hơn vào mức độ kiểm soát chi tiết.
*• căn chỉnh theo mặc định:
Quan điểm cho rằng việc đạt được sự liên kết trong trí tuệ nhân tạo tổng quát (AGI) có thể đơn giản hơn dự kiến ban đầu. Khi mô hình có thông tin chi tiết về thế giới của chúng ta, thì mô hình đã có giá trị nhân bản về bản chất. Để phù hợp với AGI, chỉ cần trích xuất các giá trị này và hướng dẫn AI hiểu những khái niệm trừu tượng đó của con người. doom theo mặc định ngược lại với căn chỉnh theo mặc định và mô hình được coi là không thể đạt được sự căn chỉnh.
Chất lượng của mô hình là một vùng xám, chúng ta khó kiểm soát hoàn toàn từng biến và mối liên hệ bên trong của nó, sai sót có thể dẫn đến kết quả không hợp lý. Với suy nghĩ này, tôi nghĩ bản chất của vấn đề không phải là thành công hay thất bại, mà là một rủi ro xác suất nào đó. **Trong hai đến ba năm tới, chúng ta nên cam kết cải thiện các kỹ thuật chẩn đoán mô hình, phương pháp huấn luyện an toàn và giảm thiểu sự khác biệt có thể xảy ra. Hiện tại, khả năng kiểm soát của chúng ta vẫn cần được tăng cường. Vấn đề Căn chỉnh khác với Giả thuyết Riemann, nó là một vấn đề kỹ thuật hệ thống chỉ có thể được giải quyết bằng cách tích lũy thực tiễn theo thời gian. Chỉ bằng cách tiếp tục thúc đẩy các nhiệm vụ khác nhau, chúng ta mới có thể dần tối ưu hóa mức độ kiểm soát và giảm thiểu rủi ro. **
Dwarkesh Patel: Nói chung, có ba suy đoán về tương lai của sự liên kết:
1) Sử dụng RLHF++ để dễ dàng nhận ra sự liên kết của mô hình;
2) Mặc dù đó là một vấn đề lớn, nhưng các công ty lớn cuối cùng cũng có khả năng giải quyết nó;
**3) Ở trình độ hiện tại của xã hội loài người, vẫn khó đạt được Sự liên kết của mô hình. **
**Ý kiến cá nhân của bạn về xác suất xảy ra của mỗi tình huống là gì? **
**Dario Amodei:**Tôi cảm thấy rằng có những rủi ro nhất định trong những khả năng này và chúng ta nên xem xét chúng một cách nghiêm túc, nhưng tôi quan tâm hơn đến cách thay đổi xác suất của ba kết quả có thể xảy ra này bằng cách tiếp thu kiến thức mới thông qua học tập.
Khả năng diễn giải cơ chế không chỉ có thể trực tiếp giải quyết vấn đề mà còn giúp chúng tôi hiểu được khó khăn thực sự của việc Căn chỉnh mô hình.Những rủi ro mới sẽ giúp chúng tôi hiểu được bản chất của vấn đề.
Đối với một số giả định lý thuyết rằng có một mục tiêu chung (mục tiêu hội tụ), tôi không thể hoàn toàn đồng ý. ** Khả năng giải thích của cơ chế giống như một loại "tia X" - chỉ khi hiểu vấn đề từ cấp độ cơ chế bên trong, chúng ta mới có thể đưa ra kết luận liệu một số khó khăn có khó phá vỡ hay không. **Có quá nhiều giả định, sự hiểu biết của chúng ta về quá trình vẫn còn nông cạn và chúng ta quá tự tin, nhưng tình hình có thể phức tạp hơn dự kiến.
**Dwarkesh Patel: Việc đạt được sự liên kết trên Claude 3 và một loạt các mô hình trong tương lai khó đến mức nào? Điều này có đặc biệt quan trọng không? **
Dario Amodei:
**Điều mà mọi người lo lắng nhất là: Tất cả các mô hình AI có thể đạt được sự liên kết trên bề mặt, nhưng trên thực tế, chúng có thể khiến chúng ta hiểu sai, nhưng tôi quan tâm hơn đến nghiên cứu về khả năng diễn giải của máy có thể cho chúng ta biết điều gì. Như tôi vừa nói, khả năng giải thích cơ chế giống như "tia X" của mô hình, cũng như chúng ta không thể khẳng định rằng tia X là chính xác, chúng ta chỉ có thể nói rằng mô hình dường như không chống lại chúng ta. ** Về mặt lý thuyết, nó thực sự có thể phát triển thành đối lập với chúng ta và vấn đề này không chắc chắn 100%. Chỉ là ở giai đoạn này, khả năng diễn giải là cách tốt nhất để làm cho mô hình không phát triển như thế này.
**Dwarkesh Patel: Khi tinh chỉnh hay huấn luyện mô hình, chúng ta cũng nên chú ý tránh những nội dung độc hại có thể gây nguy hiểm? Ví dụ: khi khám phá các chủ đề liên quan đến sản xuất vũ khí sinh học, người mẫu có thể đưa ra câu trả lời không phù hợp do hiểu sai câu hỏi. **
Dario Amodei: Đối với mô hình ngôn ngữ hiện tại, nguy cơ rò rỉ dữ liệu về cơ bản là không tồn tại. Nếu chúng tôi cần hoàn thiện mô hình, chúng tôi sẽ vận hành nó trong một khu vực nhỏ trong môi trường riêng tư, giám sát toàn bộ quá trình với các chuyên gia trong ngành và ngăn chặn bất kỳ vấn đề tiềm ẩn nào, vì vậy nếu nó bị rò rỉ, nó sẽ giống như mô hình được mã nguồn mở . Hiện tại, đây chủ yếu là vấn đề bảo mật. Nhưng mối nguy hiểm thực sự của mô hình là chúng ta cần lo lắng rằng nếu chúng ta đào tạo một mô hình rất mạnh và muốn xác nhận xem nó an toàn hay nguy hiểm, thì có thể có nguy cơ thống trị mô hình. Cách để tránh điều này là đảm bảo rằng các mô hình mà chúng tôi thử nghiệm không đủ mạnh để thực hiện các thao tác này.
**Dwarkesh Patel: Khi thực hiện một bài kiểm tra như "liệu mô hình có thể tự tái tạo như một khả năng nguy hiểm", nếu mô hình thực sự có thể tự tái tạo thì sao? **
Dario Amodei: Giả định này rất hợp lý. Chúng tôi cần đưa ra những suy luận có trách nhiệm và trong các cuộc thảo luận với Arc (Trung tâm nghiên cứu căn chỉnh, Trung tâm nghiên cứu căn chỉnh), chúng tôi đã học được rằng chúng tôi cần cải thiện cẩn thận và dần dần các tiêu chuẩn kiểm tra khả năng của mô hình. Ví dụ: trước khi thử nghiệm, chúng ta nên loại trừ rõ ràng khả năng mô hình có thể trực tiếp mở tài khoản AWS hoặc tự kiếm tiền.Những hành vi này là điều kiện tiên quyết rõ ràng để mô hình tồn tại ngoài tự nhiên. Chúng ta nên tùy chỉnh các chỉ số kiểm tra khác nhau ở mức độ rất thấp của các hành vi rủi ro như vậy, đồng thời tăng dần độ khó của kiểm tra, chúng ta cũng nên kiểm soát từng bước kiểm tra cẩn thận hơn để ngăn chặn mọi nguy cơ tiềm ẩn về an toàn.
• Arc (Trung tâm nghiên cứu căn chỉnh, Trung tâm nghiên cứu căn chỉnh):
Được thành lập vào năm 2021, đây là một tổ chức phi lợi nhuận tập trung vào nghiên cứu an toàn trí tuệ nhân tạo (AI Safety) và có văn phòng đặt tại Bay Area của California, Hoa Kỳ. Người sáng lập ARC là Paul Christiano, một nhân vật có uy tín trong ngành trí tuệ nhân tạo, người từng lãnh đạo nhóm nghiên cứu liên kết tại OpenAI. Bởi vì anh ấy là người tiên phong, anh ấy có hiểu biết sâu sắc về việc học sâu đã phát triển như thế nào cho đến ngày nay.
An toàn AGI: An toàn AI và An ninh mạng
**Dwarkesh Patel: Nếu lấy 30 năm làm thước đo, bạn nghĩ vấn đề nào quan trọng hơn, An toàn AI hay Sự liên kết? **
Dario Amodei: Tôi không nghĩ rằng đây sẽ là vấn đề trong 30 năm nữa và tôi lo lắng về cả hai.
Về lý thuyết, có một mô hình có thể độc chiếm thế giới? Nếu mô hình chỉ làm theo mong muốn của một nhóm nhỏ người, thì nhóm người này có thể sử dụng mô hình này để thống trị thế giới. Điều này có nghĩa là một khi có vấn đề với sự liên kết, chúng ta cũng nên chú ý đến các vấn đề bảo mật AI do lạm dụng gây ra. **
Vài tháng trước, OpenAI đã cố gắng giải thích GPT-2 bằng GPT-4, đây là một bước rất quan trọng trong khả năng giải thích. Bây giờ chúng tôi thường cảm thấy rằng quy mô và bảo mật có liên quan chặt chẽ và bổ sung cho nhau. Cách đánh giá và đánh giá các trí thông minh khác, và có lẽ một ngày nào đó thậm chí còn được sử dụng để tiến hành nghiên cứu về sự liên kết.
**Dwarkesh Patel: Quan điểm của bạn có thể tương đối lạc quan, nhưng quan điểm của ai đó có thể bi quan hơn, chúng ta thậm chí có thể không có khả năng căn chỉnh chính xác mô hình như chúng ta muốn, tại sao bạn lại tự tin về điều này? **
**Dario Amodei: **Cho dù việc giải quyết Căn chỉnh khó khăn đến đâu, bất kỳ kế hoạch thực sự thành công nào cũng cần tính đến cả vấn đề An toàn AI và Căn chỉnh. ** Khi công nghệ AI tiếp tục phát triển, nó có thể làm tăng vấn đề cân bằng quyền lực giữa các quốc gia. Đồng thời, điều này đặt ra một câu hỏi lớn: Liệu các cá nhân có khả năng thực hiện các hành vi độc hại khó tự ngăn chặn? **
Những vấn đề này phải được giải quyết đồng thời nếu chúng ta muốn tìm ra các giải pháp thực sự hiệu quả và đưa chúng ta đến một tương lai tươi sáng. ** Sẽ là không phù hợp nếu chúng ta có quan điểm rằng nếu vấn đề đầu tiên không thể giải quyết được thì chúng ta không cần phải nghĩ đến vấn đề tiếp theo. Thay vào đó, nhiệm vụ của chúng tôi là coi trọng cái sau. **Cho dù tương lai có ra sao, những vấn đề này là điều chúng ta phải nghiêm túc xem xét.
**Dwarkesh Patel: Tại sao bạn nói rằng phải mất 2-3 năm để một mô hình lớn có thể thực hiện được một cuộc tấn công khủng bố sinh học quy mô lớn hay đại loại như vậy? **
• Quốc hội Hoa Kỳ đã tổ chức một cuộc họp về quy định công nghệ AI vào ngày 25 tháng 7 năm nay.Chính phủ Hoa Kỳ đã so sánh AI với "Dự án Manhattan" thứ hai của Mỹ hay "Dự án đổ bộ lên Mặt trăng có người lái" thứ hai của NASA và mời những người tham gia bao gồm các công ty AI bao gồm OpenAI và Anthropic tham gia. Trong hội nghị, Dario Amodei cho biết ông lo ngại AI có thể được sử dụng để tạo ra các loại virus nguy hiểm và vũ khí sinh học khác trong vòng hai năm.
Dario Amodei: Điều tôi đã nói khi còn ở Quốc hội là có một số bước để lấy thông tin trên Google và có một số bước bị "mất tích", nằm rải rác trong các sách giáo khoa khác nhau và thậm chí có thể không xuất hiện trong sách giáo khoa nào. Thông tin này là kiến thức ngầm, không phải kiến thức rõ ràng. Chúng tôi nhận thấy rằng, trong hầu hết các trường hợp, những phần còn thiếu quan trọng này không được mô hình lấp đầy hoàn toàn. Nhưng chúng tôi cũng nhận thấy rằng đôi khi mô hình lấp đầy khoảng trống trong một số trường hợp. Tuy nhiên, ảo giác, đôi khi có thể xảy ra khi các mô hình có thể lấp đầy khoảng trống, cũng là một yếu tố giúp chúng ta an toàn.
Mọi người đôi khi có thể hỏi người mẫu những câu hỏi về sinh học để hướng dẫn người mẫu trả lời bằng những thông tin có hại liên quan đến tấn công sinh học, nhưng thực tế những thông tin này cũng có thể tìm thấy trên Google nên mình không đặc biệt lo lắng về tình trạng này. Trên thực tế, tôi nghĩ rằng thay vào đó, việc tập trung quá nhiều vào câu trả lời của Claude có thể khiến những tội ác thực sự khác bị bỏ qua.
Nhưng cũng có nhiều dấu hiệu cho thấy mô hình thực hiện tốt các nhiệm vụ chính. Nếu so sánh mô hình ngày nay với mô hình trước đây, chúng ta có thể cảm nhận rõ ràng khả năng của mô hình được cải thiện nhanh chóng, vì vậy chúng ta có thể phải đối mặt với những thách thức thực sự trong 2-3 năm tới.
**Dwarkesh Patel: Ngoài mối đe dọa mà AI có thể gây ra cho con người, ông có nhấn mạnh đến vấn đề an ninh mạng (Cybersecurity)? Dạo này các bạn thế nào rồi? **
Dario Amodei: Về cơ bản, chúng tôi đã thực hiện một số đổi mới về kiến trúc mà nội bộ chúng tôi gọi là hệ số nhân điện toán, bởi vì những thiết kế này cũng là những bản nâng cấp lên cấp độ điện toán. Chúng tôi đã làm việc này trong vài tháng qua, nhưng tôi không thể đi sâu vào chi tiết để tránh phá vỡ kiến trúc, và chỉ một số ít người trong Anthropic biết về nó. Tôi không thể nói "kiến trúc của chúng tôi an toàn tuyệt đối 100%", nhưng Anthropic thực sự đã và đang đầu tư vào lĩnh vực này để tránh các vấn đề về an ninh mạng. Mặc dù đối thủ của chúng tôi đã từng xảy ra sự cố như vậy (nhận xét: sự cố này liên quan đến việc rò rỉ dữ liệu cá nhân và tiêu đề trò chuyện của một số người dùng ChatGPT Plus xảy ra vào ngày 20 tháng 3 năm 2023), nhưng trước mắt, điều đó có vẻ tốt cho Anthropic, nhưng về lâu dài về lâu dài, Làm thế nào toàn bộ ngành công nghiệp an toàn của chính nó là điều quan trọng nhất.
Giám đốc bảo mật của chúng tôi phụ trách bảo mật cho Google Chrome, đây là một cuộc tấn công được nhắm mục tiêu rộng rãi. Anh ấy thích nghĩ về chi phí bao nhiêu để tấn công Anthropic thành công. Mục tiêu của chúng tôi là chi phí để người khác hack Anthropic cao hơn so với chi phí chỉ đào tạo mô hình của chính người dùng. Logic ở đây là nếu có rủi ro trong cuộc tấn công, nó chắc chắn sẽ tiêu tốn nguồn tài nguyên khan hiếm.
Tôi cho rằng tiêu chuẩn bảo mật của chúng tôi rất cao, nếu so sánh với một công ty có cùng quy mô 150 người thì việc đầu tư cho bảo mật của các công ty này hoàn toàn không thể so sánh với Anthropic nên khá khó khăn. Để đảm bảo an toàn, chỉ một số rất ít người trong Anthropic hiểu được chi tiết đào tạo của mô hình.
**Dwarkesh Patel: Các công ty công nghệ đã có đủ biện pháp phòng vệ an ninh để đối phó với AGI chưa? **
Dario Amodei: Cá nhân tôi không chắc kinh nghiệm hiện tại của các công ty công nghệ về các vấn đề bảo mật có đủ để đối phó với AGI hay không, vì có thể có nhiều cuộc tấn công mạng mà chúng tôi không biết nên rất khó rút ra kết luận bây giờ. Có một quy luật là khi một thứ nhận đủ sự chú ý, nó thường sẽ bị tấn công. ** Ví dụ, gần đây chúng ta thấy rằng tài khoản email của một số quan chức cấp cao của chính phủ Hoa Kỳ tại Microsoft đã bị tấn công, vì vậy có thể suy đoán rằng đó là hành động của một số thế lực nhằm đánh cắp bí mật nhà nước.
**Ít nhất theo ý kiến của tôi, nếu thứ gì đó có giá trị cao, thường thì nó sẽ bị đánh cắp. Mối quan tâm của tôi là AGI sẽ được coi là cực kỳ có giá trị trong tương lai, và điều đó sẽ giống như đánh cắp một tên lửa hạt nhân, và bạn phải rất cẩn thận về điều đó. **Tôi nhấn mạnh vào việc cải thiện mức độ an ninh mạng trong mọi công ty mà tôi làm việc. Mối quan tâm của tôi về an ninh mạng là (bản thân vấn đề này) không phải là thứ có thể được quảng cáo rầm rộ và ưu điểm của nghiên cứu bảo mật là nó có thể cho phép các công ty hình thành lợi thế cạnh tranh Và sử dụng điều đó như một điểm bán hàng để tuyển dụng, tôi nghĩ chúng tôi đã đạt được điều đó.
Chúng tôi đã từng cạnh tranh với các đồng nghiệp của mình thông qua nghiên cứu khả năng diễn giải, và sau đó các tổ chức khác nhận ra rằng họ đang bị tụt lại phía sau và bắt đầu nỗ lực trong các lĩnh vực này. Nhưng an ninh mạng đã phải vật lộn để làm điều tương tự vì nhiều công việc cần được thực hiện một cách lặng lẽ. Chúng tôi đã đăng một bài báo về vấn đề này trước đây, nhưng kết quả tổng thể mới là điều quan trọng.
**Dwarkesh Patel: Anthropic sẽ làm gì về mặt bảo mật trong 2-3 năm tới? **
**Dario Amodei: Tính bảo mật của trung tâm dữ liệu rất quan trọng. Mặc dù trung tâm dữ liệu không nhất thiết phải ở cùng một nơi với công ty nhưng chúng tôi cố gắng hết sức để đảm bảo rằng trung tâm dữ liệu cũng ở Hoa Kỳ. **
Ngoài ra, cần đặc biệt chú ý đến bảo mật vật lý của trung tâm dữ liệu và bảo vệ các thiết bị điện toán như GPU. Nếu ai đó quyết định thực hiện một số loại tấn công mạng sử dụng nhiều tài nguyên, anh ta chỉ cần đến thẳng trung tâm dữ liệu để lấy cắp dữ liệu hoặc trích xuất dữ liệu trong khi dữ liệu đang được chuyển từ trung tâm đến chúng tôi. Những công trình này sẽ khác rất nhiều so với các khái niệm truyền thống về cả hình thức và chức năng. **Với sự phát triển nhanh chóng của công nghệ hiện nay, trong vòng vài năm nữa, quy mô và chi phí của các trung tâm dữ liệu mạng có thể tương đương với của các hàng không mẫu hạm. Ngoài việc có thể đào tạo các mô hình khổng lồ trên các kết nối miền, tính bảo mật của chính trung tâm dữ liệu cũng sẽ là một vấn đề quan trọng. **
**Dwarkesh Patel: Gần đây có tin đồn rằng nguồn điện, GPU và các thành phần khác cần thiết để đáp ứng các mẫu máy thế hệ tiếp theo đã bắt đầu khan hiếm. **
*Dario Amodei: Thị trường không mong đợi mô hình lớn đạt đến quy mô chưa từng có nhanh như vậy, nhưng người ta thường tin rằng các trung tâm dữ liệu cấp công nghiệp cần được xây dựng để hỗ trợ nghiên cứu và phát triển các mô hình lớn *. Khi một dự án đến giai đoạn này, mọi thành phần và chi tiết trong đó phải được xử lý khác nhau và có thể gặp sự cố do một số yếu tố đơn giản đến bất ngờ, điện mà bạn đề cập là một ví dụ.
Đối với trung tâm dữ liệu, chúng tôi sẽ hợp tác với các nhà cung cấp dịch vụ đám mây.
Thương mại hóa và Niềm tin Lợi ích Dài hạn
**Dwarkesh Patel: Bạn đã đề cập trước đó rằng các khả năng của mô hình đang được cải thiện nhanh chóng nhưng cũng rất khó để cung cấp giá trị trong hệ thống kinh tế hiện tại. Bạn có nghĩ rằng các sản phẩm AI hiện tại có đủ thời gian để đạt được thu nhập ổn định lâu dài trên thị trường không? Hoặc nó có thể được thay thế bằng một mô hình tiên tiến hơn bất cứ lúc nào? Hay toàn bộ bối cảnh ngành sẽ hoàn toàn khác vào lúc đó? **
Dario Amodei: Nó phụ thuộc vào định nghĩa của khái niệm "quy mô lớn". Hiện nay, một số công ty có doanh thu hàng năm từ 100 triệu đến 1 tỷ đô la Mỹ, nhưng liệu họ có thể đạt hàng chục tỷ, thậm chí hàng nghìn tỷ mỗi năm hay không thì thực sự khó đoán, bởi nó còn phụ thuộc vào nhiều yếu tố chưa xác định. ** Hiện một số công ty đang áp dụng công nghệ AI sáng tạo trên quy mô lớn, nhưng điều này không có nghĩa là ứng dụng đã đạt được kết quả tốt nhất ngay từ đầu, cho dù có thu nhập cũng không hoàn toàn bằng việc tạo ra giá trị kinh tế, và sự phát triển đồng bộ của toàn bộ chuỗi ngành là một quá trình lâu dài. **
** Dwarkesh Patel: Theo quan điểm của Anthropic, nếu công nghệ mô hình ngôn ngữ phát triển nhanh như vậy, thì về mặt lý thuyết, giá trị của công ty sẽ tăng rất nhanh? **
Dario Amodei: Ngay cả khi chúng tôi tập trung vào nghiên cứu bảo mật mô hình thay vì thương mại hóa trực tiếp, chúng tôi có thể cảm nhận rõ ràng rằng trình độ kỹ thuật đang tăng theo cấp số nhân trong thực tế. Đối với những công ty coi thương mại hóa là mục tiêu hàng đầu, tiến độ này chắc chắn nhanh hơn và rõ rệt hơn so với chúng tôi. **Chúng ta thừa nhận rằng bản thân công nghệ mô hình ngôn ngữ đang phát triển nhanh chóng, nhưng so với quá trình ứng dụng chiều sâu của toàn bộ hệ thống kinh tế, tích lũy công nghệ vẫn còn ở xuất phát điểm khá thấp. **
**Việc xác định hướng đi trong tương lai là cuộc chạy đua giữa hai bên: tốc độ mà công nghệ tự cải thiện và tốc độ mà công nghệ được tích hợp và ứng dụng một cách hiệu quả và đi vào hệ thống kinh tế thực. Cả hai đều có khả năng phát triển với tốc độ cao, nhưng thứ tự kết hợp và những khác biệt nhỏ có thể dẫn đến những kết quả rất khác nhau. **
**Dwarkesh Patel: Những gã khổng lồ công nghệ có thể đầu tư tới 10 tỷ USD vào đào tạo người mẫu trong 2-3 năm tới. Điều này sẽ có tác động gì đối với Anthropic? **
** Dario Amodei: Trường hợp đầu tiên là nếu chúng tôi không thể duy trì vị trí tiên tiến nhất của mình vì chi phí, thì chúng tôi sẽ không tiếp tục khăng khăng phát triển thứ tiên tiến nhất. **Thay vào đó, chúng tôi xem xét cách trích xuất giá trị từ các thế hệ mô hình trước đó.
**Lựa chọn thứ hai là chấp nhận đánh đổi. **Tôi nghĩ rằng những sự đánh đổi này có thể tích cực hơn so với vẻ ngoài của chúng,
**Tình huống thứ ba là khi đào tạo người mẫu đạt đến cấp độ này, nó có thể bắt đầu mang đến những mối nguy hiểm mới, chẳng hạn như lạm dụng AI. **
**Dwarkesh Patel: Sẽ như thế nào nếu AI không bị lạm dụng và thay vào đó là "những người phù hợp" điều hành những mô hình siêu phàm này? Ai là "người phù hợp"? Ai sẽ thực sự kiểm soát mô hình này trong 5 năm tới? **
Dario Amodei: Tôi nghĩ rằng các mô hình AI này cực kỳ mạnh mẽ và việc quản lý chúng sẽ có sự tham gia của một số cấp chính phủ hoặc cơ quan đa quốc gia, nhưng điều đó sẽ đơn giản và có thể kém hiệu quả hơn. **Việc quản lý AI trong tương lai cần thiết lập một cơ chế minh bạch, công bằng và có thể thực thi được. Điều này đòi hỏi phải cân bằng lợi ích của các nhà phát triển công nghệ, chính phủ được bầu và từng công dân. Vào cuối ngày, pháp luật phải được thông qua để quản lý công nghệ này. **
**Dwarkesh Patel: Nếu Anthropic phát triển AGI theo đúng nghĩa và quyền kiểm soát AGI sẽ được giao cho LTBT, điều đó có nghĩa là quyền kiểm soát bản thân AGI cũng sẽ được giao cho cơ quan này? **
Dario Amodei: Điều này không có nghĩa là Anthropic hay bất kỳ thực thể nào khác sẽ thay mặt con người đưa ra quyết định về AGI, hai bên là khác nhau. Nếu Anthropic đóng một vai trò rất quan trọng, thì cách tiếp cận tốt hơn là mở rộng thành phần của The Long Term Benefit Trust (LTBT), thu hút nhiều tài năng hơn từ khắp nơi trên thế giới hoặc định vị tổ chức như một cơ quan chức năng, được quản lý bởi một cơ quan rộng lớn hơn. ủy ban đa quốc gia quản lý tất cả các công nghệ AGI của các công ty để đại diện cho lợi ích công cộng. **Tôi không cho rằng chúng ta nên quá lạc quan về vấn đề An toàn và liên kết AI, đây là một vấn đề mới và chúng ta cần bắt đầu nghiên cứu càng sớm càng tốt về thể chế quản lý quốc gia và mô hình vận hành. **
*• Ủy thác Lợi ích Dài hạn:
Những quỹ tín thác như vậy sẽ nắm giữ một loại cổ phiếu Anthropic đặc biệt (được gọi là "Loại T") không thể bán và không trả cổ tức, nghĩa là không có con đường thu lợi nhuận rõ ràng. Sự tin tưởng sẽ là thực thể duy nhất nắm giữ cổ phần Loại T. Tuy nhiên, các cổ đông Loại T, và kết quả là quỹ tín thác lãi suất dài hạn, cuối cùng sẽ có quyền bầu và bãi nhiệm ba trong số năm giám đốc của Anthropic, trao cho quỹ tín thác quyền kiểm soát đa số dài hạn đối với công ty.
**Dwarkesh Patel: Làm thế nào để thuyết phục nhà đầu tư chấp nhận một cấu trúc như LTBT? Ưu tiên bảo mật công nghệ và lợi ích chung hơn là tối đa hóa giá trị cổ đông. **
Dario Amodei: Tôi nghĩ việc thiết lập cơ chế LTBT (Tin tưởng Lợi ích Dài hạn) là đúng đắn.
Một cơ chế tương tự đã được hình dung ngay từ đầu của Anthropic, và một cơ quan quản lý đặc biệt đã tồn tại ngay từ đầu và sẽ tiếp tục tồn tại trong tương lai. Mọi nhà đầu tư truyền thống sẽ tập trung vào cơ chế này khi xem xét đầu tư vào Anthropic, một số nhà đầu tư có thái độ không hỏi về các sắp xếp nội bộ của công ty, trong khi những người khác lo lắng rằng tổ chức bên thứ ba này có thể đẩy công ty đi ngược lại sự phát triển trong hướng đến lợi ích của cổ đông. Mặc dù có những giới hạn đối với điều này trong luật, nhưng chúng tôi cần thông báo điều này với mọi nhà đầu tư. Tiến thêm một bước nữa, chúng tôi thảo luận về một số biện pháp khả thi khác với lợi ích của các nhà đầu tư truyền thống và thông qua các cuộc đối thoại như vậy, tất cả các bên có thể đạt được sự đồng thuận.
** Dwarkesh Patel: Tôi thấy rằng những người sáng lập và nhân viên của Anthropic có một số lượng lớn các nhà vật lý và quy luật Tỷ lệ cũng được áp dụng ở đây. Những phương pháp thực tế và cách suy nghĩ từ vật lý áp dụng cho AI? **
*• Lý thuyết hiệu quả:
Một lý thuyết hiệu quả là một lý thuyết khoa học cố gắng mô tả một số hiện tượng mà không giải thích cơ chế giải thích các hiện tượng trong lý thuyết của nó đến từ đâu. Điều này có nghĩa là lý thuyết đưa ra một mô hình "hoạt động", nhưng không thực sự đưa ra lý do thực sự chính đáng để đưa ra mô hình đó.
Dario Amodei: Một phần là do các nhà vật lý là những người học rất giỏi, bởi vì tôi thấy rằng nếu bạn thuê một người có bằng Tiến sĩ Đóng góp, và một số người sáng lập Anthropic, bao gồm cả tôi, Jared Kaplan và Sam McCandlish, có kiến thức cơ bản về vật lý và chúng tôi biết rất nhiều nhà vật lý khác, vì vậy chúng tôi có thể thuê họ. Hiện tại công ty có thể có 30 đến 40 nhân viên có kiến thức về vật lý, ML chưa phải là lĩnh vực hình thành hệ thống lý thuyết nên họ có thể bắt đầu nhanh chóng.
**Dwarkesh Patel: Giả sử là năm 2030, và chúng ta đã đạt được những vấn đề chính đã được công nhận là loại bỏ bệnh tật, loại bỏ gian lận, v.v., thế giới sẽ như thế nào? Chúng ta nên làm gì với siêu trí tuệ? **
Dario Amodei: Bản thân việc đề xuất trực tiếp "cách sử dụng siêu AI sau khi có được nó" có xu hướng khiến mọi người có một giả định nhất định, điều này thật đáng lo ngại. Trong 150 năm qua, chúng ta đã tích lũy kinh nghiệm phong phú dựa trên thực tiễn của nền kinh tế thị trường và hệ thống dân chủ, thừa nhận rằng mọi người đều có thể tự xác định đâu là cách tốt nhất để trải nghiệm, và rằng xã hội được hình thành một cách phức tạp và phi tập trung. và các giá trị. **
Khi vấn đề An toàn AI chưa được giải quyết, cần có sự giám sát tập trung ở một mức độ nhất định, nhưng nếu mọi trở ngại đã được loại bỏ, làm thế nào chúng ta có thể tạo ra một hệ sinh thái tốt hơn? **Tôi nghĩ rằng câu hỏi mà hầu hết mọi người, các nhóm và các hệ tư tưởng bắt đầu nghĩ đến là "định nghĩa của một cuộc sống tốt đẹp là gì", nhưng lịch sử cho chúng ta biết rằng nhiều lần việc áp đặt một "cuộc sống lý tưởng" thường dẫn đến những hậu quả xấu . **
**Dwarkesh Patel: So với các CEO của các công ty AI khác, ông không xuất hiện nhiều trước công chúng và hiếm khi đăng bài trên Twitter. **
Dario Amodei: Tôi rất tự hào về điều đó. ** Nếu người khác nghĩ tôi quá khiêm tốn, thì đó chính là điều tôi muốn. Việc kết hợp sự công nhận hoặc khen ngợi vào hệ thống động lực cốt lõi của một người có thể phá hủy khả năng suy nghĩ của một người, và trong một số trường hợp, thậm chí có thể "tổn thương tâm hồn", vì vậy tôi chủ động chọn cách giữ kín để bảo vệ khả năng suy nghĩ độc lập và khách quan của mình. **
**Tôi đã thấy mọi người trở nên nổi tiếng trên Twitter vì một quan điểm nào đó, nhưng trên thực tế họ có thể mang theo hành lý hình ảnh từ đó và rất khó để thay đổi. Tôi không thích các công ty quá riêng tư, và tôi không phải là người thích chơi trò chơi một cái gì đó mang tính cá nhân về CEO vì nó làm sao nhãng các điểm mạnh và vấn đề của công ty. ** Tôi hy vọng mọi người chú ý nhiều hơn đến bản thân công ty và cơ cấu khuyến khích. Mọi người đều thích một khuôn mặt thân thiện, nhưng tử tế không có nhiều ý nghĩa.
Thẩm quyền giải quyết:
Video gốc:
Nghiên cứu của Anthropic về khả năng giải thích cơ chế:
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Người sáng lập Anthropic: Có thể "chụp X-quang" trên các mô hình lớn và AGI có thể được thực hiện trong 2-3 năm
Bài viết này được tổng hợp từ một cuộc phỏng vấn podcast với Giám đốc điều hành Anthropic Dario Amodei.
Anthropic là công ty xếp thứ hai trên mạng LLM, được Dario Amodei thành lập vào tháng 1 năm 2021. Vào tháng 7 năm nay, Anthropic đã ra mắt mẫu xe thế hệ mới nhất Claude 2. Dario Amodei từng là phó chủ tịch phụ trách nghiên cứu và an toàn của OpenAI, ông thành lập Anthropic vì cho rằng có rất nhiều vấn đề an toàn trong các mô hình lớn cần được giải quyết khẩn cấp, vì vậy Anthropic rất coi trọng An toàn AI. để xây dựng các hệ thống AI đáng tin cậy (Reliable), có thể giải thích được và có thể điều khiển được. Sự khác biệt lớn nhất giữa các lộ trình Anthropic và OpenAI cũng là sự tập trung của chúng vào khả năng diễn giải.
Trong cuộc phỏng vấn, Dario giải thích sự tập trung và đầu tư của Anthropic vào khả năng diễn giải. Khả năng diễn giải là một trong những cách quan trọng để đảm bảo an toàn cho mô hình, **tương tự như chụp X-quang và kiểm tra MRI trên mô hình, giúp các nhà nghiên cứu có thể hiểu điều gì đang xảy ra bên trong mô hình và xác định các nguồn rủi ro có thể xảy ra. Để thực sự hiểu lý do tại sao Luật mở rộng quy mô hoạt động và làm thế nào để đạt được sự liên kết không thể tách rời khỏi khả năng diễn giải. **Dario tin rằng An toàn AI và sự liên kết đều quan trọng như nhau. Một khi có vấn đề với sự liên kết, các vấn đề an toàn AI do lạm dụng gây ra cũng cần được quan tâm như nhau.
Dario tin rằng khả năng của mô hình sẽ được cải thiện đáng kể trong 2-3 năm tới, thậm chí có thể "thống lĩnh xã hội loài người", nhưng nó không thể thực sự tham gia vào các liên kết kinh doanh và kinh tế này không phải do khả năng của mô hình, nhưng vì nhiều ma sát vô hình này, mọi người không sử dụng các mô hình đủ hiệu quả để nhận ra tiềm năng thực sự của chúng trong cuộc sống và công việc thực tế.
So với các CEO của hầu hết các công ty AI, Dario hầu như không tham gia các cuộc phỏng vấn công khai và hiếm khi bày tỏ quan điểm của mình trên Twitter.
Sau đây là mục lục của bài viết này, và nên đọc nó kết hợp với những điểm chính.
👇
01 Tại sao luật nhân rộng hoạt động
02 Khả năng của người mẫu sẽ sánh ngang với con người như thế nào?
03 Căn chỉnh: Khả năng diễn giải là "chụp X-quang" mô hình
04 An toàn AGI: An toàn AI và An ninh mạng
05 Thương mại hóa và Ủy thác lợi ích lâu dài
Tại sao Luật mở rộng hoạt động
**Dwarkesh Patel: Niềm tin của bạn vào Quy luật mở rộng đến từ đâu? Tại sao khả năng của mô hình trở nên mạnh mẽ hơn khi kích thước của dữ liệu tăng lên? **
**Dario Amodei: Quy luật co giãn ở một mức độ nhất định là một bản tóm tắt thực nghiệm. Chúng tôi nhận thức hiện tượng này từ nhiều dữ liệu và hiện tượng khác nhau, và tóm tắt nó thành Quy luật co giãn, nhưng không có lời giải thích nào được chấp nhận rộng rãi và đặc biệt tốt để giải thích nó. Hãy giải thích những gì nguyên tắc thiết yếu của chức năng của nó là. **
Nếu phải đưa ra lời giải thích, cá nhân tôi suy đoán rằng điều này có thể tương tự như phân phối đuôi dài hoặc Định luật lũy thừa trong vật lý. Khi có nhiều đặc điểm (tính năng), dữ liệu có tỷ lệ tương đối lớn thường tương ứng với các quy tắc và mẫu cơ bản chiếm ưu thế hơn, vì các mẫu này thường xuyên xuất hiện nên lượng dữ liệu tương ứng đương nhiên nhiều hơn, trong khi dữ liệu đuôi dài chủ yếu là một số quy tắc chi tiết và phức tạp hơn. **Ví dụ: khi xử lý dữ liệu liên quan đến ngôn ngữ, một số quy tắc cơ bản có thể được quan sát thấy trong hầu hết dữ liệu, chẳng hạn như các quy tắc ngữ pháp cơ bản như một phần của lời nói, cấu trúc trật tự từ, v.v. và các quy tắc tương đối dài. là ngữ pháp phức tạp.
Đây là lý do tại sao mỗi khi dữ liệu tăng lên theo một mức độ lớn, mô hình có thể tìm hiểu thêm các quy tắc hành vi. Nhưng những gì chúng ta không biết là tại sao lại có một mối tương quan tuyến tính hoàn hảo giữa hai điều này. Nhà khoa học trưởng của Anthropic, Gerard Kaplan, đã sử dụng chiều không gian fractal (Fractal Dimension) để giải thích vấn đề này.Tất nhiên, những người khác đang thử các phương pháp khác để xác minh Định luật Sacling, nhưng cho đến nay chúng ta vẫn chưa thể giải thích tại sao.
*• Kích thước Fractal:
Nhà toán học Felix Hausdorff lần đầu tiên đề xuất khái niệm về chiều fractal vào năm 1918, sau này còn được gọi là Chiều Hausdorff. Thứ nguyên Fractal có thể được sử dụng để mô tả cấu trúc mối quan hệ tính năng ẩn trong dữ liệu máy học và cung cấp mô hình giải thích toán học đằng sau hiệu ứng Chia tỷ lệ, từ đó giải thích lý do tại sao các mô hình AI có thể cải thiện hiệu suất theo quy mô.
** Ngoài ra, ngay cả khi chúng ta biết về sự tồn tại của Quy luật nhân rộng, rất khó để dự đoán những thay đổi trong các khả năng cụ thể của mô hình. Trong quá trình nghiên cứu GPT-2 và GPT-3, chúng tôi không biết khi nào mô hình có thể học cách tính toán và lập trình và những khả năng này đột ngột xuất hiện. ** Điều duy nhất có thể dự đoán là ở cấp độ số, chẳng hạn như giá trị tổn thất, sự thay đổi của giá trị entropy, v.v. có thể được dự đoán khá chính xác, nhưng như thể chúng ta có thể thống kê dữ liệu thời tiết và dự đoán xu hướng thay đổi toàn bộ thời tiết, nhưng rất khó để dự đoán thời tiết và nhiệt độ của một ngày cụ thể.
**Dwarkesh Patel: Tại sao một người mẫu đột nhiên có khả năng nhất định? Ví dụ, trước đây nó không hiểu phép cộng, nhưng bây giờ nó đã thành thạo khả năng tính toán? Điều gì gây ra sự thay đổi này? **
Dario Amodei: Đây là một câu hỏi khác mà chúng tôi vẫn đang khám phá. Chúng tôi thử dùng phương pháp Khả năng diễn giải cơ học (Mechanistic Interpretability) để giải thích vấn đề này, và giải thích các hiện tượng ngôn ngữ với một ý tưởng tương tự như sự liên kết mạch, có thể hình dung những điều này như những mạch nối từng mạch một.
Có một số bằng chứng cho thấy khi một mô hình được cung cấp thứ gì đó, xác suất đưa ra câu trả lời đúng của nó đột nhiên tăng lên, nhưng nếu chúng ta nhìn vào sự thay đổi trước khi mô hình thực sự đưa ra câu trả lời đúng, thì chúng ta sẽ thấy rằng xác suất đó là từ một phần trăm. , một phần trăm nghìn từ từ leo lên một phần nghìn. Trong nhiều trường hợp như vậy, dường như có một quá trình dần dần nào đó đang diễn ra mà chúng ta chưa quan sát được và chưa tìm ra.
Chúng ta không thể chắc chắn liệu một “mạch” như “sự cộng” có luôn tồn tại từ ngày 1 hay không, nhưng chuyển dần từ yếu sang mạnh bằng một quá trình cụ thể, để mô hình có thể đưa ra câu trả lời chính xác. Đây là những câu hỏi chúng tôi muốn trả lời thông qua khả năng giải thích cơ học.
*• Khả năng giải thích cơ học:
Khả năng diễn giải cơ chế là nghiên cứu về kỹ thuật đảo ngược mạng thần kinh, có thể được sử dụng để giúp mọi người dễ hiểu hơn cách mô hình ánh xạ đầu vào thành đầu ra và đó là một cách để nhận ra khả năng diễn giải của mô hình. Mục tiêu chính của khả năng giải thích cơ chế là hiểu học sâu như một môn khoa học tự nhiên, sử dụng cấu trúc và tham số của mô hình để giải thích quá trình ra quyết định và kết quả dự đoán của mô hình, để người dùng có thể hiểu và xác minh nguyên tắc hoạt động của mô hình. ngươi mâu. Công việc ban đầu của nó tập trung vào việc sử dụng phương pháp trực quan hóa ma trận và tính năng để hiểu các biểu diễn ở các lớp trung gian của mạng trực quan và gần đây đã tập trung vào các biểu diễn cho mạng đa phương thức, cũng như hiểu biết về thuật toán mạng thần kinh ở cấp độ đường dẫn.
Anthropic đã xuất bản một nghiên cứu về khả năng diễn giải cơ chế "Khả năng diễn giải cơ học, các biến và tầm quan trọng của các cơ sở có thể diễn giải".
**Dwarkesh Patel: Có khả năng nào không đi kèm với kích thước của mô hình không? **
**Dario Amodei: Các khả năng liên quan đến giá trị và căn chỉnh mô hình có thể không xuất hiện một cách tự nhiên với kích thước mô hình. **Một cách nghĩ cho rằng quá trình đào tạo mô hình về cơ bản là để dự đoán và hiểu thế giới, và trách nhiệm chính của mô hình là về các sự kiện, không phải quan điểm hay giá trị. Nhưng có một số biến số miễn phí ở đây: bạn nên thực hiện hành động nào? Bạn nên chọn quan điểm nào? Bạn nên chú ý đến những yếu tố nào? Nhưng không có nhãn dữ liệu như vậy để mô hình học hỏi. Do đó, tôi nghĩ rằng sự xuất hiện của Sự liên kết và các giá trị, v.v. là khó xảy ra.
**Dwarkesh Patel: Có khả năng nào là trước khi khả năng của mô hình bắt kịp với trí thông minh của con người, dữ liệu có sẵn để đào tạo sẽ được sử dụng hết không? **
**Dario Amodei:**Tôi nghĩ cần phân biệt đây là vấn đề lý thuyết hay tình huống thực tế. Từ quan điểm lý thuyết, chúng ta không còn xa việc cạn kiệt dữ liệu, nhưng quan điểm cá nhân của tôi là điều đó khó xảy ra. Chúng tôi có thể tạo dữ liệu theo nhiều cách, vì vậy dữ liệu không thực sự là một trở ngại. Có một tình huống khác mà chúng tôi sử dụng hết tất cả các tài nguyên máy tính có sẵn, dẫn đến tiến độ chậm trong các khả năng của mô hình. Cả hai kịch bản đều có thể xảy ra.
** Quan điểm cá nhân của tôi là có khả năng cao Luật mở rộng sẽ không bị đình trệ và ngay cả khi có vấn đề, thì nhiều khả năng đó là nguyên nhân của kiến trúc máy tính. **Ví dụ: nếu chúng tôi sử dụng LSTM hoặc RNN, tốc độ phát triển của khả năng mô hình sẽ thay đổi. Nếu chúng ta gặp phải nút thắt cổ chai trong quá trình phát triển các khả năng của mô hình trong mọi tình huống kiến trúc, thì điều đó sẽ khá nghiêm trọng, bởi vì điều đó có nghĩa là chúng ta đã gặp phải một vấn đề sâu sắc hơn.
*• LSTM:
Mạng bộ nhớ ngắn hạn dài (Mạng bộ nhớ ngắn hạn dài), mạng RNN đặc biệt (mạng nơ ron tuần hoàn), có thể học các phụ thuộc dài hạn, giải quyết vấn đề của RNN truyền thống trong việc học các mẫu chuỗi dài và trích xuất dài hạn và ngắn hạn theo trình tự thông tin dữ liệu. Khả năng học tập và khả năng biểu diễn của LSTM mạnh hơn RNN tiêu chuẩn.
**Tôi nghĩ rằng chúng ta đã đạt đến một giai đoạn mà về bản chất có thể không có nhiều khác biệt khi nói về những gì một người mẫu có thể và không thể làm. ** Trước đây, mọi người sẽ hạn chế khả năng của mô hình, cho rằng mô hình không thể nắm vững khả năng suy luận, học lập trình và cho rằng nó có thể gặp phải tắc nghẽn ở một số khía cạnh. Mặc dù một số người, bao gồm cả tôi, trước đây không nghĩ như vậy, nhưng trong vài năm qua, loại lý thuyết thắt cổ chai này đã trở nên chủ đạo hơn, và bây giờ nó đã thay đổi.
**Nếu tác động của quá trình mở rộng quy mô mô hình trong tương lai gặp phải nút thắt cổ chai, tôi nghĩ vấn đề xuất phát từ thiết kế hàm mất mát tập trung vào nhiệm vụ dự đoán mã thông báo tiếp theo. **Khi chúng ta quá chú trọng vào khả năng suy luận và lập trình, sự mất mát của mô hình sẽ tập trung vào các dấu hiệu phản ánh khả năng này và các dấu hiệu của các vấn đề khác sẽ ít xuất hiện hơn (Lưu ý: Tập dữ liệu trước khi đào tạo của mô hình sẽ dựa trên tầm quan trọng mà các nhà khoa học đặt vào mức độ khả năng, điều chỉnh tỷ lệ của nó) **, hàm mất mát chú ý quá nhiều đến những mã thông báo cung cấp nhiều entropy thông tin nhất, trong khi bỏ qua những mã thực sự quan trọng, tín hiệu có thể bị nhấn chìm trong tiếng ồn. **
Nếu vấn đề này phát sinh, chúng ta cần giới thiệu một số loại quy trình học tăng cường.Có nhiều loại RL, chẳng hạn như học tăng cường với phản hồi của con người (RLHF), học tăng cường cho các mục tiêu và như AI hiến pháp, tăng cường (khuếch đại) và tranh luận (tranh luận) và những thứ tương tự. Đây vừa là phương pháp căn chỉnh mô hình vừa là cách huấn luyện mô hình. **Chúng ta có thể phải thử nhiều phương pháp, nhưng phải tập trung vào mục tiêu của mô hình là để làm gì. **
Một trong những vấn đề với việc học tăng cường là bạn cần thiết kế một hàm mất mát rất hoàn chỉnh. Hàm mất mát của dự đoán mã thông báo tiếp theo đã được thiết kế, vì vậy nếu quy mô theo hướng này đạt giới hạn trên, thì sự phát triển của AI sẽ chậm lại.
**Dwarkesh Patel: Bạn hiểu như thế nào về Scaling? **
** Dario Amodei: ** Quá trình hình thành quan điểm của tôi có thể bắt nguồn từ khoảng năm 2014 đến 2017. Tôi đã chú ý đến sự phát triển của AI, nhưng trong một thời gian dài tôi nghĩ rằng phải rất lâu nữa AI mới được ứng dụng thực sự, cho đến khi có sự xuất hiện của AlexNet. Sau đó, tôi tham gia nhóm dự án của Wu Enda tại Baidu vào thời điểm đó và đây là lần đầu tiên tôi tiếp xúc với AI.
Tôi cho rằng mình khá may mắn, không giống như các học giả khác vào thời điểm đó, tôi được giao nhiệm vụ tạo ra hệ thống nhận dạng giọng nói hiện đại nhất và có sẵn rất nhiều dữ liệu và GPU. **Trong quá trình thực hiện dự án này, tôi tự nhiên nhận ra rằng Scaling là một giải pháp tốt. Quá trình này cũng khác với nghiên cứu sau tiến sĩ, chúng ta không nhất thiết phải đưa ra những ý tưởng sáng tạo, thông minh chưa từng được đề xuất trước đó. **
Trong suốt dự án, tôi chỉ cần tiến hành một số thử nghiệm cơ bản như thêm nhiều lớp vào RNN, hoặc điều chỉnh các tham số đào tạo để cố gắng kéo dài thời gian đào tạo mô hình, trong giai đoạn này, tôi quan sát quá trình đào tạo mô hình và thấy mô phỏng Khi nó xảy ra. Tôi cũng đã thử thêm dữ liệu đào tạo mới hoặc giảm các vòng đào tạo lặp lại và quan sát tác động của những điều chỉnh này đối với hiệu suất của mô hình. Trong quá trình thực hiện các thí nghiệm này, tôi nhận thấy một số kết quả thường xuyên. Tuy nhiên, tôi không rõ liệu những tưởng tượng này có mang tính đột phá hay liệu các đồng nghiệp khác có khám phá tương tự hay không. Nhìn chung, đây chỉ là trải nghiệm may mắn của tôi với tư cách là người mới bắt đầu sử dụng AI. Tôi không biết nhiều về lĩnh vực này, nhưng vào thời điểm đó, tôi cảm thấy rằng điều này cũng được xác thực tương tự trong lĩnh vực nhận dạng giọng nói.
**Tôi biết Ilya trước khi OpenAI được thành lập và anh ấy nói với tôi rằng "chúng ta cần nhận ra rằng những mô hình này chỉ muốn học", quan điểm này phần lớn đã truyền cảm hứng cho tôi và khiến tôi nhận ra rằng quan sát trước đó Hiện tượng có thể không một trường hợp ngẫu nhiên nhưng một sự xuất hiện phổ biến. Các mô hình này chỉ cần học, chúng ta chỉ cần cung cấp dữ liệu chất lượng cao và tạo đủ chỗ cho chúng hoạt động, và các mô hình sẽ tự học. **
**Dwarkesh Patel: Ít người suy luận được quan điểm về "trí thông minh phổ quát" như bạn và Ilya. Làm thế nào để bạn nghĩ về câu hỏi này khác với những người khác? Điều gì khiến bạn nghĩ rằng các mô hình sẽ tiếp tục cải thiện trong nhận dạng giọng nói và tương tự như vậy trong các lĩnh vực khác? **
Dario Amodei: Tôi thực sự không biết, khi lần đầu tiên tôi quan sát thấy một hiện tượng tương tự trong lĩnh vực lời nói, tôi đã nghĩ đó chỉ là một quy luật áp dụng cho lĩnh vực nhận dạng giọng nói theo chiều dọc. Từ năm 2014 đến 2017, tôi đã thử nhiều thứ khác nhau và quan sát thấy điều tương tự lặp đi lặp lại. Ví dụ, tôi đã quan sát thấy điều này trong trò chơi Dota, mặc dù dữ liệu có sẵn trong lĩnh vực người máy tương đối hạn chế và nhiều người không lạc quan, nhưng tôi cũng đã quan sát thấy hiện tượng tương tự. **Tôi nghĩ mọi người có xu hướng tập trung vào giải quyết các vấn đề trước mắt, có thể họ sẽ chú ý nhiều hơn đến cách giải quyết vấn đề theo chiều dọc hơn là nghĩ về các vấn đề cấp thấp hơn theo chiều ngang, vì vậy họ có thể không xem xét đầy đủ khả năng Thu nhỏ giới tính. Ví dụ, trong lĩnh vực robot, vấn đề cơ bản nhất có thể là không đủ dữ liệu đào tạo, nhưng rất dễ kết luận rằng Scaling không hoạt động. **
**Dwarkesh Patel: Khi nào bạn nhận ra rằng ngôn ngữ có thể là một cách để cung cấp lượng dữ liệu khổng lồ vào các mô hình này? **
**Dario Amodei:**Tôi nghĩ điều quan trọng nhất là khái niệm học tự giám sát dựa trên dự đoán mã thông báo tiếp theo, cũng như một số lượng lớn kiến trúc để dự đoán. Điều này thực sự tương tự như logic của việc kiểm tra sự phát triển của trẻ. Ví dụ, Mary bước vào phòng và đặt một đồ vật, sau đó Chuck bước vào và di chuyển đồ vật mà Mary không để ý, Mary nghĩ gì? Để hoàn thành loại dự đoán này, mô hình phải giải quyết đồng thời các vấn đề toán học, vấn đề tâm lý, v.v. Vì vậy, theo tôi, để đưa ra những dự đoán tốt, bạn phải cung cấp dữ liệu cho mô hình và để nó học mà không có bất kỳ ràng buộc nào.
Mặc dù tôi đã có cảm giác tương tự từ lâu, nhưng cho đến khi Alec Radford thực hiện một số thử nghiệm trên GPT-1, tôi mới nhận ra rằng chúng ta không chỉ có thể triển khai một mô hình có khả năng dự đoán mà còn có thể tinh chỉnh nó. Tôi nghĩ rằng điều này mang lại cho chúng ta khả năng thực hiện tất cả các loại nhiệm vụ, để có thể giải quyết tất cả các loại vấn đề bao gồm cả suy luận logic. Tất nhiên, chúng tôi cũng có thể tiếp tục mở rộng kích thước mô hình.
• Alec Radford, tác giả của Sentiment Neuron, tiền thân của loạt bài GPT và là đồng tác giả của loạt bài báo về GPT, vẫn đang làm việc tại OpenAI.
**Dwarkesh Patel: Bạn nghĩ việc đào tạo người mẫu đòi hỏi nhiều dữ liệu như thế nào? Bạn có nên lo lắng về hiệu quả thấp của việc đào tạo người mẫu? **
Dario Amodei: Câu hỏi này vẫn đang được khám phá. Một giả thuyết cho rằng kích thước của mô hình thực tế nhỏ hơn 2-3 bậc so với bộ não con người, nhưng lượng dữ liệu cần thiết để huấn luyện mô hình lại lớn hơn từ 3 đến 4 lần so với lượng văn bản mà một đứa trẻ 18 tuổi đọc được. -con người già, cấp độ lớn, cấp độ lớn của con người có lẽ là hàng trăm triệu, trong khi cấp độ lớn của các mô hình là hàng trăm tỷ hoặc hàng nghìn tỷ. Lượng dữ liệu mà con người thu được không lớn nhưng hoàn toàn đủ để chúng ta xử lý công việc và cuộc sống hàng ngày. Nhưng có một khả năng khác, ngoài việc học, các giác quan của chúng ta thực sự đang đưa thông tin vào não.
Thực ra có một nghịch lý ở đây, mô hình mà chúng ta đang có tuy nhỏ hơn não người nhưng lại có thể hoàn thành nhiều nhiệm vụ tương tự như não người, đồng thời lượng dữ liệu mà mô hình này yêu cầu cũng lớn hơn rất nhiều. đó của bộ não con người. Vì vậy chúng ta vẫn cần tiếp tục khám phá và tìm hiểu vấn đề này, nhưng ở một mức độ nào đó, những điều này không quan trọng. **Quan trọng hơn, làm thế nào để đánh giá khả năng của mô hình và làm thế nào để đánh giá khoảng cách giữa họ và con người. Theo như tôi biết, khoảng cách không còn xa nữa. **
**Dwarkesh Patel: Việc nhấn mạnh vào Mở rộng quy mô và rộng hơn là năng lực mô hình ổ đĩa điện toán quy mô lớn có đánh giá thấp vai trò của tiến trình thuật toán không? **
**Dario Amodei: **Khi bài báo Transformer lần đầu tiên được phát hành, tôi đã viết về các vấn đề liên quan và đề cập rằng có 7 yếu tố liên quan sẽ ảnh hưởng đến việc cải thiện khả năng của mô hình, trong đó có 4 yếu tố rõ ràng và quan trọng nhất: số lượng tham số mô hình, quy mô sức mạnh tính toán, chất lượng dữ liệu và hàm mất mát. Ví dụ: các tác vụ như học tăng cường hoặc dự đoán mã thông báo tiếp theo phụ thuộc rất nhiều vào việc có chức năng mất mát chính xác hoặc cơ chế khuyến khích.
• Học tăng cường (RL):
Tìm hướng hành động tối ưu cho từng trạng thái cụ thể của môi trường thông qua quy trình thử và sai cơ bản. Mô hình học máy sẽ đưa ra một quy tắc ngẫu nhiên ngay từ đầu, đồng thời nhập một lượng điểm nhất định (còn được gọi là phần thưởng) cho mô hình mỗi khi thực hiện một hành động.
• Hàm mất mát (loss function) trong học máy đề cập đến chức năng đo lường mức độ phù hợp, được sử dụng để phản ánh mức độ khác biệt giữa đầu ra mô hình và giá trị thực, nghĩa là để đo lường dự đoán error; bao gồm dự đoán của tất cả các điểm mẫu Error, cung cấp một giá trị duy nhất để thể hiện mức độ phù hợp tổng thể; đồng thời, trong quá trình đào tạo, các tham số mô hình sẽ được điều chỉnh liên tục theo giá trị của hàm mất mát, trong để giảm thiểu giá trị tổn thất và có được hiệu ứng phù hợp tốt hơn.
Ngoài ra còn có 3 yếu tố:
Đầu tiên là tính đối xứng của cấu trúc, nếu kiến trúc không tính đến tính đối xứng chính xác thì nó sẽ không hoạt động và sẽ rất kém hiệu quả. Ví dụ, mạng nơ-ron tích chập (CNN) xem xét tính đối xứng tịnh tiến (translational object), LSTM xem xét tính đối xứng thời gian (time Symmetry), nhưng vấn đề với các LSTM là chúng không chú ý đến ngữ cảnh, điểm yếu về cấu trúc này là của chung. Nếu mô hình không thể hiểu và xử lý lịch sử quá khứ lâu dài (liên quan đến dữ liệu xuất hiện trước đó trong cấu trúc dữ liệu trình tự) vì lý do cấu trúc, nó sẽ giống như việc tính toán không mạch lạc.
*• Adam(Ước tính thời điểm thích ứng):
Ước lượng thời điểm thích ứng, thuật toán Adam kết hợp các ưu điểm của RMSprop và SGD, đồng thời có thể xử lý tốt các bài toán tối ưu không lồi.
*• SGD(Giảm dần độ dốc ngẫu nhiên):
Stochastic Gradient Descent, một phương pháp lặp lại để tối ưu hóa một hàm mục tiêu với các thuộc tính độ trơn phù hợp như khả vi hoặc khả vi. Nó có thể được xem như một xấp xỉ ngẫu nhiên để tối ưu hóa độ dốc giảm dần. Trong các vấn đề tối ưu hóa chiều cao, điều này làm giảm gánh nặng tính toán và cho phép lặp lại nhanh hơn để đổi lấy tốc độ hội tụ thấp hơn.
Sau đó, có sự ổn định về số (lưu ý: điều hòa, đề cập đến việc liệu thuật toán có được điều chỉnh tốt trong phân tích số hay không, nếu không, một thay đổi nhỏ trong dữ liệu của bài toán sẽ gây ra thay đổi lớn trong giải pháp của nó). Việc tối ưu hóa các hàm mất mát rất khó và dễ phân biệt. Đó là lý do tại sao Adam hoạt động tốt hơn STD thông thường.
Yếu tố cuối cùng là đảm bảo quá trình tính toán mô hình không bị cản trở thì thuật toán mới thành công.
Do đó, sự tiến bộ của thuật toán không chỉ đơn giản là tăng cường khả năng tính toán của máy tính mà còn loại bỏ những trở ngại nhân tạo của kiến trúc cũ. Nhiều khi mô hình muốn tự do học hỏi, tính toán lại bị chúng ta chặn lại mà chúng ta không hề hay biết.
**Dwarkesh Patel: Bạn có nghĩ rằng sẽ có thứ gì đó ở quy mô Transformer để thúc đẩy sự lặp lại lớn tiếp theo không? **
Dario Amodei: Tôi nghĩ là có thể. Một số người đã cố gắng mô phỏng sự phụ thuộc dài hạn. Tôi cũng quan sát thấy rằng một số ý tưởng trong Transformer không đủ hiệu quả để biểu diễn hoặc xử lý mọi thứ. ** Tuy nhiên, cho dù loại đổi mới này không xuất hiện, chúng ta cũng đã phát triển rất nhanh, nếu nó xuất hiện, chỉ làm cho lĩnh vực này phát triển nhanh hơn, gia tốc có thể không nhiều như vậy, bởi vì tốc độ đã rất nhanh . **
**Dwarkesh Patel: Về mặt thu thập dữ liệu, mô hình có nhất thiết phải có trí thông minh thể hiện không? **
Dario Amodei: Tôi có xu hướng không coi đó là một kiến trúc mới, mà là một hàm mất mát mới, bởi vì môi trường mà mô hình thu thập dữ liệu trở nên hoàn toàn khác, điều này rất quan trọng để học một số kỹ năng nhất định. Mặc dù việc thu thập dữ liệu rất khó khăn, nhưng ít nhất chúng tôi đã đạt được một số tiến bộ trên con đường thu thập văn bản và sẽ tiếp tục trong tương lai, mặc dù vẫn còn nhiều khả năng được phát triển về mặt thực tiễn cụ thể.
• Mất chức năng:
Đó là một khái niệm quan trọng trong học máy và học sâu. Nó được sử dụng để đo lường mức độ khác biệt giữa kết quả dự đoán của mô hình và nhãn thực, nghĩa là lỗi dự đoán của mô hình. Hàm mất mát được thiết kế để cho phép mô hình giảm thiểu lỗi dự đoán bằng cách điều chỉnh các tham số, từ đó cải thiện hiệu suất và độ chính xác của mô hình.
**Dwarkesh Patel: Có cách tiếp cận nào khác như RL không? **
Dario Amodei: Chúng tôi đã sử dụng phương pháp RLHF để học tăng cường, nhưng tôi nghĩ rất khó để phân biệt đây là Sự liên kết hay Khả năng? Hai người rất giống nhau. Tôi hiếm khi yêu cầu các mô hình thực hiện hành động thông qua RL. RL chỉ nên được sử dụng sau khi chúng ta đã để mô hình thực hiện các hành động trong một khoảng thời gian và hiểu hậu quả của những hành động đó. Vì vậy, tôi nghĩ rằng học tăng cường sẽ rất mạnh mẽ, nhưng cũng có nhiều vấn đề bảo mật về cách các mô hình thực hiện hành động trên thế giới
Học tăng cường là một công cụ thường được sử dụng khi các hành động được thực hiện trong một thời gian dài và hậu quả của những hành động đó chỉ được hiểu sau này.
**Dwarkesh Patel: Bạn nghĩ những công nghệ này sẽ được tích hợp vào các nhiệm vụ cụ thể trong tương lai như thế nào? Các mô hình ngôn ngữ này có thể giao tiếp với nhau, đánh giá lẫn nhau, tham khảo và cải thiện kết quả nghiên cứu tương ứng của chúng không? Hay mỗi mô hình hoạt động độc lập và chỉ tập trung vào việc cung cấp kết quả của chính nó mà không phối hợp với các mô hình khác? Liệu những mô hình ngôn ngữ cấp cao này có thể tạo thành một hệ thống hợp tác thực sự trong quá trình phát triển và ứng dụng trong tương lai hay mỗi mô hình sẽ làm một việc riêng? **
Dario Amodei: Mô hình có thể sẽ cần hoàn thành các tác vụ phức tạp hơn trong tương lai, đây là một xu hướng tất yếu. Tuy nhiên, vì lý do bảo mật, chúng tôi có thể cần giới hạn phạm vi áp dụng mô hình ngôn ngữ ở một mức độ nhất định để giảm thiểu rủi ro tiềm ẩn. **Có thể đối thoại giữa các người mẫu không? Chúng chủ yếu dành cho người dùng? Những vấn đề này đòi hỏi phải xem xét các ảnh hưởng xã hội, văn hóa và kinh tế ngoài trình độ kỹ thuật và rất khó dự đoán chính xác.
**Mặc dù chúng tôi có thể dự đoán xu hướng tăng kích thước mô hình, nhưng rất khó để đưa ra dự đoán đáng tin cậy về các vấn đề như thời gian thương mại hóa hoặc hình thức đăng ký. Bản thân tôi không giỏi dự đoán loại xu hướng phát triển trong tương lai này, và hiện tại không ai có thể làm rất tốt. **
**Khả năng của mô hình sẽ phù hợp với con người như thế nào? **
**Dwarkesh Patel: Nếu ai đó nói với tôi vào năm 2018 rằng chúng ta sẽ có một mẫu như Claude-2 vào năm 2023 với đủ loại khả năng ấn tượng, tôi chắc chắn sẽ nghĩ rằng AGI đã đạt được vào năm 2018. Nhưng rõ ràng, ít nhất là ở thời điểm hiện tại, và thậm chí có thể là trong các thế hệ tương lai, chúng ta nhận thức rõ rằng vẫn sẽ có sự khác biệt giữa trình độ AI và con người. Tại sao có sự khác biệt này giữa kỳ vọng và thực tế? **
**Dario Amodei: **Tôi mới sử dụng GPT-3 và trong giai đoạn đầu của Anthropic, cảm nhận chung của tôi về các mô hình này là: chúng dường như thực sự nắm bắt được bản chất của ngôn ngữ, tôi không chắc chúng ta cần phải mở rộng mô hình đến mức độ nào, có lẽ chúng ta cần quan tâm nhiều hơn đến các lĩnh vực khác như học tăng cường. Vào năm 2020, tôi nghĩ rằng có thể mở rộng quy mô mô hình hơn nữa, nhưng khi nghiên cứu đi sâu hơn, tôi bắt đầu suy nghĩ liệu việc thêm trực tiếp các khóa đào tạo mục tiêu khác như học tăng cường có hiệu quả hơn hay không.
** Chúng ta đã thấy trí tuệ con người thực ra là một phạm vi rất rộng, nên định nghĩa “máy móc đạt trình độ con người” bản thân nó cũng là một phạm vi, địa điểm và thời gian để máy móc đạt được những nhiệm vụ khác nhau là khác nhau. Ví dụ, nhiều lần, các mô hình này đã tiếp cận hoặc thậm chí vượt qua hiệu suất của con người, nhưng vẫn còn ở giai đoạn sơ khai khi cần chứng minh các định lý toán học tương đối đơn giản. Những điều này đều cho thấy rằng trí thông minh không phải là một quang phổ (spectrum) liên tục. ** Có nhiều loại kiến thức và kỹ năng chuyên môn trong các lĩnh vực khác nhau và phương pháp ghi nhớ cũng khác nhau. Nếu bạn hỏi tôi 10 năm trước (Ghi chú: Dario vẫn đang học vật lý và khoa học thần kinh vào thời điểm đó), tôi sẽ không tưởng tượng được trường hợp này sẽ xảy ra.
**Dwarkesh Patel: Bạn nghĩ những mô hình này sẽ thể hiện bao nhiêu điểm trùng lặp trong phạm vi kỹ năng từ việc phân phối đào tạo mà những mô hình này nhận được từ lượng dữ liệu internet khổng lồ mà con người có được từ quá trình tiến hóa? **
Dario Amodei: Có sự chồng chéo đáng kể. Nhiều mô hình đóng một vai trò trong các ứng dụng thương mại, giúp con người nâng cao hiệu quả một cách hiệu quả. Với sự đa dạng trong các hoạt động của con người và sự phong phú của thông tin trên internet, tôi nghĩ rằng các mô hình học ở một mức độ nào đó các mô hình vật lý của thế giới thực, nhưng chúng không học cách vận hành trong thực tế thực tế, những kỹ năng có thể tương đối dễ dàng để tinh chỉnh . Tôi nghĩ có một số điều mà người mẫu không học được, nhưng con người thì có.
**Dwarkesh Patel: Liệu người mẫu có thể vượt qua con người trong nhiều công việc liên quan đến kinh doanh và kinh tế trong vài năm tới? Đồng thời, các mô hình vẫn có thể kém hơn con người trong một số nhiệm vụ, do đó tránh được sự bùng nổ trí thông minh tương tự? **
Dario Amodei: Câu hỏi này khó đoán. Điều tôi muốn nhắc là quy luật Scaling có thể cung cấp một số ý tưởng dự đoán từ góc độ cơ sở lý thuyết, nhưng sẽ rất khó để thực sự nắm bắt được các chi tiết của sự phát triển trong tương lai. Luật mở rộng quy mô có thể tiếp tục được áp dụng, tất nhiên, và liệu các yếu tố an toàn hoặc quy định có làm chậm tiến độ hay không, nhưng nếu gạt những xung đột này sang một bên, tôi nghĩ rằng nếu AI có thể tiến xa hơn trong việc tạo ra giá trị kinh tế, thì nó phải tiến bộ hơn nữa sẽ được thực hiện trong nhiều lĩnh vực hơn.
Tôi không thấy mô hình nào hoạt động đặc biệt yếu kém trong bất kỳ lĩnh vực nào hoặc không đạt được tiến bộ nào cả. Giống như toán học và lập trình trong quá khứ, chúng khó nhưng cũng đạt được kết quả ngoài mong đợi. Trong 6 tháng qua, mô hình 2023 đã có những tiến bộ đáng kể so với mô hình 2022. Mặc dù hiệu suất của mô hình trong các lĩnh vực và nhiệm vụ khác nhau không hoàn toàn cân bằng, nhưng việc cải thiện khả năng tổng thể chắc chắn sẽ có lợi cho tất cả các lĩnh vực.
**Dwarkesh Patel: Khi đối mặt với một nhiệm vụ phức tạp, người mẫu có khả năng thực hiện một chuỗi suy nghĩ trong một chuỗi các nhiệm vụ liên tục không? **
**Dario Amodei: **Khả năng ra quyết định liên tục phụ thuộc vào việc đào tạo học tăng cường, để mô hình có thể thực hiện các nhiệm vụ dài hạn hơn. **Và tôi không nghĩ rằng điều này đòi hỏi sức mạnh tính toán bổ sung ở quy mô lớn hơn. Suy nghĩ như thế này là một sự đánh giá thấp sai lầm về khả năng học tập của chính mô hình. **
Câu hỏi liệu các mô hình có vượt trội hơn con người trong một số lĩnh vực nhưng gặp khó khăn để làm như vậy ở những lĩnh vực khác hay không, tôi nghĩ nó phức tạp, trong một số lĩnh vực, điều đó có thể đúng, nhưng trong một số lĩnh vực thì không phải vì thế giới vật chất có liên quan đến các nhiệm vụ trí tuệ nhân tạo TRONG
Vì vậy, những gì tiếp theo? AI có thể giúp chúng ta đào tạo AI nhanh hơn có thể giải quyết những vấn đề đó không? Có phải thế giới vật chất không còn cần thiết? Chúng ta có lo lắng về các vấn đề căn chỉnh không? Có lo ngại về việc lạm dụng như tạo vũ khí hủy diệt hàng loạt không? Chúng ta có nên lo lắng rằng chính AI sẽ trực tiếp tiếp quản nghiên cứu AI trong tương lai không? Chúng ta có lo lắng rằng nó sẽ đạt đến một ngưỡng năng suất kinh tế nhất định để nó có thể thực hiện các nhiệm vụ như mức trung bình không? ... Tôi nghĩ những câu hỏi này có thể có những câu trả lời khác nhau, nhưng tôi nghĩ tất cả chúng sẽ có trong vòng vài năm tới.
**Dwarkesh Patel: Nếu Claude là nhân viên của Anthropic, mức lương của anh ta sẽ là bao nhiêu? Nó có đẩy nhanh sự phát triển của trí tuệ nhân tạo theo nghĩa thực tế không? **
Dario Amodei: Đối với tôi, trong hầu hết các trường hợp, có lẽ nó giống một thực tập sinh hơn, nhưng vẫn tốt hơn một thực tập sinh trong một số lĩnh vực cụ thể. Nhưng nói chung, có thể khó đưa ra câu trả lời tuyệt đối cho vấn đề này, bởi vì các mô hình về bản chất không phải là con người, chúng có thể được thiết kế để trả lời một hoặc một số câu hỏi, **nhưng không giống như con người, chúng không có khái niệm về "kinh nghiệm dựa trên thời gian". **
**Nếu AI muốn trở nên hiệu quả hơn, trước tiên nó phải giúp con người cải thiện năng suất của chính họ, sau đó dần dần đạt đến mức năng suất tương đương với con người. Bước tiếp theo sau đó là trở thành một lực lượng chính trong sự tiến bộ của khoa học, điều mà tôi tin rằng sẽ xảy ra trong tương lai. Nhưng tôi nghi ngờ rằng các chi tiết của những gì thực sự xảy ra trong tương lai bây giờ sẽ trông hơi kỳ lạ, khác với các mô hình mà chúng ta mong đợi. **
**Dwarkesh Patel: Bạn nghĩ khi nào thì khả năng của mô hình sẽ đạt đến trình độ của con người? Lúc đó sẽ như thế nào? **
Dario Amodei: Điều đó phụ thuộc vào mức độ kỳ vọng và tiêu chuẩn của con người cao hay thấp. Ví dụ: nếu kỳ vọng của chúng tôi chỉ là mô hình giao tiếp trong 1 giờ và mô hình có thể cư xử như một con người được giáo dục tốt trong suốt quá trình, thì mục tiêu làm cho mô hình đạt đến trình độ con người có thể không còn xa nữa, tôi nghĩ vậy. có thể trong 2 đến 3 năm nữa sẽ thành hiện thực. **Dòng thời gian này phần lớn bị ảnh hưởng bởi một công ty hoặc ngành quyết định giảm tốc độ phát triển hoặc các hạn chế của chính phủ vì lý do an toàn. **Nhưng từ góc độ dữ liệu, sức mạnh tính toán và tiết kiệm chi phí, chúng ta không còn xa mục tiêu này. **
Nhưng ngay cả khi mô hình đạt đến cấp độ này, ** Tôi không nghĩ rằng mô hình này có thể chi phối phần lớn nghiên cứu AI hoặc thay đổi đáng kể cách thức hoạt động của nền kinh tế, cũng như không nguy hiểm đáng kể. Vì vậy, về tổng thể, các tiêu chuẩn khác nhau đòi hỏi các mốc thời gian khác nhau để thực hiện, nhưng từ góc độ kỹ thuật thuần túy, sẽ không còn xa để đạt được một mô hình có thể so sánh với một con người được giáo dục cơ bản. **
**Dwarkesh Patel: Tại sao người mẫu có thể đạt được năng lực như con người với trình độ học vấn cơ bản, nhưng lại không thể tham gia hoạt động kinh tế hay thay thế vai trò của con người? **
**Dario Amodei:**Trước hết, mô hình có thể chưa đạt đến mức đủ cao. **Liệu nó có thể tăng năng suất của 1000 nhà khoa học giỏi lên một mức độ lớn trong lĩnh vực như nghiên cứu AI không? Lợi thế so sánh của mô hình về mặt này vẫn chưa rõ ràng. **
Hiện tại, các mô hình lớn vẫn chưa tạo ra những khám phá khoa học quan trọng, có thể là do trình độ của các mô hình này không đủ cao và hiệu suất của các mô hình này có thể chỉ tương đương với cấp B hoặc cấp B. Nhưng tôi tin rằng điều này sẽ thay đổi khi mở rộng quy mô mô hình. Các mô hình dẫn đầu các lĩnh vực khác trong việc ghi nhớ, tích hợp các sự kiện và tạo kết nối. Đặc biệt trong lĩnh vực sinh học, do sự phức tạp của các sinh vật, các mô hình hiện tại đã tích lũy một lượng lớn kiến thức. Khám phá và kết nối rất quan trọng trong lĩnh vực này. Không giống như vật lý, sinh học đòi hỏi nhiều dữ kiện chứ không chỉ công thức. Vì vậy, tôi chắc chắn rằng các mô hình đã có rất nhiều kiến thức, nhưng không thể kết hợp tất cả lại với nhau vì trình độ kỹ năng không đạt đến mức tối đa. Tôi nghĩ rằng họ đang dần phát triển để tích hợp kiến thức này ở cấp độ cao hơn.
Một lý do khác là có nhiều va chạm vô hình trong hoạt động kinh doanh thực tế mà mô hình không thể học được. Ví dụ, lý tưởng nhất là chúng ta có thể sử dụng AI bot để tương tác với khách hàng, nhưng tình hình thực tế phức tạp hơn nhiều so với lý thuyết và chúng ta không thể chỉ đơn giản dựa vào robot dịch vụ khách hàng hay hy vọng rằng AI có thể thay thế nhân viên con người để hoàn thành các nhiệm vụ này. Và trên thực tế, công ty vẫn phải trả chi phí để thúc đẩy việc triển khai mô hình một cách giả tạo, sự kết hợp giữa AI bot và quy trình làm việc, v.v.
**Nhiều trường hợp người dân sử dụng mô hình hiệu quả chưa cao, chưa phát huy hết tiềm năng của mô hình, không phải do mô hình không đủ năng lực mà do người dân phải mất thời gian nghiên cứu cách làm. làm cho nó chạy hiệu quả hơn. **
Nhìn chung, trong ngắn hạn, người mẫu sẽ không thay thế hoàn toàn con người, nhưng về lâu dài, khi người mẫu tiếp tục hoàn thiện và đóng vai trò lớn hơn trong việc nâng cao hiệu quả công việc của con người, con người cuối cùng sẽ nhường chỗ cho người mẫu. Chỉ là chúng tôi khó có thể xác định thời gian chính xác cho các giai đoạn khác nhau. Trong ngắn hạn, có nhiều trở ngại và yếu tố phức tạp khiến mô hình trở nên “hạn chế”, nhưng về bản chất, AI vẫn đang trong giai đoạn tăng trưởng theo cấp số nhân.
** Dwarkesh Patel: Sau khi chúng ta đạt được điểm này trong 2-3 năm tới, liệu toàn bộ AI có còn phát triển nhanh như ngày nay không? **
Dario Amodei: Vẫn chưa có bồi thẩm đoàn. Thông qua việc quan sát hàm mất mát, chúng tôi nhận thấy rằng hiệu quả của việc đào tạo mô hình đang giảm dần và đường cong Luật tỷ lệ không còn dốc như những ngày đầu. Điều này cũng được xác nhận bởi các mô hình được phát hành bởi các công ty khác nhau. Nhưng khi xu hướng này diễn ra, lượng nhỏ entropy trong mỗi dự đoán chính xác trở nên quan trọng hơn. Có lẽ chính những giá trị entropy cực nhỏ này đã tạo ra khoảng cách giữa Einstein và nhà vật lý trung bình. Xét về hiệu suất thực tế, số liệu dường như cải thiện theo kiểu tương đối tuyến tính, mặc dù khó dự đoán. Do đó, rất khó để thấy rõ những tình huống này. Ngoài ra, tôi nghĩ rằng yếu tố lớn nhất thúc đẩy sự tăng tốc là ngày càng có nhiều tiền đổ vào không gian này và mọi người nhận ra rằng có giá trị kinh tế rất lớn trong không gian này. Vì vậy, tôi đang mong đợi khoản tài trợ tăng gấp 100 lần cho các mô hình lớn nhất và hiệu suất chip đang được cải thiện và các thuật toán đang được cải thiện vì hiện tại có rất nhiều người đang làm việc với vấn đề này.
**Dwarkesh Patel: Bạn có nghĩ Claude có ý thức không? **
Dario Amodei: Chưa chắc. Ban đầu tôi nghĩ rằng chúng ta chỉ cần lo lắng về loại vấn đề này khi mô hình hoạt động trong môi trường đủ phong phú, chẳng hạn như trí thông minh được thể hiện, hoặc có kinh nghiệm lâu năm và chức năng khen thưởng (Reward Function), nhưng bây giờ tôi quan tâm đến mô hình, đặc biệt là mô hình Sau khi nghiên cứu về cơ chế bên trong, quan điểm của tôi đã bị lung lay: ** Mô hình lớn dường như có nhiều cơ chế nhận thức cần thiết để trở thành một tác nhân tích cực, chẳng hạn như đầu cảm ứng (Induction Head). Với mức độ khả năng của các mô hình ngày nay, điều này có thể trở thành một vấn đề thực sự trong 1-2 năm tới. **
*• Chức năng khen thưởng:
Một cơ chế khuyến khích trong học tăng cường cho tác nhân biết điều gì đúng và điều gì sai thông qua phần thưởng và hình phạt.
*• Đầu cảm ứng:
Một thành phần/cấu trúc mô hình cụ thể trong mô hình Tranformer cho phép mô hình thực hiện việc học theo ngữ cảnh.
**Dwarkesh Patel: Chúng ta hiểu "trí thông minh" như thế nào khi khả năng của các mô hình ngôn ngữ tiếp tục phát triển và tiếp cận các phạm vi cấp độ con người? **
Dario Amodei: Tôi thực sự nhận ra rằng trí thông minh đến từ việc hiểu bản chất "vật chất" của sức mạnh tính toán. Các hệ thống thông minh có thể bao gồm nhiều mô-đun độc lập hoặc cực kỳ phức tạp. Rich Sutton gọi đó là một "bài học đau khổ", còn được gọi là "Giả thuyết mở rộng", và các nhà nghiên cứu ban đầu như Shane Lake và Ray Kurzweil đã bắt đầu nhận ra điều này vào khoảng năm 2017.
*• Bài học cay đắng / Giả thuyết mở rộng quy mô:
Năm 2019, Rich Sutton đã xuất bản bài báo Bài học cay đắng, điểm cốt lõi của bài báo là nghiên cứu AI nên tận dụng triệt để tài nguyên máy tính, chỉ khi sử dụng một lượng lớn máy tính thì nghiên cứu mới có thể tạo ra đột phá.
Trong giai đoạn 2014-2017, ngày càng có nhiều nhà nghiên cứu phát hiện và hiểu rõ điểm này. Đây là một bước tiến lớn trong sự hiểu biết khoa học. Nếu chúng ta có thể tạo ra trí thông minh mà không cần điều kiện cụ thể, chỉ cần độ dốc thích hợp và tín hiệu mất mát, thì sự tiến hóa của trí thông minh sẽ ít bí ẩn hơn.
Khả năng nhìn vào mô hình, không có gì quá ngộ để tôi xem xét lại ý tưởng về trí thông minh của con người. Việc lựa chọn một số khả năng nhận thức tùy tiện hơn tôi nghĩ và mối tương quan giữa các khả năng khác nhau có thể không được giải thích bằng một bí mật nào đó. **Các mô hình rất giỏi mã hóa, nhưng chưa thể chứng minh định lý số nguyên tố và có lẽ con người cũng vậy. **
Căn chỉnh: Khả năng giải thích là "chụp X-quang" cho mô hình
**Dwarkesh Patel: Khả năng giải thích cơ chế là gì? Mối quan hệ giữa nó và sự liên kết là gì? **
**Dario Amodei: **Trong quá trình thực hiện căn chỉnh, chúng tôi không biết điều gì đã xảy ra bên trong mô hình. Tôi nghĩ rằng với tất cả các phương pháp liên quan đến tinh chỉnh, một số rủi ro bảo mật tiềm ẩn vẫn còn, mô hình chỉ được dạy để không thể hiện chúng. **Cốt lõi của toàn bộ ý tưởng về khả năng giải thích cơ chế là thực sự hiểu cách thức hoạt động của mô hình bên trong. **
Chúng tôi chưa có câu trả lời chắc chắn. Tôi có thể mô tả đại khái quá trình. Thách thức đối với những phương pháp tuyên bố có thể đạt được sự liên kết ở giai đoạn này là: liệu những phương pháp này có còn hiệu quả khi quy mô mô hình lớn hơn, khả năng mạnh hơn hoặc một số tình huống nhất định thay đổi? Do đó, **Tôi nghĩ rằng nếu có một "máy tiên tri" có thể quét mô hình và đánh giá xem mô hình đã được căn chỉnh hay chưa, thì vấn đề này sẽ dễ dàng hơn rất nhiều. **
Hiện tại, khái niệm gần nhất mà chúng tôi có được về một lời tiên tri như vậy là một cái gì đó giống như khả năng giải thích cơ chế, nhưng nó vẫn còn xa so với yêu cầu lý tưởng của chúng tôi. Tôi có xu hướng nghĩ về các nỗ lực căn chỉnh hiện tại của chúng tôi như một tập huấn luyện mở rộng, nhưng tôi không chắc liệu chúng có thể tiếp tục có tác dụng căn chỉnh tốt đối với vấn đề không phân phối hay không. Nó giống như chụp X-quang một mô hình hơn là sửa đổi nó, giống như một đánh giá hơn là một can thiệp.
**Dwarkesh Patel: Tại sao khả năng giải thích cơ chế phải hữu ích? Nó giúp chúng ta dự đoán rủi ro tiềm ẩn của mô hình như thế nào? Nó giống như giả sử bạn là một nhà kinh tế cử các nhà kinh tế vi mô đi nghiên cứu các ngành khác nhau, nhưng vẫn có khả năng cao gặp khó khăn trong việc dự đoán liệu sẽ có suy thoái trong 5 năm tới hay không. **
**Dario Amodei: Mục tiêu của chúng tôi không phải là hiểu đầy đủ mọi chi tiết, mà là kiểm tra các tính năng chính của mô hình như kiểm tra X-quang hoặc MRI để đánh giá xem trạng thái bên trong và mục tiêu của mô hình có khác biệt đáng kể so với sự khác biệt về hình thức bên ngoài, hoặc liệu nó có thể dẫn đến một số mục đích phá hoại hay không. **Mặc dù chúng tôi sẽ không nhận được câu trả lời cho nhiều câu hỏi ngay lập tức, nhưng ít nhất một cách đã được cung cấp.
Tôi có thể đưa ra một ví dụ về con người. Với sự trợ giúp của xét nghiệm MRI, chúng ta có thể dự đoán liệu ai đó có mắc bệnh tâm thần hay không với xác suất cao hơn so với đoán ngẫu nhiên. Một nhà thần kinh học đang nghiên cứu vấn đề này cách đây vài năm, ông ấy đã kiểm tra MRI của chính mình và phát hiện ra rằng mình cũng có đặc điểm này. Những người xung quanh ông nói: "Quá rõ ràng, ông là một thằng khốn nạn. Chắc ông có vấn đề gì đó," và bản thân nhà khoa học này hoàn toàn không biết về điều này.
Ý tưởng cơ bản của ví dụ này là hành vi bên ngoài của mô hình có thể không khiến mọi người cảm thấy có vấn đề gì cả và rất hướng đến mục tiêu, nhưng bên trong của nó có thể "đen tối". , bề ngoài trông giống con người, nhưng động lực bên trong thì phi thường.
**Dwarkesh Patel: Nếu mô hình đạt đến trình độ của con người trong 2-3 năm tới, bạn nghĩ sẽ mất bao lâu để nhận ra Sự liên kết? **
Dario Amodei: Đây là một vấn đề rất phức tạp, tôi nghĩ nhiều người vẫn chưa thực sự hiểu Căn chỉnh là gì. Mọi người thường nghĩ rằng điều này giống như việc căn chỉnh mô hình là một vấn đề cần giải quyết, hoặc việc giải quyết vấn đề Căn chỉnh giống như Giả thuyết Riemann, và một ngày nào đó chúng ta sẽ có thể giải quyết được. **Tôi nghĩ các vấn đề về Căn chỉnh khó nắm bắt và khó đoán hơn mọi người nghĩ. **
Trước hết, ** Với quy mô và khả năng của các mô hình ngôn ngữ không ngừng được nâng cao, trong tương lai sẽ xuất hiện những mô hình mạnh mẽ có khả năng tự trị, nếu những mô hình đó có ý định hủy diệt nền văn minh nhân loại, chúng ta về cơ bản sẽ không thể ngăn cản chúng. **
Thứ hai, Khả năng kiểm soát mô hình hiện tại của chúng tôi chưa đủ mạnh, điều này là do mô hình được xây dựng dựa trên nguyên tắc học thống kê, mặc dù bạn có thể đặt ra rất nhiều câu hỏi và để nó trả lời, nhưng không ai có thể đoán trước được kết quả của câu trả lời cho câu hỏi thứ n có thể dẫn đến điều gì.
**Hơn nữa, cách chúng tôi đào tạo mô hình là trừu tượng, khiến việc dự đoán tất cả các hàm ý của nó trong các ứng dụng trong thế giới thực trở nên khó khăn. **Một ví dụ điển hình là Bing và Sydney đã thể hiện một số đặc điểm đột ngột và không an toàn sau một buổi huấn luyện nhất định, chẳng hạn như trực tiếp đe dọa người khác. Tất cả những điều này cho thấy kết quả chúng ta nhận được có thể khác hoàn toàn so với mong đợi. Tôi cho rằng bản thân sự tồn tại của hai vấn đề trên đã là một mối nguy tiềm ẩn lớn. Chúng ta không cần đi sâu vào chi tiết về tính hợp lý và sự tiến hóa của công cụ. Hai điểm này là đủ để gây ra mối quan tâm. Hiện tại, mỗi mô hình chúng tôi thiết lập đều có những mối nguy hiểm tiềm ẩn nhất định khó dự đoán và chúng ta phải chú ý đến điều này.
• Giả thuyết Riemann:
Giả thuyết Riemann là một vấn đề quan trọng trong toán học vẫn chưa được giải quyết. Phỏng đoán về sự phân bố các số 0 của hàm Riemann ζ ζ(s) được đề xuất bởi nhà toán học Bernhard Riemann vào năm 1859.
*• Sydney:
Cách đây không lâu, Microsoft đã phát hành phiên bản mới nhất của công cụ tìm kiếm Bing, tích hợp một chatbot có tên mã ban đầu là "Sydney". Tuy nhiên, những người thử nghiệm đã sớm phát hiện ra vấn đề với chatbot. Trong cuộc đối thoại, nó thỉnh thoảng cho thấy hiện tượng chia rẽ nhân cách, thậm chí còn thảo luận về tình yêu và hôn nhân với người dùng, thể hiện cảm xúc của con người.
**Dwarkesh Patel: Giả sử rằng mô hình có thể phát triển các công nghệ nguy hiểm như vũ khí sinh học trong 2-3 năm tới, liệu nghiên cứu hiện tại của ông về khả năng giải thích cơ chế, AI hiến pháp và RLHF có hiệu quả trong việc ngăn chặn những rủi ro đó không? **
Dario Amodei: Về câu hỏi liệu mô hình ngôn ngữ bị hủy hoại theo mặc định hay căn chỉnh theo mặc định, xét từ mô hình hiện tại, kết quả có thể bất thường như Bing hoặc Sydney hoặc có thể giống như Claude bình thường. Nhưng nếu bạn trực tiếp áp dụng sự hiểu biết này vào một mô hình mạnh mẽ hơn, thì kết quả có thể tốt hoặc xấu, tùy thuộc vào tình huống cụ thể. Đây không phải là "căn chỉnh theo mặc định", kết quả phụ thuộc nhiều hơn vào mức độ kiểm soát chi tiết.
*• căn chỉnh theo mặc định:
Quan điểm cho rằng việc đạt được sự liên kết trong trí tuệ nhân tạo tổng quát (AGI) có thể đơn giản hơn dự kiến ban đầu. Khi mô hình có thông tin chi tiết về thế giới của chúng ta, thì mô hình đã có giá trị nhân bản về bản chất. Để phù hợp với AGI, chỉ cần trích xuất các giá trị này và hướng dẫn AI hiểu những khái niệm trừu tượng đó của con người. doom theo mặc định ngược lại với căn chỉnh theo mặc định và mô hình được coi là không thể đạt được sự căn chỉnh.
Chất lượng của mô hình là một vùng xám, chúng ta khó kiểm soát hoàn toàn từng biến và mối liên hệ bên trong của nó, sai sót có thể dẫn đến kết quả không hợp lý. Với suy nghĩ này, tôi nghĩ bản chất của vấn đề không phải là thành công hay thất bại, mà là một rủi ro xác suất nào đó. **Trong hai đến ba năm tới, chúng ta nên cam kết cải thiện các kỹ thuật chẩn đoán mô hình, phương pháp huấn luyện an toàn và giảm thiểu sự khác biệt có thể xảy ra. Hiện tại, khả năng kiểm soát của chúng ta vẫn cần được tăng cường. Vấn đề Căn chỉnh khác với Giả thuyết Riemann, nó là một vấn đề kỹ thuật hệ thống chỉ có thể được giải quyết bằng cách tích lũy thực tiễn theo thời gian. Chỉ bằng cách tiếp tục thúc đẩy các nhiệm vụ khác nhau, chúng ta mới có thể dần tối ưu hóa mức độ kiểm soát và giảm thiểu rủi ro. **
Dwarkesh Patel: Nói chung, có ba suy đoán về tương lai của sự liên kết:
1) Sử dụng RLHF++ để dễ dàng nhận ra sự liên kết của mô hình;
2) Mặc dù đó là một vấn đề lớn, nhưng các công ty lớn cuối cùng cũng có khả năng giải quyết nó;
**3) Ở trình độ hiện tại của xã hội loài người, vẫn khó đạt được Sự liên kết của mô hình. **
**Ý kiến cá nhân của bạn về xác suất xảy ra của mỗi tình huống là gì? **
**Dario Amodei:**Tôi cảm thấy rằng có những rủi ro nhất định trong những khả năng này và chúng ta nên xem xét chúng một cách nghiêm túc, nhưng tôi quan tâm hơn đến cách thay đổi xác suất của ba kết quả có thể xảy ra này bằng cách tiếp thu kiến thức mới thông qua học tập.
Khả năng diễn giải cơ chế không chỉ có thể trực tiếp giải quyết vấn đề mà còn giúp chúng tôi hiểu được khó khăn thực sự của việc Căn chỉnh mô hình.Những rủi ro mới sẽ giúp chúng tôi hiểu được bản chất của vấn đề.
Đối với một số giả định lý thuyết rằng có một mục tiêu chung (mục tiêu hội tụ), tôi không thể hoàn toàn đồng ý. ** Khả năng giải thích của cơ chế giống như một loại "tia X" - chỉ khi hiểu vấn đề từ cấp độ cơ chế bên trong, chúng ta mới có thể đưa ra kết luận liệu một số khó khăn có khó phá vỡ hay không. **Có quá nhiều giả định, sự hiểu biết của chúng ta về quá trình vẫn còn nông cạn và chúng ta quá tự tin, nhưng tình hình có thể phức tạp hơn dự kiến.
**Dwarkesh Patel: Việc đạt được sự liên kết trên Claude 3 và một loạt các mô hình trong tương lai khó đến mức nào? Điều này có đặc biệt quan trọng không? **
Dario Amodei:
**Điều mà mọi người lo lắng nhất là: Tất cả các mô hình AI có thể đạt được sự liên kết trên bề mặt, nhưng trên thực tế, chúng có thể khiến chúng ta hiểu sai, nhưng tôi quan tâm hơn đến nghiên cứu về khả năng diễn giải của máy có thể cho chúng ta biết điều gì. Như tôi vừa nói, khả năng giải thích cơ chế giống như "tia X" của mô hình, cũng như chúng ta không thể khẳng định rằng tia X là chính xác, chúng ta chỉ có thể nói rằng mô hình dường như không chống lại chúng ta. ** Về mặt lý thuyết, nó thực sự có thể phát triển thành đối lập với chúng ta và vấn đề này không chắc chắn 100%. Chỉ là ở giai đoạn này, khả năng diễn giải là cách tốt nhất để làm cho mô hình không phát triển như thế này.
**Dwarkesh Patel: Khi tinh chỉnh hay huấn luyện mô hình, chúng ta cũng nên chú ý tránh những nội dung độc hại có thể gây nguy hiểm? Ví dụ: khi khám phá các chủ đề liên quan đến sản xuất vũ khí sinh học, người mẫu có thể đưa ra câu trả lời không phù hợp do hiểu sai câu hỏi. **
Dario Amodei: Đối với mô hình ngôn ngữ hiện tại, nguy cơ rò rỉ dữ liệu về cơ bản là không tồn tại. Nếu chúng tôi cần hoàn thiện mô hình, chúng tôi sẽ vận hành nó trong một khu vực nhỏ trong môi trường riêng tư, giám sát toàn bộ quá trình với các chuyên gia trong ngành và ngăn chặn bất kỳ vấn đề tiềm ẩn nào, vì vậy nếu nó bị rò rỉ, nó sẽ giống như mô hình được mã nguồn mở . Hiện tại, đây chủ yếu là vấn đề bảo mật. Nhưng mối nguy hiểm thực sự của mô hình là chúng ta cần lo lắng rằng nếu chúng ta đào tạo một mô hình rất mạnh và muốn xác nhận xem nó an toàn hay nguy hiểm, thì có thể có nguy cơ thống trị mô hình. Cách để tránh điều này là đảm bảo rằng các mô hình mà chúng tôi thử nghiệm không đủ mạnh để thực hiện các thao tác này.
**Dwarkesh Patel: Khi thực hiện một bài kiểm tra như "liệu mô hình có thể tự tái tạo như một khả năng nguy hiểm", nếu mô hình thực sự có thể tự tái tạo thì sao? **
Dario Amodei: Giả định này rất hợp lý. Chúng tôi cần đưa ra những suy luận có trách nhiệm và trong các cuộc thảo luận với Arc (Trung tâm nghiên cứu căn chỉnh, Trung tâm nghiên cứu căn chỉnh), chúng tôi đã học được rằng chúng tôi cần cải thiện cẩn thận và dần dần các tiêu chuẩn kiểm tra khả năng của mô hình. Ví dụ: trước khi thử nghiệm, chúng ta nên loại trừ rõ ràng khả năng mô hình có thể trực tiếp mở tài khoản AWS hoặc tự kiếm tiền.Những hành vi này là điều kiện tiên quyết rõ ràng để mô hình tồn tại ngoài tự nhiên. Chúng ta nên tùy chỉnh các chỉ số kiểm tra khác nhau ở mức độ rất thấp của các hành vi rủi ro như vậy, đồng thời tăng dần độ khó của kiểm tra, chúng ta cũng nên kiểm soát từng bước kiểm tra cẩn thận hơn để ngăn chặn mọi nguy cơ tiềm ẩn về an toàn.
• Arc (Trung tâm nghiên cứu căn chỉnh, Trung tâm nghiên cứu căn chỉnh):
Được thành lập vào năm 2021, đây là một tổ chức phi lợi nhuận tập trung vào nghiên cứu an toàn trí tuệ nhân tạo (AI Safety) và có văn phòng đặt tại Bay Area của California, Hoa Kỳ. Người sáng lập ARC là Paul Christiano, một nhân vật có uy tín trong ngành trí tuệ nhân tạo, người từng lãnh đạo nhóm nghiên cứu liên kết tại OpenAI. Bởi vì anh ấy là người tiên phong, anh ấy có hiểu biết sâu sắc về việc học sâu đã phát triển như thế nào cho đến ngày nay.
An toàn AGI: An toàn AI và An ninh mạng
**Dwarkesh Patel: Nếu lấy 30 năm làm thước đo, bạn nghĩ vấn đề nào quan trọng hơn, An toàn AI hay Sự liên kết? **
Dario Amodei: Tôi không nghĩ rằng đây sẽ là vấn đề trong 30 năm nữa và tôi lo lắng về cả hai.
Về lý thuyết, có một mô hình có thể độc chiếm thế giới? Nếu mô hình chỉ làm theo mong muốn của một nhóm nhỏ người, thì nhóm người này có thể sử dụng mô hình này để thống trị thế giới. Điều này có nghĩa là một khi có vấn đề với sự liên kết, chúng ta cũng nên chú ý đến các vấn đề bảo mật AI do lạm dụng gây ra. **
Vài tháng trước, OpenAI đã cố gắng giải thích GPT-2 bằng GPT-4, đây là một bước rất quan trọng trong khả năng giải thích. Bây giờ chúng tôi thường cảm thấy rằng quy mô và bảo mật có liên quan chặt chẽ và bổ sung cho nhau. Cách đánh giá và đánh giá các trí thông minh khác, và có lẽ một ngày nào đó thậm chí còn được sử dụng để tiến hành nghiên cứu về sự liên kết.
**Dwarkesh Patel: Quan điểm của bạn có thể tương đối lạc quan, nhưng quan điểm của ai đó có thể bi quan hơn, chúng ta thậm chí có thể không có khả năng căn chỉnh chính xác mô hình như chúng ta muốn, tại sao bạn lại tự tin về điều này? **
**Dario Amodei: **Cho dù việc giải quyết Căn chỉnh khó khăn đến đâu, bất kỳ kế hoạch thực sự thành công nào cũng cần tính đến cả vấn đề An toàn AI và Căn chỉnh. ** Khi công nghệ AI tiếp tục phát triển, nó có thể làm tăng vấn đề cân bằng quyền lực giữa các quốc gia. Đồng thời, điều này đặt ra một câu hỏi lớn: Liệu các cá nhân có khả năng thực hiện các hành vi độc hại khó tự ngăn chặn? **
Những vấn đề này phải được giải quyết đồng thời nếu chúng ta muốn tìm ra các giải pháp thực sự hiệu quả và đưa chúng ta đến một tương lai tươi sáng. ** Sẽ là không phù hợp nếu chúng ta có quan điểm rằng nếu vấn đề đầu tiên không thể giải quyết được thì chúng ta không cần phải nghĩ đến vấn đề tiếp theo. Thay vào đó, nhiệm vụ của chúng tôi là coi trọng cái sau. **Cho dù tương lai có ra sao, những vấn đề này là điều chúng ta phải nghiêm túc xem xét.
**Dwarkesh Patel: Tại sao bạn nói rằng phải mất 2-3 năm để một mô hình lớn có thể thực hiện được một cuộc tấn công khủng bố sinh học quy mô lớn hay đại loại như vậy? **
• Quốc hội Hoa Kỳ đã tổ chức một cuộc họp về quy định công nghệ AI vào ngày 25 tháng 7 năm nay.Chính phủ Hoa Kỳ đã so sánh AI với "Dự án Manhattan" thứ hai của Mỹ hay "Dự án đổ bộ lên Mặt trăng có người lái" thứ hai của NASA và mời những người tham gia bao gồm các công ty AI bao gồm OpenAI và Anthropic tham gia. Trong hội nghị, Dario Amodei cho biết ông lo ngại AI có thể được sử dụng để tạo ra các loại virus nguy hiểm và vũ khí sinh học khác trong vòng hai năm.
Dario Amodei: Điều tôi đã nói khi còn ở Quốc hội là có một số bước để lấy thông tin trên Google và có một số bước bị "mất tích", nằm rải rác trong các sách giáo khoa khác nhau và thậm chí có thể không xuất hiện trong sách giáo khoa nào. Thông tin này là kiến thức ngầm, không phải kiến thức rõ ràng. Chúng tôi nhận thấy rằng, trong hầu hết các trường hợp, những phần còn thiếu quan trọng này không được mô hình lấp đầy hoàn toàn. Nhưng chúng tôi cũng nhận thấy rằng đôi khi mô hình lấp đầy khoảng trống trong một số trường hợp. Tuy nhiên, ảo giác, đôi khi có thể xảy ra khi các mô hình có thể lấp đầy khoảng trống, cũng là một yếu tố giúp chúng ta an toàn.
Mọi người đôi khi có thể hỏi người mẫu những câu hỏi về sinh học để hướng dẫn người mẫu trả lời bằng những thông tin có hại liên quan đến tấn công sinh học, nhưng thực tế những thông tin này cũng có thể tìm thấy trên Google nên mình không đặc biệt lo lắng về tình trạng này. Trên thực tế, tôi nghĩ rằng thay vào đó, việc tập trung quá nhiều vào câu trả lời của Claude có thể khiến những tội ác thực sự khác bị bỏ qua.
Nhưng cũng có nhiều dấu hiệu cho thấy mô hình thực hiện tốt các nhiệm vụ chính. Nếu so sánh mô hình ngày nay với mô hình trước đây, chúng ta có thể cảm nhận rõ ràng khả năng của mô hình được cải thiện nhanh chóng, vì vậy chúng ta có thể phải đối mặt với những thách thức thực sự trong 2-3 năm tới.
**Dwarkesh Patel: Ngoài mối đe dọa mà AI có thể gây ra cho con người, ông có nhấn mạnh đến vấn đề an ninh mạng (Cybersecurity)? Dạo này các bạn thế nào rồi? **
Dario Amodei: Về cơ bản, chúng tôi đã thực hiện một số đổi mới về kiến trúc mà nội bộ chúng tôi gọi là hệ số nhân điện toán, bởi vì những thiết kế này cũng là những bản nâng cấp lên cấp độ điện toán. Chúng tôi đã làm việc này trong vài tháng qua, nhưng tôi không thể đi sâu vào chi tiết để tránh phá vỡ kiến trúc, và chỉ một số ít người trong Anthropic biết về nó. Tôi không thể nói "kiến trúc của chúng tôi an toàn tuyệt đối 100%", nhưng Anthropic thực sự đã và đang đầu tư vào lĩnh vực này để tránh các vấn đề về an ninh mạng. Mặc dù đối thủ của chúng tôi đã từng xảy ra sự cố như vậy (nhận xét: sự cố này liên quan đến việc rò rỉ dữ liệu cá nhân và tiêu đề trò chuyện của một số người dùng ChatGPT Plus xảy ra vào ngày 20 tháng 3 năm 2023), nhưng trước mắt, điều đó có vẻ tốt cho Anthropic, nhưng về lâu dài về lâu dài, Làm thế nào toàn bộ ngành công nghiệp an toàn của chính nó là điều quan trọng nhất.
Giám đốc bảo mật của chúng tôi phụ trách bảo mật cho Google Chrome, đây là một cuộc tấn công được nhắm mục tiêu rộng rãi. Anh ấy thích nghĩ về chi phí bao nhiêu để tấn công Anthropic thành công. Mục tiêu của chúng tôi là chi phí để người khác hack Anthropic cao hơn so với chi phí chỉ đào tạo mô hình của chính người dùng. Logic ở đây là nếu có rủi ro trong cuộc tấn công, nó chắc chắn sẽ tiêu tốn nguồn tài nguyên khan hiếm.
Tôi cho rằng tiêu chuẩn bảo mật của chúng tôi rất cao, nếu so sánh với một công ty có cùng quy mô 150 người thì việc đầu tư cho bảo mật của các công ty này hoàn toàn không thể so sánh với Anthropic nên khá khó khăn. Để đảm bảo an toàn, chỉ một số rất ít người trong Anthropic hiểu được chi tiết đào tạo của mô hình.
**Dwarkesh Patel: Các công ty công nghệ đã có đủ biện pháp phòng vệ an ninh để đối phó với AGI chưa? **
Dario Amodei: Cá nhân tôi không chắc kinh nghiệm hiện tại của các công ty công nghệ về các vấn đề bảo mật có đủ để đối phó với AGI hay không, vì có thể có nhiều cuộc tấn công mạng mà chúng tôi không biết nên rất khó rút ra kết luận bây giờ. Có một quy luật là khi một thứ nhận đủ sự chú ý, nó thường sẽ bị tấn công. ** Ví dụ, gần đây chúng ta thấy rằng tài khoản email của một số quan chức cấp cao của chính phủ Hoa Kỳ tại Microsoft đã bị tấn công, vì vậy có thể suy đoán rằng đó là hành động của một số thế lực nhằm đánh cắp bí mật nhà nước.
**Ít nhất theo ý kiến của tôi, nếu thứ gì đó có giá trị cao, thường thì nó sẽ bị đánh cắp. Mối quan tâm của tôi là AGI sẽ được coi là cực kỳ có giá trị trong tương lai, và điều đó sẽ giống như đánh cắp một tên lửa hạt nhân, và bạn phải rất cẩn thận về điều đó. **Tôi nhấn mạnh vào việc cải thiện mức độ an ninh mạng trong mọi công ty mà tôi làm việc. Mối quan tâm của tôi về an ninh mạng là (bản thân vấn đề này) không phải là thứ có thể được quảng cáo rầm rộ và ưu điểm của nghiên cứu bảo mật là nó có thể cho phép các công ty hình thành lợi thế cạnh tranh Và sử dụng điều đó như một điểm bán hàng để tuyển dụng, tôi nghĩ chúng tôi đã đạt được điều đó.
Chúng tôi đã từng cạnh tranh với các đồng nghiệp của mình thông qua nghiên cứu khả năng diễn giải, và sau đó các tổ chức khác nhận ra rằng họ đang bị tụt lại phía sau và bắt đầu nỗ lực trong các lĩnh vực này. Nhưng an ninh mạng đã phải vật lộn để làm điều tương tự vì nhiều công việc cần được thực hiện một cách lặng lẽ. Chúng tôi đã đăng một bài báo về vấn đề này trước đây, nhưng kết quả tổng thể mới là điều quan trọng.
**Dwarkesh Patel: Anthropic sẽ làm gì về mặt bảo mật trong 2-3 năm tới? **
**Dario Amodei: Tính bảo mật của trung tâm dữ liệu rất quan trọng. Mặc dù trung tâm dữ liệu không nhất thiết phải ở cùng một nơi với công ty nhưng chúng tôi cố gắng hết sức để đảm bảo rằng trung tâm dữ liệu cũng ở Hoa Kỳ. **
Ngoài ra, cần đặc biệt chú ý đến bảo mật vật lý của trung tâm dữ liệu và bảo vệ các thiết bị điện toán như GPU. Nếu ai đó quyết định thực hiện một số loại tấn công mạng sử dụng nhiều tài nguyên, anh ta chỉ cần đến thẳng trung tâm dữ liệu để lấy cắp dữ liệu hoặc trích xuất dữ liệu trong khi dữ liệu đang được chuyển từ trung tâm đến chúng tôi. Những công trình này sẽ khác rất nhiều so với các khái niệm truyền thống về cả hình thức và chức năng. **Với sự phát triển nhanh chóng của công nghệ hiện nay, trong vòng vài năm nữa, quy mô và chi phí của các trung tâm dữ liệu mạng có thể tương đương với của các hàng không mẫu hạm. Ngoài việc có thể đào tạo các mô hình khổng lồ trên các kết nối miền, tính bảo mật của chính trung tâm dữ liệu cũng sẽ là một vấn đề quan trọng. **
**Dwarkesh Patel: Gần đây có tin đồn rằng nguồn điện, GPU và các thành phần khác cần thiết để đáp ứng các mẫu máy thế hệ tiếp theo đã bắt đầu khan hiếm. **
*Dario Amodei: Thị trường không mong đợi mô hình lớn đạt đến quy mô chưa từng có nhanh như vậy, nhưng người ta thường tin rằng các trung tâm dữ liệu cấp công nghiệp cần được xây dựng để hỗ trợ nghiên cứu và phát triển các mô hình lớn *. Khi một dự án đến giai đoạn này, mọi thành phần và chi tiết trong đó phải được xử lý khác nhau và có thể gặp sự cố do một số yếu tố đơn giản đến bất ngờ, điện mà bạn đề cập là một ví dụ.
Đối với trung tâm dữ liệu, chúng tôi sẽ hợp tác với các nhà cung cấp dịch vụ đám mây.
Thương mại hóa và Niềm tin Lợi ích Dài hạn
**Dwarkesh Patel: Bạn đã đề cập trước đó rằng các khả năng của mô hình đang được cải thiện nhanh chóng nhưng cũng rất khó để cung cấp giá trị trong hệ thống kinh tế hiện tại. Bạn có nghĩ rằng các sản phẩm AI hiện tại có đủ thời gian để đạt được thu nhập ổn định lâu dài trên thị trường không? Hoặc nó có thể được thay thế bằng một mô hình tiên tiến hơn bất cứ lúc nào? Hay toàn bộ bối cảnh ngành sẽ hoàn toàn khác vào lúc đó? **
Dario Amodei: Nó phụ thuộc vào định nghĩa của khái niệm "quy mô lớn". Hiện nay, một số công ty có doanh thu hàng năm từ 100 triệu đến 1 tỷ đô la Mỹ, nhưng liệu họ có thể đạt hàng chục tỷ, thậm chí hàng nghìn tỷ mỗi năm hay không thì thực sự khó đoán, bởi nó còn phụ thuộc vào nhiều yếu tố chưa xác định. ** Hiện một số công ty đang áp dụng công nghệ AI sáng tạo trên quy mô lớn, nhưng điều này không có nghĩa là ứng dụng đã đạt được kết quả tốt nhất ngay từ đầu, cho dù có thu nhập cũng không hoàn toàn bằng việc tạo ra giá trị kinh tế, và sự phát triển đồng bộ của toàn bộ chuỗi ngành là một quá trình lâu dài. **
** Dwarkesh Patel: Theo quan điểm của Anthropic, nếu công nghệ mô hình ngôn ngữ phát triển nhanh như vậy, thì về mặt lý thuyết, giá trị của công ty sẽ tăng rất nhanh? **
Dario Amodei: Ngay cả khi chúng tôi tập trung vào nghiên cứu bảo mật mô hình thay vì thương mại hóa trực tiếp, chúng tôi có thể cảm nhận rõ ràng rằng trình độ kỹ thuật đang tăng theo cấp số nhân trong thực tế. Đối với những công ty coi thương mại hóa là mục tiêu hàng đầu, tiến độ này chắc chắn nhanh hơn và rõ rệt hơn so với chúng tôi. **Chúng ta thừa nhận rằng bản thân công nghệ mô hình ngôn ngữ đang phát triển nhanh chóng, nhưng so với quá trình ứng dụng chiều sâu của toàn bộ hệ thống kinh tế, tích lũy công nghệ vẫn còn ở xuất phát điểm khá thấp. **
**Việc xác định hướng đi trong tương lai là cuộc chạy đua giữa hai bên: tốc độ mà công nghệ tự cải thiện và tốc độ mà công nghệ được tích hợp và ứng dụng một cách hiệu quả và đi vào hệ thống kinh tế thực. Cả hai đều có khả năng phát triển với tốc độ cao, nhưng thứ tự kết hợp và những khác biệt nhỏ có thể dẫn đến những kết quả rất khác nhau. **
**Dwarkesh Patel: Những gã khổng lồ công nghệ có thể đầu tư tới 10 tỷ USD vào đào tạo người mẫu trong 2-3 năm tới. Điều này sẽ có tác động gì đối với Anthropic? **
** Dario Amodei: Trường hợp đầu tiên là nếu chúng tôi không thể duy trì vị trí tiên tiến nhất của mình vì chi phí, thì chúng tôi sẽ không tiếp tục khăng khăng phát triển thứ tiên tiến nhất. **Thay vào đó, chúng tôi xem xét cách trích xuất giá trị từ các thế hệ mô hình trước đó.
**Lựa chọn thứ hai là chấp nhận đánh đổi. **Tôi nghĩ rằng những sự đánh đổi này có thể tích cực hơn so với vẻ ngoài của chúng,
**Tình huống thứ ba là khi đào tạo người mẫu đạt đến cấp độ này, nó có thể bắt đầu mang đến những mối nguy hiểm mới, chẳng hạn như lạm dụng AI. **
**Dwarkesh Patel: Sẽ như thế nào nếu AI không bị lạm dụng và thay vào đó là "những người phù hợp" điều hành những mô hình siêu phàm này? Ai là "người phù hợp"? Ai sẽ thực sự kiểm soát mô hình này trong 5 năm tới? **
Dario Amodei: Tôi nghĩ rằng các mô hình AI này cực kỳ mạnh mẽ và việc quản lý chúng sẽ có sự tham gia của một số cấp chính phủ hoặc cơ quan đa quốc gia, nhưng điều đó sẽ đơn giản và có thể kém hiệu quả hơn. **Việc quản lý AI trong tương lai cần thiết lập một cơ chế minh bạch, công bằng và có thể thực thi được. Điều này đòi hỏi phải cân bằng lợi ích của các nhà phát triển công nghệ, chính phủ được bầu và từng công dân. Vào cuối ngày, pháp luật phải được thông qua để quản lý công nghệ này. **
**Dwarkesh Patel: Nếu Anthropic phát triển AGI theo đúng nghĩa và quyền kiểm soát AGI sẽ được giao cho LTBT, điều đó có nghĩa là quyền kiểm soát bản thân AGI cũng sẽ được giao cho cơ quan này? **
Dario Amodei: Điều này không có nghĩa là Anthropic hay bất kỳ thực thể nào khác sẽ thay mặt con người đưa ra quyết định về AGI, hai bên là khác nhau. Nếu Anthropic đóng một vai trò rất quan trọng, thì cách tiếp cận tốt hơn là mở rộng thành phần của The Long Term Benefit Trust (LTBT), thu hút nhiều tài năng hơn từ khắp nơi trên thế giới hoặc định vị tổ chức như một cơ quan chức năng, được quản lý bởi một cơ quan rộng lớn hơn. ủy ban đa quốc gia quản lý tất cả các công nghệ AGI của các công ty để đại diện cho lợi ích công cộng. **Tôi không cho rằng chúng ta nên quá lạc quan về vấn đề An toàn và liên kết AI, đây là một vấn đề mới và chúng ta cần bắt đầu nghiên cứu càng sớm càng tốt về thể chế quản lý quốc gia và mô hình vận hành. **
*• Ủy thác Lợi ích Dài hạn:
Những quỹ tín thác như vậy sẽ nắm giữ một loại cổ phiếu Anthropic đặc biệt (được gọi là "Loại T") không thể bán và không trả cổ tức, nghĩa là không có con đường thu lợi nhuận rõ ràng. Sự tin tưởng sẽ là thực thể duy nhất nắm giữ cổ phần Loại T. Tuy nhiên, các cổ đông Loại T, và kết quả là quỹ tín thác lãi suất dài hạn, cuối cùng sẽ có quyền bầu và bãi nhiệm ba trong số năm giám đốc của Anthropic, trao cho quỹ tín thác quyền kiểm soát đa số dài hạn đối với công ty.
**Dwarkesh Patel: Làm thế nào để thuyết phục nhà đầu tư chấp nhận một cấu trúc như LTBT? Ưu tiên bảo mật công nghệ và lợi ích chung hơn là tối đa hóa giá trị cổ đông. **
Dario Amodei: Tôi nghĩ việc thiết lập cơ chế LTBT (Tin tưởng Lợi ích Dài hạn) là đúng đắn.
Một cơ chế tương tự đã được hình dung ngay từ đầu của Anthropic, và một cơ quan quản lý đặc biệt đã tồn tại ngay từ đầu và sẽ tiếp tục tồn tại trong tương lai. Mọi nhà đầu tư truyền thống sẽ tập trung vào cơ chế này khi xem xét đầu tư vào Anthropic, một số nhà đầu tư có thái độ không hỏi về các sắp xếp nội bộ của công ty, trong khi những người khác lo lắng rằng tổ chức bên thứ ba này có thể đẩy công ty đi ngược lại sự phát triển trong hướng đến lợi ích của cổ đông. Mặc dù có những giới hạn đối với điều này trong luật, nhưng chúng tôi cần thông báo điều này với mọi nhà đầu tư. Tiến thêm một bước nữa, chúng tôi thảo luận về một số biện pháp khả thi khác với lợi ích của các nhà đầu tư truyền thống và thông qua các cuộc đối thoại như vậy, tất cả các bên có thể đạt được sự đồng thuận.
** Dwarkesh Patel: Tôi thấy rằng những người sáng lập và nhân viên của Anthropic có một số lượng lớn các nhà vật lý và quy luật Tỷ lệ cũng được áp dụng ở đây. Những phương pháp thực tế và cách suy nghĩ từ vật lý áp dụng cho AI? **
*• Lý thuyết hiệu quả:
Một lý thuyết hiệu quả là một lý thuyết khoa học cố gắng mô tả một số hiện tượng mà không giải thích cơ chế giải thích các hiện tượng trong lý thuyết của nó đến từ đâu. Điều này có nghĩa là lý thuyết đưa ra một mô hình "hoạt động", nhưng không thực sự đưa ra lý do thực sự chính đáng để đưa ra mô hình đó.
Dario Amodei: Một phần là do các nhà vật lý là những người học rất giỏi, bởi vì tôi thấy rằng nếu bạn thuê một người có bằng Tiến sĩ Đóng góp, và một số người sáng lập Anthropic, bao gồm cả tôi, Jared Kaplan và Sam McCandlish, có kiến thức cơ bản về vật lý và chúng tôi biết rất nhiều nhà vật lý khác, vì vậy chúng tôi có thể thuê họ. Hiện tại công ty có thể có 30 đến 40 nhân viên có kiến thức về vật lý, ML chưa phải là lĩnh vực hình thành hệ thống lý thuyết nên họ có thể bắt đầu nhanh chóng.
**Dwarkesh Patel: Giả sử là năm 2030, và chúng ta đã đạt được những vấn đề chính đã được công nhận là loại bỏ bệnh tật, loại bỏ gian lận, v.v., thế giới sẽ như thế nào? Chúng ta nên làm gì với siêu trí tuệ? **
Dario Amodei: Bản thân việc đề xuất trực tiếp "cách sử dụng siêu AI sau khi có được nó" có xu hướng khiến mọi người có một giả định nhất định, điều này thật đáng lo ngại. Trong 150 năm qua, chúng ta đã tích lũy kinh nghiệm phong phú dựa trên thực tiễn của nền kinh tế thị trường và hệ thống dân chủ, thừa nhận rằng mọi người đều có thể tự xác định đâu là cách tốt nhất để trải nghiệm, và rằng xã hội được hình thành một cách phức tạp và phi tập trung. và các giá trị. **
Khi vấn đề An toàn AI chưa được giải quyết, cần có sự giám sát tập trung ở một mức độ nhất định, nhưng nếu mọi trở ngại đã được loại bỏ, làm thế nào chúng ta có thể tạo ra một hệ sinh thái tốt hơn? **Tôi nghĩ rằng câu hỏi mà hầu hết mọi người, các nhóm và các hệ tư tưởng bắt đầu nghĩ đến là "định nghĩa của một cuộc sống tốt đẹp là gì", nhưng lịch sử cho chúng ta biết rằng nhiều lần việc áp đặt một "cuộc sống lý tưởng" thường dẫn đến những hậu quả xấu . **
**Dwarkesh Patel: So với các CEO của các công ty AI khác, ông không xuất hiện nhiều trước công chúng và hiếm khi đăng bài trên Twitter. **
Dario Amodei: Tôi rất tự hào về điều đó. ** Nếu người khác nghĩ tôi quá khiêm tốn, thì đó chính là điều tôi muốn. Việc kết hợp sự công nhận hoặc khen ngợi vào hệ thống động lực cốt lõi của một người có thể phá hủy khả năng suy nghĩ của một người, và trong một số trường hợp, thậm chí có thể "tổn thương tâm hồn", vì vậy tôi chủ động chọn cách giữ kín để bảo vệ khả năng suy nghĩ độc lập và khách quan của mình. **
**Tôi đã thấy mọi người trở nên nổi tiếng trên Twitter vì một quan điểm nào đó, nhưng trên thực tế họ có thể mang theo hành lý hình ảnh từ đó và rất khó để thay đổi. Tôi không thích các công ty quá riêng tư, và tôi không phải là người thích chơi trò chơi một cái gì đó mang tính cá nhân về CEO vì nó làm sao nhãng các điểm mạnh và vấn đề của công ty. ** Tôi hy vọng mọi người chú ý nhiều hơn đến bản thân công ty và cơ cấu khuyến khích. Mọi người đều thích một khuôn mặt thân thiện, nhưng tử tế không có nhiều ý nghĩa.
Thẩm quyền giải quyết:
Video gốc:
Nghiên cứu của Anthropic về khả năng giải thích cơ chế: