Từ ngày 21 đến 23/2, Thượng Hải sẽ đăng cai tổ chức Hội nghị các nhà phát triển toàn cầu (GDC) năm 2025. Theo Ủy ban Kinh tế và Công nghệ thông tin thành phố Thượng Hải, 100 cộng đồng nhà phát triển trong và ngoài nước, bao gồm Hugging Face, Microsoft Developer Community, CSDN, Ali Magic Community, Linux Foundation, ARPA Foundation và Huawei Community, sẽ tham gia vào GDC này. Tập trung vào các công nghệ cốt lõi như mô hình lớn, Khả năng tính toán, kho dữ liệu, công cụ và nền tảng phần mềm, các nhóm nhà phát triển tham gia liên quan đến phát triển phần cứng, điện toán đám mây, dữ liệu lớn, internet vạn vật, AI, robot, blockchain và Metaverse.
Công ty Công nghệ Công nghệ Kupaxi Thượng Hải là một trong những công ty tham gia hội nghị lần này. Kupaxi là một doanh nghiệp nền tảng dữ liệu ngôn ngữ trí tuệ nhân tạo được thiết lập theo yêu cầu của Ủy ban Thành phố Thượng Hải, Chính phủ Thành phố. Công ty định vị mình là một nền tảng dịch vụ ngôn ngữ chức năng chuyên nghiệp, cam kết cung cấp dịch vụ dữ liệu ngôn ngữ chi phí thấp, chất lượng cao dành cho mô hình cơ bản, mô hình theo ngành và các doanh nhân sáng tạo và khởi nghiệp nhỏ vừa.
"Toàn bộ nhóm của chúng tôi đã không nghỉ ngơi từ mùng 4 Tết, tất cả đều đang nghiên cứu và theo dõi sự đổi mới của DeepSeek." CEO của Kupathis Huang Haiqing nói với Interfax, sự ra đời đột ngột của DeepSeek khiến cả ngành công nghiệp trí tuệ nhân tạo vừa hồi hộp vừa lo lắng. Điểm lo lắng chính là, tại sao các mô hình lớn hiện có đã bỏ ra nhiều vốn mà vẫn chưa đạt được hiệu quả như DeepSeek."
Anh cho rằng, thành công cốt lõi của DeepSeek không chỉ nằm ở sự đổi mới của thuật toán gốc, mà còn ở việc sử dụng bộ dữ liệu ngôn ngữ chất lượng cao, điều này có thể giúp tiết kiệm Khả năng tính toán và dữ liệu một cách đáng kể, đồng thời cung cấp cơ hội 'vượt mặt' cho ngành công nghiệp mô hình lớn của Trung Quốc. Hoàng Hải Thanh cho biết, dựa trên tình hình phát triển hiện tại của các mô hình lớn, bộ dữ liệu ngôn ngữ chất lượng cao sẽ xác định giới hạn năng lực của các mô hình lớn, cung cấp nguồn cung cấp dữ liệu ngôn ngữ chất lượng cao có thể giảm chi phí đào tạo của các công ty mô hình lớn một cách đáng kể.
Anh ấy giới thiệu, Kupas đã triển khai toàn diện việc xây dựng ngữ liệu ngành về thông minh vật lý, tài chính, sản xuất, giáo dục, y tế, giải trí, quản lý đô thị, v.v. Nền tảng hoạt động ngữ liệu 1.0 đã được triển khai, đang nhanh chóng triển khai việc xây dựng nền tảng 2.0 từ thế giới thực đến mô phỏng đồng thời tạo dữ liệu. Hiện tại, doanh nghiệp đã kết nối hơn 50 đối tác sinh học ngữ liệu thông qua việc cung cấp bộ dữ liệu chất lượng cao để giảm chi phí của mô hình lớn.
Scaling Law vẫn đang phát huy tác dụng, nhưng tốc độ đã chậm lại, Huang Haiqing phán đoán. Anh ấy cho rằng trong tương lai, bên cạnh các mô hình ngôn ngữ lớn, việc áp dụng mô hình đa chế độ sẽ bắt đầu bùng nổ, trong khi mô hình kinh doanh ToB (doanh nghiệp) và ToG (chính phủ) sẽ trở thành hướng phát triển chính của các công ty mô hình lớn, hiện nay nhiều công ty mô hình lớn cơ bản đều đang chuyển sang các lĩnh vực ngành, trong tương lai chỉ có ít hơn mười công ty mô hình lớn cơ bản nào có thể tồn tại trên thị trường Trung Quốc.
Trong các ngành cụ thể, anh ấy cho rằng, hiện nay, ngành tài chính, giáo dục, y tế, công nghiệp đã ưu tiên sử dụng mô hình lớn. Trong các lĩnh vực chính, như lái xe tự động, trí tuệ cơ thể, trí tuệ khoa học cũng đều đang tích cực áp dụng mô hình lớn. Theo thời gian, trong tương lai, ngành giao thông, bán lẻ và các ngành khác cũng sẽ sử dụng mô hình lớn. Tương ứng, cũng có nhu cầu lớn hơn và chất lượng cao hơn đối với dữ liệu ngành cụ thể. Đối với mô hình suy luận, cũng cần xây dựng quy trình suy luận trên dữ liệu ban đầu, điều này cũng đặt ra yêu cầu mới cho việc sản xuất dữ liệu ngành cụ thể.
Trong việc thu thập và sản xuất dữ liệu ngôn ngữ, Huang Haiqing cũng đề xuất cần cập nhật theo thời gian trong lĩnh vực luật bản quyền, đưa ra một số cập nhật về phạm vi xác định hợp lý của dữ liệu ngôn ngữ cho trí tuệ nhân tạo và huấn luyện mô hình lớn.
"Điều này không phải là thay đổi quá khứ, chỉ là bổ sung và cập nhật, tôi nghĩ rằng đây là một con đường khá phù hợp và có thể thực hiện được." Huang Haiqing nói, "Trong lĩnh vực trí tuệ nhân tạo, mô hình lớn, dữ liệu ngôn ngữ, luật bản quyền trước đây chỉ dành cho con người, khi mà mô hình lớn đang huấn luyện dữ liệu ngôn ngữ, nếu áp dụng tiêu chuẩn quá khứ để đánh giá tiêu chuẩn học máy, có thể không phải là phù hợp. Hơn nữa, vấn đề này đã ảnh hưởng đến chi phí mua dữ liệu ngôn ngữ của các công ty mô hình lớn và rủi ro pháp lý."
Ông đề xuất rằng cần tăng cường việc xác định quy tắc hợp lý về việc sử dụng dữ liệu văn bản lớn, thúc đẩy việc áp dụng "khai phá văn bản và dữ liệu" trong lĩnh vực huấn luyện trước; thúc đẩy việc sử dụng dữ liệu hợp lý cho học máy trong nước, cân bằng giữa quyền của chủ sở hữu bản quyền và nhu cầu phát triển công nghệ, giải quyết vấn đề khó khăn về việc cấp phép; Chính phủ cần ban hành chính sách khuyến khích, hỗ trợ các doanh nghiệp dữ liệu văn bản tăng cường nghiên cứu và phát triển nền tảng chuỗi công cụ tự động hóa, giảm chi phí dữ liệu văn bản; Xây dựng nền tảng chuỗi công cụ tự động hóa làm sạch và gán nhãn AI, giảm chi phí dữ liệu văn bản; Tăng cường nghiên cứu pháp lý về phạm vi bảo vệ của các sản phẩm do trí tuệ nhân tạo tạo ra,制定规则明确的人工智能生成物的权属与责任。
Huang Haiqing also stated that in the future, AI will dominate the annotation and cleaning of data, and data annotation will transition from labor-intensive industries to knowledge-based and technological ones.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Khả năng tính toán, bộ dữ liệu kho dữ liệu chất lượng cao có thể xác định giới hạn trên của khả năng của các mô hình lớn
Từ ngày 21 đến 23/2, Thượng Hải sẽ đăng cai tổ chức Hội nghị các nhà phát triển toàn cầu (GDC) năm 2025. Theo Ủy ban Kinh tế và Công nghệ thông tin thành phố Thượng Hải, 100 cộng đồng nhà phát triển trong và ngoài nước, bao gồm Hugging Face, Microsoft Developer Community, CSDN, Ali Magic Community, Linux Foundation, ARPA Foundation và Huawei Community, sẽ tham gia vào GDC này. Tập trung vào các công nghệ cốt lõi như mô hình lớn, Khả năng tính toán, kho dữ liệu, công cụ và nền tảng phần mềm, các nhóm nhà phát triển tham gia liên quan đến phát triển phần cứng, điện toán đám mây, dữ liệu lớn, internet vạn vật, AI, robot, blockchain và Metaverse.
Công ty Công nghệ Công nghệ Kupaxi Thượng Hải là một trong những công ty tham gia hội nghị lần này. Kupaxi là một doanh nghiệp nền tảng dữ liệu ngôn ngữ trí tuệ nhân tạo được thiết lập theo yêu cầu của Ủy ban Thành phố Thượng Hải, Chính phủ Thành phố. Công ty định vị mình là một nền tảng dịch vụ ngôn ngữ chức năng chuyên nghiệp, cam kết cung cấp dịch vụ dữ liệu ngôn ngữ chi phí thấp, chất lượng cao dành cho mô hình cơ bản, mô hình theo ngành và các doanh nhân sáng tạo và khởi nghiệp nhỏ vừa.
"Toàn bộ nhóm của chúng tôi đã không nghỉ ngơi từ mùng 4 Tết, tất cả đều đang nghiên cứu và theo dõi sự đổi mới của DeepSeek." CEO của Kupathis Huang Haiqing nói với Interfax, sự ra đời đột ngột của DeepSeek khiến cả ngành công nghiệp trí tuệ nhân tạo vừa hồi hộp vừa lo lắng. Điểm lo lắng chính là, tại sao các mô hình lớn hiện có đã bỏ ra nhiều vốn mà vẫn chưa đạt được hiệu quả như DeepSeek."
Anh cho rằng, thành công cốt lõi của DeepSeek không chỉ nằm ở sự đổi mới của thuật toán gốc, mà còn ở việc sử dụng bộ dữ liệu ngôn ngữ chất lượng cao, điều này có thể giúp tiết kiệm Khả năng tính toán và dữ liệu một cách đáng kể, đồng thời cung cấp cơ hội 'vượt mặt' cho ngành công nghiệp mô hình lớn của Trung Quốc. Hoàng Hải Thanh cho biết, dựa trên tình hình phát triển hiện tại của các mô hình lớn, bộ dữ liệu ngôn ngữ chất lượng cao sẽ xác định giới hạn năng lực của các mô hình lớn, cung cấp nguồn cung cấp dữ liệu ngôn ngữ chất lượng cao có thể giảm chi phí đào tạo của các công ty mô hình lớn một cách đáng kể.
Anh ấy giới thiệu, Kupas đã triển khai toàn diện việc xây dựng ngữ liệu ngành về thông minh vật lý, tài chính, sản xuất, giáo dục, y tế, giải trí, quản lý đô thị, v.v. Nền tảng hoạt động ngữ liệu 1.0 đã được triển khai, đang nhanh chóng triển khai việc xây dựng nền tảng 2.0 từ thế giới thực đến mô phỏng đồng thời tạo dữ liệu. Hiện tại, doanh nghiệp đã kết nối hơn 50 đối tác sinh học ngữ liệu thông qua việc cung cấp bộ dữ liệu chất lượng cao để giảm chi phí của mô hình lớn.
Scaling Law vẫn đang phát huy tác dụng, nhưng tốc độ đã chậm lại, Huang Haiqing phán đoán. Anh ấy cho rằng trong tương lai, bên cạnh các mô hình ngôn ngữ lớn, việc áp dụng mô hình đa chế độ sẽ bắt đầu bùng nổ, trong khi mô hình kinh doanh ToB (doanh nghiệp) và ToG (chính phủ) sẽ trở thành hướng phát triển chính của các công ty mô hình lớn, hiện nay nhiều công ty mô hình lớn cơ bản đều đang chuyển sang các lĩnh vực ngành, trong tương lai chỉ có ít hơn mười công ty mô hình lớn cơ bản nào có thể tồn tại trên thị trường Trung Quốc.
Trong các ngành cụ thể, anh ấy cho rằng, hiện nay, ngành tài chính, giáo dục, y tế, công nghiệp đã ưu tiên sử dụng mô hình lớn. Trong các lĩnh vực chính, như lái xe tự động, trí tuệ cơ thể, trí tuệ khoa học cũng đều đang tích cực áp dụng mô hình lớn. Theo thời gian, trong tương lai, ngành giao thông, bán lẻ và các ngành khác cũng sẽ sử dụng mô hình lớn. Tương ứng, cũng có nhu cầu lớn hơn và chất lượng cao hơn đối với dữ liệu ngành cụ thể. Đối với mô hình suy luận, cũng cần xây dựng quy trình suy luận trên dữ liệu ban đầu, điều này cũng đặt ra yêu cầu mới cho việc sản xuất dữ liệu ngành cụ thể.
Trong việc thu thập và sản xuất dữ liệu ngôn ngữ, Huang Haiqing cũng đề xuất cần cập nhật theo thời gian trong lĩnh vực luật bản quyền, đưa ra một số cập nhật về phạm vi xác định hợp lý của dữ liệu ngôn ngữ cho trí tuệ nhân tạo và huấn luyện mô hình lớn.
"Điều này không phải là thay đổi quá khứ, chỉ là bổ sung và cập nhật, tôi nghĩ rằng đây là một con đường khá phù hợp và có thể thực hiện được." Huang Haiqing nói, "Trong lĩnh vực trí tuệ nhân tạo, mô hình lớn, dữ liệu ngôn ngữ, luật bản quyền trước đây chỉ dành cho con người, khi mà mô hình lớn đang huấn luyện dữ liệu ngôn ngữ, nếu áp dụng tiêu chuẩn quá khứ để đánh giá tiêu chuẩn học máy, có thể không phải là phù hợp. Hơn nữa, vấn đề này đã ảnh hưởng đến chi phí mua dữ liệu ngôn ngữ của các công ty mô hình lớn và rủi ro pháp lý."
Ông đề xuất rằng cần tăng cường việc xác định quy tắc hợp lý về việc sử dụng dữ liệu văn bản lớn, thúc đẩy việc áp dụng "khai phá văn bản và dữ liệu" trong lĩnh vực huấn luyện trước; thúc đẩy việc sử dụng dữ liệu hợp lý cho học máy trong nước, cân bằng giữa quyền của chủ sở hữu bản quyền và nhu cầu phát triển công nghệ, giải quyết vấn đề khó khăn về việc cấp phép; Chính phủ cần ban hành chính sách khuyến khích, hỗ trợ các doanh nghiệp dữ liệu văn bản tăng cường nghiên cứu và phát triển nền tảng chuỗi công cụ tự động hóa, giảm chi phí dữ liệu văn bản; Xây dựng nền tảng chuỗi công cụ tự động hóa làm sạch và gán nhãn AI, giảm chi phí dữ liệu văn bản; Tăng cường nghiên cứu pháp lý về phạm vi bảo vệ của các sản phẩm do trí tuệ nhân tạo tạo ra,制定规则明确的人工智能生成物的权属与责任。
Huang Haiqing also stated that in the future, AI will dominate the annotation and cleaning of data, and data annotation will transition from labor-intensive industries to knowledge-based and technological ones.
(Nguồn bài viết: Jiemian News)
Nguồn: Đông Phương Tài Chính Mạng
Tác giả: Tin tức giao diện