DeepSeek thử nghiệm chế độ "nhận diện hình ảnh", khả năng đa phương thức chính thức mở cửa|độc quyền

robot
Đang tạo bản tóm tắt

Thông tin từ Mars Finance ngày 29 tháng 4, một số người dùng phản hồi rằng phiên bản web của DeepSeek đã ra mắt “Chế độ nhận diện hình ảnh”. Khi thử nghiệm, phát hiện chế độ này hỗ trợ người dùng tải lên hình ảnh và thực hiện hiểu và phân tích nội dung. Hiện tại, chức năng này vẫn chưa được triển khai toàn diện, giới hạn chức năng cụ thể vẫn chưa rõ ràng. Đáng chú ý là, ngay trong ngày hôm nay, nhà nghiên cứu phụ trách phát triển đa mô thức của DeepSeek là Trần Tiểu Kháng đã đăng bài trên nền tảng X với nội dung “Now, we see you” kèm hình ảnh, trong đó biểu tượng “Cá voi” đặc trưng của DeepSeek đã tháo bỏ mắt kính. Vào đầu tháng này, DeepSeek mới ra mắt “Chế độ nhanh” và “Chế độ chuyên gia”, trong đó chế độ trước phù hợp cho đối thoại hàng ngày, phản hồi tức thì; chế độ sau phù hợp cho các vấn đề phức tạp, cần chờ đợi vào giờ cao điểm. Lúc đó đã có ảnh chụp màn hình lan truyền cho thấy, ngoài “Chế độ nhanh” và “Chế độ chuyên gia”, DeepSeek còn có một chế độ gọi là “vision”. Chế độ “nhận diện hình ảnh” mới nhất rất phù hợp với cửa vào “vision” đã truyền thông trước đó. Phân tích cho rằng, việc mở rộng khả năng đa mô thức của DeepSeek đồng nghĩa với việc hệ sản phẩm của nó từ đối thoại thuần văn bản chính thức mở rộng sang tương tác hình ảnh và văn bản, hướng tới các mô hình đa mô thức chính thống như GPT-4o, Gemini. (Quan sát toàn cảnh)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim