อ้างอิงจากการติดตามของ 1M AI News ผู้ร่วมก่อตั้ง OpenAI อย่าง Andrej Karpathy ได้แชร์การค้นพบล่าสุดของเขาบน X: การใช้ LLM เพื่อสร้างคลังความรู้ส่วนบุคคล มีคุณค่ามากกว่าการให้มันเขียนโค้ด โดยปัจจุบันการใช้ token ส่วนใหญ่ของเขาได้เปลี่ยนจากการเขียน/จัดการโค้ด ไปสู่การจัดการความรู้
เวิร์กโฟลว์แบบครบวงจรมี 5 ขั้นตอน:
- การนำเข้าและจัดทำดัชนีข้อมูล: ทำการจัดทำดัชนีเอกสารต้นทาง เช่น บทความ เอกสารวิจัย โค้ดในคลังเก็บ (repository) ชุดข้อมูล รูปภาพ ฯลฯ ไว้ในโฟลเดอร์ raw/ จากนั้นใช้ LLM เพื่อทำ “การคอมไพล์” แบบเพิ่มทีละน้อยเป็น markdown wiki ที่มีสรุป ลิงก์ย้อนกลับ การจัดหมวดหมู่ของแนวคิด และการเชื่อมโยงระหว่างบทความ
- อินเทอร์เฟซการท่องดู: ใช้ Obsidian เป็นส่วนหน้าสำหรับดูข้อมูลดิบ วิคิที่ถูกคอมไพล์ และการแสดงผลเชิงภาพที่ต่อยอด เนื้อหาในวิคิได้รับการดูแลโดย LLM ทั้งหมด และคนแทบไม่ต้องแก้ไขโดยตรง
- คำถามและการค้นหา: เมื่อวิคิสะสมจนถึงขนาดหนึ่ง (ทิศทางการวิจัยของเขามีบทความประมาณ 100 บท และประมาณ 400,000 คำอยู่แล้ว) ก็สามารถถาม LLM คำถามที่ซับซ้อนได้ และ LLM จะค้นหาเนื้อหาในวิคิเองเพื่อให้คำตอบ เขาคิดว่าอาจต้องใช้ RAG แต่ไฟล์ดัชนีและสรุปที่ LLM ดูแลอัตโนมัติแล้วในระดับขนาดนี้ก็เพียงพอ
- การไหลกลับของผลลัพธ์: ผลลัพธ์จากคำถามถูกสร้างให้อยู่ในรูปแบบ markdown, สไลด์ Marp หรือกราฟของ matplotlib จากนั้นเมื่อดูใน Obsidian ก็จะเก็บเข้าที่กลับไปในวิคิ เพื่อให้การสำรวจของตัวเองดำเนินต่อและสะสมเป็นข้อมูล
- การตรวจสอบคุณภาพ: ใช้ LLM ตรวจ “สุขภาพ” ของวิคิเป็นระยะ ๆ เพื่อตรวจพบความไม่สอดคล้องกันของข้อมูล เติมเต็มข้อมูลที่ขาดหาย และขุดค้นความเชื่อมโยงข้ามแนวคิด เพื่อยกระดับความสมบูรณ์ของข้อมูลแบบเพิ่มทีละน้อย
Karpathy กล่าวว่าเขายังพัฒนาเครื่องมือเพิ่มเติมอีกบางอย่าง เช่น เครื่องมือค้นหาแบบง่ายสำหรับวิคิ ซึ่งทั้งสามารถใช้ได้ด้วยตัวเองผ่านหน้าเว็บ และสามารถมอบให้เป็นเครื่องมือบรรทัดคำสั่งเพื่อให้ LLM ประมวลผลคำถามที่ใหญ่ขึ้น เขามองว่าชุดเวิร์กโฟลว์นี้ในตอนนี้ยังเป็นเพียง “การเอาสคริปต์หลาย ๆ ตัวมาต่อเข้าด้วยกัน” แต่เบื้องหลังมีโอกาสของ “ผลิตภัณฑ์ใหม่ที่น่าทึ่ง” ซ่อนอยู่ ความคิดที่ไกลออกไปคือ: ทุกครั้งที่มีการตั้งคำถามให้กับโมเดลแนวหน้าก็สามารถให้ LLM ชุดหนึ่งสร้างวิคิชั่วคราวโดยอัตโนมัติ ทำการตรวจสอบคุณภาพ ทำซ้ำหลายรอบ แล้วสุดท้ายออกรายงานฉบับสมบูรณ์ “ไกลเกินกว่าการ .decode() ครั้งหนึ่ง”