Làm cho GenAI hiệu quả hơn với một loại chip mới

Trang chủ » Làm cho GenAI hiệu quả hơn với một loại chip mới

Làm cho GenAI hiệu quả hơn với một loại chip mới

Bước đột phá của EnCharge AI trong việc kết hợp điện toán tương tự và kỹ thuật số có thể cải thiện đáng kể mức tiêu thụ năng lượng của AI tạo ra khi thực hiện các dự đoán.

Năm 2024 dự kiến sẽ là năm mà trí tuệ nhân tạo GenAI đi vào sản xuất, khi các doanh nghiệp và thiết bị điện tử tiêu dùng bắt đầu thực sự sử dụng công nghệ này để đưa ra dự đoán với khối lượng lớn – một quá trình được gọi là suy luận.

Để điều đó xảy ra, những sáng tạo rất lớn, phức tạp của OpenAI và Meta, chẳng hạn như ChatGPT và Llama, bằng cách nào đó phải có khả năng chạy trong các thiết bị hạn chế năng lượng tiêu thụ ít năng lượng hơn nhiều so với nhiều kilowatt được sử dụng trong các trung tâm dữ liệu đám mây.

Thách thức suy luận đó đang truyền cảm hứng cho những đột phá nghiên cứu cơ bản hướng tới các thiết bị điện tử hiệu quả hơn đáng kể.

Công ty khởi nghiệp bán dẫn EnCharge AI thông báo rằng quan hệ đối tác của họ với Đại học Princeton đã nhận được khoản tài trợ 18,6 triệu đô la từ Cơ quan Dự án Nghiên cứu Tiên tiến Quốc phòng của Hoa Kỳ, DARPA, để thúc đẩy các loại mạch năng lượng thấp mới có thể được sử dụng trong suy luận.

EnCharge AI, sử dụng 50 nhân viên, đã huy động được 45 triệu đô la cho đến nay từ các công ty đầu tư mạo hiểm bao gồm VentureTech, RTX Ventures, Anzu Partners và AlleyCorp. Công ty được thành lập dựa trên công việc được thực hiện bởi Verma và nhóm của ông tại Princeton trong thập kỷ qua hoặc lâu hơn

EnCharge AI đang có kế hoạch bán chip tăng tốc của riêng mình và các bo mạch hệ thống đi kèm cho AI trong “điện toán biên”, bao gồm giá đỡ trung tâm dữ liệu của công ty, ô tô và máy tính cá nhân.

Khi làm như vậy, công ty đang mạo hiểm nơi các công ty khởi nghiệp khác đã cố gắng và thất bại – để cung cấp một giải pháp cho vấn đề suy luận ở rìa, nơi quy mô, chi phí và hiệu quả năng lượng chiếm ưu thế.

Cách tiếp cận của EnCharge AI là một phần trong nỗ lực kéo dài hàng thập kỷ để hợp nhất các mạch logic và mạch bộ nhớ được gọi là tính toán trong bộ nhớ (IMC).

Năng lượng thực sự trong máy tính là truy cập bộ nhớ. Chi phí để truy cập dữ liệu trong các mạch bộ nhớ có thể lớn hơn năng lượng cần thiết cho các mạch logic để hoạt động trên dữ liệu đó

Các chương trình GenAI tiêu thụ lượng bộ nhớ chưa từng có để đại diện cho các tham số, “trọng lượng” thần kinh của các mạng thần kinh lớn và hàng tấn bộ nhớ để lưu trữ và truy xuất dữ liệu trong thế giới thực mà chúng hoạt động. Do đó, nhu cầu năng lượng của GenAI đang tăng vọt.

Giải pháp, một số người lập luận, là thực hiện các phép tính gần bộ nhớ hơn hoặc thậm chí trong chính các mạch bộ nhớ.

EnCharge AI đã nhận được tài trợ như một phần của chương trình trị giá 78 triệu đô la của DARPA nhắm vào IMC – Công nghệ xử lý tối ưu bên trong mảng bộ nhớ (OPTIMA). Là một phần của Sáng kiến hồi sinh điện tử rộng lớn hơn tại DARPA, các thông số kỹ thuật của OPTIMA phác thảo mục tiêu rộng lớn là đạt 300 nghìn tỷ hoạt động mỗi giây (TOPS) trên mỗi watt năng lượng tiêu hao, thước đo quan trọng về hiệu quả năng lượng trong điện toán. Đó sẽ là gấp 15 lần tình trạng hiện tại của ngành công nghiệp.

Cái nhìn sâu sắc chính của Verma và những người tiên phong khác trong nghiên cứu IMC là các chương trình AI bị chi phối bởi một vài hoạt động cơ bản dựa trên bộ nhớ. Giải quyết những nhiệm vụ đòi hỏi nhiều bộ nhớ đó và toàn bộ nhiệm vụ AI có thể được thực hiện hiệu quả hơn.

Tính toán chính ở trung tâm của các chương trình GenAI như các mô hình ngôn ngữ lớn là cái được gọi là “ma trận nhân tích lũy”. Bộ xử lý lấy một giá trị trong bộ nhớ, đầu vào và nhân nó với một giá trị khác trong bộ nhớ, trọng số. Phép nhân đó được cộng lại với nhau với rất nhiều và rất nhiều phép nhân khác xảy ra song song, như một phép “tích lũy” của phép nhân, được gọi là phép toán “tích lũy”.

Trong trường hợp của IMC, EnCharge AI và những người khác nhằm mục đích giảm mức sử dụng bộ nhớ trong ma trận nhân tích lũy bằng cách thực hiện một số công việc trong mạch bộ nhớ tương tự thay vì bóng bán dẫn truyền thống. Tương tự có thể thực hiện các tích lũy nhân ma trận như vậy song song với năng lượng thấp hơn nhiều so với các mạch kỹ thuật số.

“Đó là cách bạn giải quyết vấn đề di chuyển dữ liệu”, Verma giải thích. “Bạn không truyền đạt các bit riêng lẻ, bạn truyền đạt kết quả giảm này” dưới dạng tích lũy rất nhiều phép nhân song song.

Tuy nhiên, điện toán tương tự nổi tiếng là khó đạt được và vận may của những người đi trước EnCharge AI không tốt. Bản tin ngành công nghiệp chip Microprocessor Report lưu ý rằng một trong những công ty khởi nghiệp được nhắc đến nhiều nhất trong lĩnh vực điện toán tương tự cho AI, Mythic Semiconductor, đã nhận được 165 triệu đô la vốn đầu tư mạo hiểm, hiện “hầu như không trụ nổi”.

EnCharge AI đã tìm ra cách để tinh chỉnh những thách thức của analog. Phần đầu tiên là chia vấn đề thành các vấn đề nhỏ hơn. Hóa ra bạn không cần phải làm mọi thứ trong analog, Verma nói. Nó đủ để làm cho chỉ hoạt động tích lũy hiệu quả hơn.

Thay vì thực hiện tất cả các ma trận nhân tích lũy trong tương tự, phần đầu tiên – phép nhân ma trận – được thực hiện trong các mạch kỹ thuật số bình thường trong chip AI EnCharge, có nghĩa là bóng bán dẫn. Chỉ có phần tích lũy được thực hiện trong các mạch tương tự thông qua một lớp tụ điện nằm phía trên các bóng bán dẫn kỹ thuật số.

Verma nói: “Khi bạn xây dựng một hệ thống điện toán trong bộ nhớ, việc giảm [function] tích lũy đó thực sự giải quyết được vấn đề di chuyển dữ liệu, đó là điều quan trọng đối với bộ nhớ.”