Khác với sự kiện hoành tráng năm ngoái, OpenAI đã tổ chức Hội nghị DevDay 2024 một cách nhẹ nhàng hơn. Thay vì ra mắt sản phẩm mới, công ty tập trung vào việc cải thiện các công cụ và API AI hiện có. Trọng tâm năm nay là trao quyền cho các nhà phát triển và giới thiệu những câu chuyện thành công từ cộng đồng, cho thấy sự thay đổi chiến lược khi thị trường AI ngày càng cạnh tranh.
Bốn cải tiến chính được công bố tại sự kiện bao gồm: Vision Fine-Tuning, Realtime API, Model Distillation và Prompt Caching. Những công cụ mới này cho thấy sự xoay trục chiến lược của OpenAI, tập trung vào việc hỗ trợ hệ sinh thái nhà phát triển thay vì cạnh tranh trực tiếp trong lĩnh vực ứng dụng người dùng cuối.
Tiết kiệm chi phí với Prompt Caching
Một trong những thông báo quan trọng nhất là sự ra đời của Prompt Caching, tính năng giúp giảm chi phí và độ trễ cho nhà phát triển. Hệ thống này tự động giảm giá 50% cho các token đầu vào mà mô hình đã xử lý gần đây, giúp tiết kiệm đáng kể chi phí cho các ứng dụng thường xuyên sử dụng lại ngữ cảnh.
“Chúng tôi đã rất bận rộn”, Olivier Godement, Giám đốc sản phẩm nền tảng của OpenAI, cho biết tại cuộc họp báo nhỏ khai mạc hội nghị. “Chỉ hai năm trước, GPT-3 đang thống trị. Giờ đây, chúng tôi đã giảm chi phí [sử dụng GPT-3] gần 1000 lần. Tôi đã cố gắng tìm một ví dụ về công nghệ nào giảm chi phí gần 1000 lần trong hai năm – và tôi không thể tìm thấy.”
Việc giảm giá mạnh mẽ này mang đến cơ hội lớn cho các công ty khởi nghiệp và doanh nghiệp khám phá những ứng dụng mới, vốn nằm ngoài tầm với do chi phí trước đây.
Bảng giá từ OpenAI DevDay 2024 cho thấy mức giảm giá đáng kể cho việc sử dụng mô hình AI, với các token đầu vào được lưu trữ cache cung cấp mức tiết kiệm lên đến 50% so với các token không được lưu trữ cache trên các mô hình GPT khác nhau. Mô hình o1 mới cho thấy mức giá cao cấp, phản ánh khả năng vượt trội của nó. (Nguồn: OpenAI)
Vision Fine-Tuning: Bước tiến mới trong AI thị giác
Một thông báo quan trọng khác là sự ra đời của Vision Fine-Tuning cho GPT-4o, mô hình ngôn ngữ lớn mới nhất của OpenAI. Tính năng này cho phép nhà phát triển tùy chỉnh khả năng hiểu hình ảnh của mô hình bằng cả hình ảnh và văn bản.
Bản cập nhật này có ý nghĩa sâu rộng, có khả năng tác động đến các lĩnh vực như xe tự hành, hình ảnh y tế và chức năng tìm kiếm trực quan.
Theo OpenAI, Grab, công ty cung cấp dịch vụ gọi xe và giao đồ ăn hàng đầu Đông Nam Á, đã tận dụng công nghệ này để cải thiện dịch vụ bản đồ của mình.
Chỉ với 100 ví dụ, Grab được cho là đã đạt được cải thiện 20% độ chính xác về số làn đường và tăng 13% khả năng bản địa hóa biển báo giới hạn tốc độ.
Ứng dụng thực tế này cho thấy khả năng Vision Fine-Tuning có thể nâng cao đáng kể các dịch vụ hỗ trợ AI trong nhiều ngành bằng cách sử dụng dữ liệu huấn luyện trực quan với số lượng nhỏ.
Realtime API: Thu hẹp khoảng cách trong AI đàm thoại
OpenAI cũng đã công bố Realtime API, hiện đang trong giai đoạn thử nghiệm beta công khai. API mới này cho phép các nhà phát triển tạo ra trải nghiệm đa phương thức, độ trễ thấp, đặc biệt là trong các ứng dụng chuyển đổi giọng nói. Điều này có nghĩa là các nhà phát triển có thể bắt đầu thêm điều khiển bằng giọng nói của ChatGPT vào ứng dụng.
Để minh họa tiềm năng của API, OpenAI đã trình diễn phiên bản cập nhật của Wanderlust, một ứng dụng lên kế hoạch du lịch được giới thiệu tại hội nghị năm ngoái.
Với Realtime API, người dùng có thể nói chuyện trực tiếp với ứng dụng, tham gia vào cuộc trò chuyện tự nhiên để lên kế hoạch cho chuyến đi của họ. Hệ thống thậm chí còn cho phép gián đoạn giữa chừng, bắt chước cách đối thoại của con người.
Mặc dù lên kế hoạch du lịch chỉ là một ví dụ, nhưng Realtime API mở ra nhiều khả năng cho các ứng dụng hỗ trợ giọng nói trong berbagai industri.
Từ dịch vụ khách hàng đến giáo dục và các công cụ hỗ trợ tiếp cận, các nhà phát triển hiện có một nguồn lực mới mạnh mẽ để tạo ra trải nghiệm do AI điều khiển trực quan và phản hồi nhanh hơn.
“Bất cứ khi nào chúng tôi thiết kế sản phẩm, về cơ bản, chúng tôi đều hướng đến cả công ty khởi nghiệp và doanh nghiệp,” Godement giải thích. “Vì vậy, trong giai đoạn alpha, chúng tôi có một loạt doanh nghiệp sử dụng API, các mô hình mới của các sản phẩm mới.”
Realtime API về cơ bản hợp lý hóa quy trình xây dựng trợ lý giọng nói và các công cụ AI đàm thoại khác, loại bỏ nhu cầu kết hợp nhiều mô hình để phiên âm, suy luận và chuyển đổi văn bản thành giọng nói.
Những người dùng đầu tiên như Healthify, một ứng dụng huấn luyện thể dục và dinh dưỡng, và Speak, một nền tảng học ngôn ngữ, đã tích hợp Realtime API vào sản phẩm của họ.
Các triển khai này cho thấy tiềm năng của API trong việc tạo ra trải nghiệm người dùng tự nhiên và hấp dẫn hơn trong các lĩnh vực từ chăm sóc sức khỏe đến giáo dục.
Cấu trúc giá của Realtime API, mặc dù không rẻ với 0,06 đô la cho mỗi phút âm thanh đầu vào và 0,24 đô la cho mỗi phút âm thanh đầu ra, nhưng vẫn có thể thể hiện một đề xuất giá trị đáng kể cho các nhà phát triển muốn tạo ứng dụng dựa trên giọng nói.
Model Distillation: Một bước tiến gần hơn đến AI dễ tiếp cận
Có lẽ thông báo mang tính đột phá nhất là sự ra đời của Model Distillation. Quy trình làm việc tích hợp này cho phép các nhà phát triển sử dụng đầu ra từ các mô hình nâng cao như o1-preview và GPT-4o để cải thiện hiệu suất của các mô hình hiệu quả hơn như GPT-4o mini.
Cách tiếp cận này có thể cho phép các công ty nhỏ hơn khai thác các khả năng tương tự như các mô hình nâng cao mà không phải chịu chi phí tính toán tương tự.
Nó giải quyết sự phân chia lâu nay trong ngành AI giữa các hệ thống tiên tiến, sử dụng nhiều tài nguyên và các hệ thống dễ tiếp cận hơn nhưng kém năng lực hơn.
Hãy xem xét một công ty khởi nghiệp công nghệ y tế nhỏ đang phát triển một công cụ chẩn đoán hỗ trợ AI cho các phòng khám nông thôn. Sử dụng Model Distillation, công ty có thể huấn luyện một mô hình nhỏ gọn, nắm bắt được phần lớn khả năng chẩn đoán của các mô hình lớn hơn trong khi chạy trên máy tính xách tay hoặc máy tính bảng tiêu chuẩn.
Điều này có thể mang các khả năng AI tinh vi đến các môi trường hạn chế về tài nguyên, có khả năng cải thiện kết quả chăm sóc sức khỏe ở các khu vực kém phát triển.
OpenAI chuyển hướng chiến lược: Xây dựng hệ sinh thái AI bền vững
OpenAI DevDay 2024 đánh dấu một bước ngoặt chiến lược của công ty, ưu tiên phát triển hệ sinh thái hơn là tung ra sản phẩm gây chú ý trên các mặt báo.
Cách tiếp cận này, mặc dù kém thú vị hơn đối với công chúng, nhưng thể hiện sự hiểu biết chín chắn về những thách thức và cơ hội hiện tại của ngành AI.
Sự kiện trầm lắng năm nay trái ngược hẳn với DevDay 2023, sự kiện đã tạo ra sự phấn khích giống như iPhone với việc ra mắt GPT Store và các công cụ tạo GPT tùy chỉnh.
Tuy nhiên, bối cảnh AI đã phát triển nhanh chóng kể từ đó. Các đối thủ cạnh tranh đã đạt được những bước tiến đáng kể và những lo ngại về tính khả dụng của dữ liệu để đào tạo ngày càng gia tăng. Việc OpenAI tập trung vào việc tinh chỉnh các công cụ hiện có và trao quyền cho các nhà phát triển dường như là một phản ứng có tính toán trước những thay đổi này. Bằng cách cải thiện hiệu quả và hiệu quả chi phí của các mô hình của mình, OpenAI đặt mục tiêu duy trì lợi thế cạnh tranh đồng thời giải quyết các lo ngại về cường độ tài nguyên và tác động môi trường.
Khi OpenAI chuyển đổi từ một nhà phá vỡ sang một nhà cung cấp nền tảng, thành công của nó sẽ phụ thuộc phần lớn vào khả năng nuôi dưỡng một hệ sinh thái nhà phát triển thịnh vượng.
Bằng cách cung cấp các công cụ được cải thiện, giảm chi phí và tăng cường hỗ trợ, công ty đang đặt nền móng cho sự tăng trưởng và ổn định lâu dài trong lĩnh vực AI.
Mặc dù tác động tức thời có thể ít rõ ràng hơn, nhưng chiến lược này cuối cùng có thể dẫn đến việc áp dụng AI bền vững và rộng rãi hơn trên nhiều ngành.