• <li id="yeaqi"><button id="yeaqi"></button></li>
  • <fieldset id="yeaqi"></fieldset>
    <fieldset id="yeaqi"><table id="yeaqi"></table></fieldset>

    •  

      為實時人工智能做好準備
      發布時間:2023-06-17 16:06:07 文章來源:清一色財經
      不斷縮小的決策窗口和更快的數據生成使得實時分析成為一種新興的熱門產

      不斷縮小的決策窗口和更快的數據生成使得實時分析成為一種新興的熱門產品類別。Rockset首席執行官兼聯合創始人Venkat Venkataramani表示,現在,隨著大型語言模型(LLM)和矢量數據庫為企業人工智能鋪平了道路,我們突然進入了實時人工智能系統的時代。


      (資料圖片)

      不斷縮小的決策窗口和更快的數據生成使得實時分析成為一種新興的熱門產品類別。Rockset首席執行官兼聯合創始人Venkat Venkataramani表示,現在,隨著大型語言模型(LLM)和矢量數據庫為企業人工智能鋪平了道路,我們突然進入了實時人工智能系統的時代。

      到目前為止,Rockset一直在開發一個關系數據庫,使用戶能夠對大量新輸入的數據連續運行SQL查詢。從傳統數據倉庫供應商到實時流處理器,許多大數據開發人員一直難以做到這一點。

      Rockset通過在其開放的RocksDB的關鍵價值商店上構建的一系列功能來滿足實時分析需求。Rockset首席技術官兼聯合創始人Dhruba Borthakur在Facebook幫助下創建了關鍵價值商店。這包括Rockset強大的聚合索引功能,但也包括其非結構數據的接收、時間序列優化、查詢規劃和基于云的架構。

      到目前為止,目標是讓實時應用程序能夠訪問通過Kafka管道到達的最新數據。與其他追逐實時分析夢想的數據庫公司(Imply、Clickhouse和StarTree)一樣,沒有任何一項出色的功能可以讓你突然成功地在大量傳入數據上運行每秒數萬次SQL查詢。相反,這是一種通過不懈的工程實現的能力。

      但在4月份發生了變化,Rockset推出了對數據庫中矢量搜索功能的初步支持。新功能使Rockset不僅可以在其數據庫中存儲和索引向量嵌入,還可以將這些向量嵌入與元數據過濾、關鍵字搜索和向量相似性得分相結合。

      Venkataramani表示,這些新的矢量相關功能將為客戶解鎖實時人工智能應用,特別關注產品推薦、個性化和欺詐檢測。

      他說:“這方面以前稱為預測分析。能夠預測即將發生的事情。但如今,這都是實時人工智能。”

      自去年年底ChatGPT出現以來,公司開始重新思考如何以及在哪里應用人工智能。Venkataramani表示,基于神經網絡和向量嵌入的新技術和技術正在顛覆五年前被認為是前沿的機器學習方法。

      以產品推薦為例,這是一個經過時間考驗的數據科學家應用程序。與識別最具預測性的特征和屬性、構建自動提取它們的管道,然后在運行時仔細構建機器學習模型來推斷消費者偏好的艱苦過程不同,隨著LLM的出現,公司現在基本上可以將所有這些數據放入文本文檔中,并由神經網絡進行分類。

      他說:“以前,機器學習模型會試圖提取關于你的產品、產品顏色、制造商、產品類別等的屬性。”“但現在,你可以給這些人工智能模型和神經網絡一個BLOB(表示二進制類型的大對象)的文本。你可以給每個產品一個圖像目錄,你不需要告訴它‘去標記這些圖像,說這是藍色的,屬于同一類。’”

      “現在你可以提供用戶正在觀看的所有產品,人工智能模型可以理解用戶的喜好和厭惡,而不必根據特定的屬性和規則進行編碼。”“因此,你可以為用戶提供并構建一個向量,該向量代表了他們有更高機會喜歡或購買的所有潛在產品。”

      這大大降低了在生產中使用人工智能的門檻,并使公司能夠利用人工智能做更多的事情。他說,理論上,這可以使一家公司對其目錄中的10萬件商品進行預測分析,而不是將其限制在前1000件商品。

      有了人工智能,就好像一些機器人在觀察用戶的所有行為,并更深入地了解每一種產品,然后在用戶出現在網站上時實時構建推薦,而不是一小時后、一天后或一周后。可以個性化的程度已經達到了頂峰,因為現在可以將所有這些自動化。

      Rockset不創建矢量嵌入(矢量嵌入是大量非結構化文本或圖像數據的濃縮表示)。但它確實允許用戶將向量嵌入基本上視為數據庫中的另一種數據類型,并對其執行操作,例如相似性搜索。

      Venkataramani說: “我們不在乎你用什么模型來獲取非結構化數據并將其轉化為向量。” “把它想象成另一種數據類型,你的表中的另一列。你現在需要對它們進行相似性搜索。你需要說,給定一個向量,給我找到所有其他更接近我正在搜索的向量。”

      假設客戶希望識別傳入數據流中所有類似雛菊的圖像(如果應用在公共安全而不是花園游覽,則可以將“雛菊”替換為“槍”或“刀”)。

      Venkataramani解釋道:“我正在尋找的矢量是一朵雛菊,但這里是用矢量表示的所有其他圖像。” “現在你需要一個索引。如果你對整個庫進行強力搜索,這個問題需要10天才能得到答案。我希望在100毫秒內完成。你是怎么做到的?”

      根據向量嵌入的索引運行機器學習算法,如K-最近鄰(KNN)或近似最近鄰(ANN),顯著加快了對輸入數據中雛菊和雛菊相鄰圖像的識別。

      沒有人在數據庫中尋找這個確切的向量。他們在尋找所有更接近或最接近的向量,這就是索引在數學上比根據數字、字符串、日期或時間構建索引復雜得多的地方。這就是為什么矢量搜索是一種非常不同的功能,這也是Rockset所增加應對實時需求的有力功能。

      關鍵詞:

      樂活HOT

      娛樂LOVE