成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="iwsey"></button>

<button id="iwsey"></button><center id="iwsey"><acronym id="iwsey"></acronym></center>

<code id="iwsey"></code>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

利用多向量和高級搜索數據模型設計城市數據原創

51CTO內容精選

發布于 2024-9-12 08:44

瀏覽

0收藏

本文介紹如何使用Milvus、GenAI、LangChain、YoLo等工具為向量數據庫創建、構建和設計復雜的非結構化數據應用程序。

應用程序的目標

本文將介紹如何構建高級數據模型，并將其用于攝取和各種搜索選項。對于記事簿（Notebook）部分，將運行混合多向量搜索，對結果進行重新排序，并顯示結果文本和圖像。

利用多向量和高級搜索數據模型設計城市數據-AI.x社區

?攝取數據字段，通過查找和格式化來豐富數據：學習攝取包括JSON和圖像在內的數據，格式化和轉換以優化混合搜索。這一過程在streetcams.py應用程序中完成。
將數據存儲到Milvus：學習如何將數據存儲到Milvus中，Milvus是一個高效的向量數據庫，專為高速相似度搜索和人工智能應用而設計。在這一步中，使用標量和多個向量字段來優化數據模型（一個用于文本，一個用于攝像頭圖像）。這同樣在streetcams.py應用程序中進行。
在混合多模態、多向量搜索中使用開源模型進行數據查詢：了解如何使用標量和多個向量來查詢存儲在Milvus中的數據，并在這個記事簿中重新排序最終結果。
顯示生成的文本和圖像：在這個記事簿中構建用于驗證和檢查的快速輸出。
使用LangChain的簡單檢索增強生成（RAG）：構建一個簡單的Python RAG應用程序?(streetcamrag.py)，使用Milvus通過??Ollama??查詢當前天氣。在輸出到屏幕上的同時，還將結果以Markdown格式發送到Slack。

總結

通過完成這個應用程序，將全面了解使用Milvus、數據攝取對象半結構化和非結構化數據，以及使用開源模型構建健壯高效的數據檢索系統。對于未來的功能改進，可以使用這些結果為??LLM??、Slack機器人將數據流傳輸到Apache Kafka中，以及作為街道攝像頭搜索引擎的基礎。

Milvus：為規模而構建的開源向量數據庫

?Milvus是一個流行的開源向量數據庫，為應用程序提供高性能和可擴展的向量相似性搜索。Milvus采用分布式架構，將計算和存儲分離，并將數據和工作負載分布在多個節點上。這是Milvus具有高可用性和彈性的主要原因之一。Milvus針對各種硬件進行了優化，并支持大量索引。

可以在???Milvus快速入門??中獲得更多細節。

有關運行Milvus的其他選項，可以查看??部署頁面??。

利用多向量和高級搜索數據模型設計城市數據-AI.x社區

紐約市511交通信息服務數據

紐約市街道攝像頭信息的REST Feed ，包括緯度、經度、道路名稱、攝像頭名稱、攝像頭URL、禁用標志和阻止標志：

JSON

1 {
2  "Latitude": 43.004452, "Longitude": -78.947479, "ID": "NYSDOT-badsfsfs3",
3  "Name": "I-190 at Interchange 18B", "DirectionOfTravel": "Unknown",
4  "RoadwayName": "I-190 Niagara Thruway",
5 "Url": "https://nyimageurl",
6 "VideoUrl": "https://camera:443/rtplive/dfdf/playlist.m3u8",
7 "Disabled":true, "Blocked":false
8}

然后，從攝像頭圖像的URL端點獲取攝像頭圖像：

利用多向量和高級搜索數據模型設計城市數據-AI.x社區

在通過??Ultralytics YOLO??運行之后，將得到這個攝像頭圖像的標記版本。

利用多向量和高級搜索數據模型設計城市數據-AI.x社區

美國國家海洋和大氣管理局(NOAA)當前天氣狀況

此外還攝取了一個REST提要，用于滿足從攝像頭記錄中傳入的緯度和經度的天氣條件，其中包括海拔、觀測日期、風速、風向、能見度、相對濕度和溫度等參數。

JSON

1
2 "currentobservation":{
3            "id":"KLGA",
4            "name":"New York, La Guardia Airport",
5            "elev":"20",
6            "latitude":"40.78",
7            "longitude":"-73.88",
8            "Date":"27 Aug 16:51 pm EDT",
9            "Temp":"83",
10            "Dewp":"60",
11            "Relh":"46",
12            "Winds":"14",
13            "Windd":"150",
14            "Gust":"NA",
15            "Weather":"Partly Cloudy",
16            "Weatherimage":"sct.png",
17            "Visibility":"10.00",
18            "Altimeter":"1017.1",
19            "SLP":"30.04",
20            "timezone":"EDT",
21            "state":"NY",
22
           "WindChill":"NA"
23        }

攝入和富集

?將在Python加載腳本中從NY REST提要中攝取數據。
在streetcams.py應用程序中?，??Python???腳本負責攝取、處理和豐富。
迭代REST調用的JSON結果，然后豐富、更新、運行Yolo predict，然后對提供的緯度和經度運行NOAA天氣查詢。?

構建Milvus數據模式

?在這里將把集合命名為“nycstreetcameras”。
為元數據、主鍵和向量添加字段。
此外，還有很多varchar變量，例如roadwayname、county和weathername。?

Python

 FieldSchema(name='id', dtype=DataType.INT64, is_primary=True, auto_id=True),
2    FieldSchema(name='latitude', dtype=DataType.VARCHAR, max_length=200),
3    FieldSchema(name='longitude', dtype=DataType.VARCHAR, max_length=200),
4    FieldSchema(name='name', dtype=DataType.VARCHAR, max_length=200),
5    FieldSchema(name='roadwayname', dtype=DataType.VARCHAR, max_length=200),
6    FieldSchema(name='directionoftravel', dtype=DataType.VARCHAR, max_length=200),
7    FieldSchema(name='videourl', dtype=DataType.VARCHAR, max_length=200),
8    FieldSchema(name='url', dtype=DataType.VARCHAR, max_length=200),
9    FieldSchema(name='filepath', dtype=DataType.VARCHAR, max_length=200),
10   FieldSchema(name='creationdate', dtype=DataType.VARCHAR, max_length=200),
11    FieldSchema(name='areadescription', dtype=DataType.VARCHAR, max_length=200),
12    FieldSchema(name='elevation', dtype=DataType.VARCHAR, max_length=200), 
13    FieldSchema(name='county', dtype=DataType.VARCHAR, max_length=200), 
14    FieldSchema(name='metar', dtype=DataType.VARCHAR, max_length=200), 
15    FieldSchema(name='weatherid', dtype=DataType.VARCHAR, max_length=200),
16    FieldSchema(name='weathername', dtype=DataType.VARCHAR, max_length=200), 
17    FieldSchema(name='observationdate', dtype=DataType.VARCHAR, max_length=200), 
18    FieldSchema(name='temperature', dtype=DataType.FLOAT), 
19    FieldSchema(name='dewpoint', dtype=DataType.VARCHAR, max_length=200), 
20    FieldSchema(name='relativehumidity', dtype=DataType.VARCHAR, max_length=200), 
21    FieldSchema(name='windspeed', dtype=DataType.VARCHAR, max_length=200), 
22    FieldSchema(name='winddirection', dtype=DataType.VARCHAR, max_length=200),
23    FieldSchema(name='gust', dtype=DataType.VARCHAR, max_length=200), 
24    FieldSchema(name='weather', dtype=DataType.VARCHAR, max_length=200), 
25    FieldSchema(name='visibility', dtype=DataType.VARCHAR, max_length=200), 
26    FieldSchema(name='altimeter', dtype=DataType.VARCHAR, max_length=200),
27    FieldSchema(name='slp', dtype=DataType.VARCHAR, max_length=200), 
28    FieldSchema(name='timezone', dtype=DataType.VARCHAR, max_length=200), 
29    FieldSchema(name='state', dtype=DataType.VARCHAR, max_length=200), 
30    FieldSchema(name='windchill', dtype=DataType.VARCHAR, max_length=200),
31    FieldSchema(name='weatherdetails', dtype=DataType.VARCHAR, max_length=8000),    
32    FieldSchema(name='image_vector', dtype=DataType.FLOAT_VECTOR, dim=512),
33    FieldSchema(name='weather_text_vector', dtype=DataType.FLOAT_VECTOR, dim=384)

這兩個向量是image_vector和weather_text_vector，它們包含一個圖像向量和一個文本向量。為主鍵id和每個向量添加索引。對于這些索引有很多選擇，它們可以極大地提高性能。

將數據插入Milvus

然后使用與模式名稱和類型匹配的標量字段對集合進行簡單的插入操作。在插入之前，必須對圖像和天氣文本運行嵌入函數。然后插入記錄。再采用??Attu??檢查數據。

利用多向量和高級搜索數據模型設計城市數據-AI.x社區

建立記事簿的報告

?將構建一個Jupyter記事簿來查詢和報告多向量數據集。

為嵌入句子文本準備Hugging Face的句子轉換器

?利用Hugging Face的一個模型“all-MiniLM-L6-v2”，一個句子轉換器來為短文本字符串構建密集嵌入。這篇文章是對離街頭攝像頭最近的地點的天氣細節的簡短描述。

參見：??使用HuggingFace整合??

為圖像準備嵌入模型

使用標準的resnet34 Pytorch特征提取器，經常使用它來處理圖像。

實例化Milvus

?如前所述，Milvus是一個流行的開源向量數據庫，為人工智能應用程序提供高性能和可擴展的向量相似性搜索。

在這個例子中，將連接到運行在Docker中的Milvus。
將URI設置為本地文件，例如/milvus.db是最方便的方法，因為它會自動利用Milvus Lite將所有數據存儲在該文件中。
如果有大量的數據（例如超過一百萬個向量），可以在Docker或Kubernetes上設置一個性能更高的Milvus服務器。在這一設置中，可以使用服務器URI，例如http://localhost:19530作為URI。
如果想使用Zilliz Cloud (Milvus的完全托管云服務)，可以調整URI和令牌，它們對應于Zilliz Cloud中的公共端點和API密鑰。?

準備搜索

建立兩個搜索(AnnSearchRequest)，將其組合在一起進行混合搜索，其中將包括一個重排器(Reranker)。

利用多向量和高級搜索數據模型設計城市數據-AI.x社區

顯示結果

?這里顯示了對兩個向量重新排序的混合搜索結果，展示了一些輸出標量字段和從存儲路徑讀取的圖像。

混合搜索的結果可以迭代，可以很容易地訪問選擇的所有輸出字段。filepath包含到本地存儲映像的鏈接，可以從key.entity.filepath訪問。鍵包含所有的結果，而key.entity擁有在上一步混合搜索中選擇的所有輸出字段。

迭代重新排序的結果，并顯示圖像和天氣細節。?

利用多向量和高級搜索數據模型設計城市數據-AI.x社區

RAG應用程序

?由于已經加載了一個包含天氣數據的集合，可以將其用作RAG(檢索增強生成)的一部分。將利用本地的Ollama、LangChain和Milvus構建一個完全開源的RAG應用程序。

采用集合將vector_store設置為Milvus。?

Python

1 vector_store = Milvus(
2    embedding_function=embeddings,
3    collection_name="CollectionName",
4    primary_field = "id",
5    vector_field = "weather_text_vector",
6    text_field="weatherdetails",
7    connection_args={"uri": "https://localhost:19530"},
8 )

然后連接到Ollama。

Python

1llm = Ollama(
2        model="llama3",
3
       callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
4        stop=["<|eot_id|>"],
5    )

提示互動問題。

Python

1 query = input("\nQuery: ")

在LLM和vector store之間建立了一個RetrievalQA連接。傳入查詢并獲得結果。

Python

1 qa_chain = RetrievalQA.from_chain_type(
2    llm, retriever=vector_store.as_retriever(collection =  SC_COLLECTION_NAME))
3
4 result = qa_chain({"query": query})
5 resultforslack = str(result["result"])

然后將結果發布到Slack通道。

Python

1 response = client.chat_postMessage(channel="C06NE1FU6SE", text="", 
2                                   blocks=[{"type": "section",
3                                            "text": {"type": "mrkdwn",
4                                                     "text": str(query) + 
5                                                     "  \n\n" }}, 
6                                           {"type": "divider"},
7                                           {"type": "section","text": 
8                                            {"type": "mrkdwn","text": 
9                                             str(resultforslack) +"\n" }}]

以下是與Slack聊天的輸出。

利用多向量和高級搜索數據模型設計城市數據-AI.x社區

可以在下面的GitHub中找到記事簿、攝取腳本和交互式RAG應用程序的所有源代碼。

??源代碼??

結論

?在這個記事簿中，已經了解如何使用Milvus對同一集合中的多個向量進行混合搜索，并對結果進行重新排序。還看到了如何構建一個復雜的數據模態，其中包含多個向量和許多標量字段，這些字段表示與數據相關的大量元數據。

學習了如何使用Python將JSON、圖像和文本攝取到Milvus中。

最后，構建了一個小型聊天應用程序，用于查看交通攝像頭附近位置的天氣。

用戶如果構建自己的應用程序，可以查看下面的參考資料。?

資源

在下面的列表中，可以找到有助于了解更多關于為Milvus使用預訓練的嵌入模型、對文本數據進行搜索的資源，以及一個很好的嵌入函數示例記事簿。

??Milvus Reranking??
??Milvus Hybrid Search??
??511NY: GET api/GetCameras??
??Using PyMilvus's Model To Generate Text Embeddings??
??HuggingFace: sentence-transformers/all-MiniLM-L6-v2??
??Pretrained Models??
??Milvus: SentenceTransformerEmbeddingFunction??
??Vectorizing JSON Data with Milvus for Similarity Search??
??Milvus: Scalar Index??
??Milvus: In-memory Index??
??Milvus: On-disk Index??
??GPU Index??
??Not Every Field is Just Text, Numbers, or Vectors??
??How good is Quantization in Milvus???

原文標題：??Utilizing Multiple Vectors and Advanced Search Data Model Design for City Data??，作者：Tim Spann，Timothy Spann

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

高級數據模型

向量數據庫

已于2024-9-12 08:48:01修改

贊

收藏

回復

舉報

回復

相關推薦

通用的數據清洗框架：利用多模態大模型檢測數據集中的惡意樣本

爛漫樹林 ? 7763瀏覽 ? 0回復
長文本殺不死RAG：SQL+向量驅動大模型和大數據新范式，MyScale AI數據庫正式開源

輕薄滴假象 ? 3638瀏覽 ? 0回復
EMNLP 2023｜利用LLM合成數據訓練模型有哪些坑？

arnoldzhw ? 3661瀏覽 ? 0回復
怎么看大模型、RAG、Agent、知識庫、向量數據庫、知識圖譜、AGI的區別和聯系？

玄姐聊AGI ? 6063瀏覽 ? 0回復
Meta公司開源大數據模型SAM實戰演練

51CTO內容精選 ? 3304瀏覽 ? 0回復
對比Streamlit，利用Taipy創建數據科學和大模型應用

小虎哦哦 ? 3943瀏覽 ? 0回復
RAG真正的難點不是向量數據庫，而是實時企業數據管道！這家公司做到了

51CTO技術棧 ? 2538瀏覽 ? 0回復
LangChain-RAG必備：向量數據庫如何CRUD

ermulong ? 2913瀏覽 ? 0回復
利用 Schemonic 優化數據庫模式描述以降低大語言模型成本

AIGC前沿技術追蹤 ? 2603瀏覽 ? 0回復
利用Milvus向量數據庫，帶你實現GraphRAG

AI科技論談 ? 2902瀏覽 ? 0回復
基于LangChain和云原生向量數據庫Milvus開發混合搜索AI程序

51CTO內容精選 ? 2842瀏覽 ? 0回復
大模型檢索增強生成之向量數據庫的問題

AI探索時代 ? 2546瀏覽 ? 0回復
怎么提升向量數據庫的召回準確率

AI探索時代 ? 2838瀏覽 ? 0回復
對話數據合成：清華利用多Agent合成大量醫療對話數據顯著提升LLM在醫療場景效果

arnoldzhw ? 2822瀏覽 ? 0回復
RAG：七種用于向量數據庫+相似性搜索的索引方法

Halo咯咯 ? 3191瀏覽 ? 0回復
顛覆傳統搜索方式！向量相似性與圖數據庫的強強聯合

Halo咯咯 ? 2746瀏覽 ? 0回復
神經網絡的兩個重難點之一，數據處理和模型設計

AI探索時代 ? 1591瀏覽 ? 0回復
RAG實戰 | 向量數據庫LanceDB指南

周末程序猿 ? 2058瀏覽 ? 0回復
基于milvus向量數據庫的相似度檢索問題——稀疏-密集向量檢索和混合搜索

AI探索時代 ? 1196瀏覽 ? 0回復

51CTO內容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：機器學習利器——決策樹分類器深度解析

下一篇：如何選擇適合企業需求的大語言模型

社區精華內容

目錄

主站蜘蛛池模板：精品视频一区二区三区在线观看 | 精品视频在线观看 | 欧美伊人影院 | 91久久久久| 国产真实精品久久二三区 | 狠狠操在线 | 亚洲精品亚洲人成人网 | 五月激情婷婷网 | 国产高清视频 | 三级免费 | 久草新在线 | 天天看夜夜 | 羞羞视频网站免费看 | 欧美日韩三级在线观看 | 三级欧美 | 国产高清视频一区 | 草久久免费视频 | 97精品国产97久久久久久免费 | 蜜桃臀av一区二区三区 | 久热免费 | 日韩不卡一区二区 | 国产综合久久久久久鬼色 | 欧美午夜精品 | 亚洲午夜在线 | 日本一区二区不卡 | 天天摸天天干 | 亚洲午夜精品一区二区三区 | 亚洲免费一区二区 | 一区二区久久 | 国产片侵犯亲女视频播放 | 国产精品久久久久一区二区三区 | 亚洲成人自拍 | www.亚洲视频.com | 国产日韩欧美激情 | 精品欧美黑人一区二区三区 | v片网站| 久久久高清| 欧美日一区二区 | 一区二区三区免费 | 成人在线一区二区三区 | 国产精品精品 |

<button id="ioowo"><input id="ioowo"></input></button>

<abbr id="ioowo"><source id="ioowo"></source></abbr>

<rt id="ioowo"><tr id="ioowo"></tr></rt>

<abbr id="ioowo"></abbr><button id="ioowo"><tbody id="ioowo"></tbody></button>

<rt id="ioowo"></rt>