当前位置：首页 > news >正文

深度学习系列78：使用langchain的api进行RAG

news 来源：原创 2025/8/27 5:21:56

用起来很麻烦，看api的工夫都已经能自己写完代码了。但现在有些开源api用的是langchain的接口，还是了解一下。参考官方文档：https://www.langchain.com.cn/docs/how_to/

1. LLM和langserve示例

以openai接口为例，可以看到分为3步：定义model，调用invoke方法，进行parse。所谓的chain，就是把带invoke的类合并起来使用：

from fastapi import FastAPI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI
from langserve import add_routes# 1. Create prompt template
prompt_template = ChatPromptTemplate.from_messages([('system', "Translate the following into {language}:"),('user', '{text}')
])# 2. Create model
model = ChatOpenAI()# 3. Create parser
parser = StrOutputParser()# 4. Create chain
chain = prompt_template | model | parser# 4. App definition
app = FastAPI(title="LangChain Server",version="1.0",description="A simple API server using LangChain's Runnable interfaces",
)# 5. Adding chain route
add_routes(app,chain,path="/chain",
)if __name__ == "__main__":import uvicornuvicorn.run(app, host="localhost", port=8000)

调用可以使用requests，也可以使用langserve的接口：

from langserve import RemoteRunnable
remote_chain = RemoteRunnable("http://localhost:8000/chain/")
remote_chain.invoke({"language": "italian", "text": "hi"})

调用自己的LLM，则需要实现_call和_llm_type方法：
在这里插入图片描述
下面是一个例子。message类组装prompt就不看了，直接写在自定义的llm里面就好。甚至parser也可以写在llm里面。

from langchain_core.output_parsers import StrOutputParser
from langchain_core.language_models.llms import LLM
requests.packages.urllib3.disable_warnings()
class Qwen(LLM):def _call(self,prompt: str,stop = None):headers = {'accept': 'application/json','Content-Type': 'application/json'}data = json.dumps({"messages":[{'role': 'system','content': 'Translate the following into Chinese:'},{'role': 'user','content': prompt}] ,"model": 'Qwen/Qwen2.5-72B-Instruct',"temperature": 0,"max_tokens": 1024})res = requests.post('https://localhost/v1/chat/completions', headers=headers, data=data, verify=False).json()return res['choices'][0]['message']['content']def _llm_type(self):return "Qwen"  
chain = Qwen() | StrOutputParser()
chain.invoke("hi")

2. 文档加载器

文档加载器会返回一个Document对象

from langchain_community.document_loaders import UnstructuredMarkdownLoader
data = UnstructuredMarkdownLoader(file_path,mode='elements').load()
content = data[0].page_contentfrom langchain_community.document_loaders import PyPDFLoader
data = PyPDFLoader(file_path).lazy_load()
content = data[0].page_content

自定义文档加载器的例子如下：
在这里插入图片描述

from langchain_core.document_loaders import BaseLoader
from langchain_core.documents import Document
class CustomDocumentLoader(BaseLoader):def __init__(self, file_path: str):self.file_path = file_pathdef lazy_load(self): with open(self.file_path, encoding="utf-8") as f:for line_number,line in enumerate(f):yield Document(page_content=line,metadata={"line_number": line_number, "source": self.file_path})
d = CustomDocumentLoader('data/biology/contents/m44386.md')
for di in d.lazy_load():print(di)

也可以用blob接口实现加载数据功能：

from langchain_core.document_loaders import BaseBlobParser, Blob
class MyParser(BaseBlobParser):"""A simple parser that creates a document from each line."""def lazy_parse(self, blob: Blob) -> Iterator[Document]:"""Parse a blob into a document line by line."""line_number = 0with blob.as_bytes_io() as f:for line in f:line_number += 1yield Document(page_content=line,metadata={"line_number": line_number, "source": blob.source})
blob = Blob(data=b"some data from memory\nmeow")
list(parser.lazy_parse(blob))

用Blob.from_path("./meow.txt")可以将文件读入为blob格式。

3. 分割器

CharacterTextSplitter：最简单的按字数分割
RecursiveCharacterTextSplitter：按字符列表顺序在这些字符上进行分割，直到块的大小足够小。
html/markdown按标题分割/部分分割
使用spacy或者分割，这是一个按照句子内容进行分割的模型。类似的还有NLTK。模型在https://github.com/explosion/spacy-models/releases这里下载或者直接pip install并安装即可

from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import TextLoader
text_splitter = CharacterTextSplitter(chunk_size=100, chunk_overlap=0)
loader = TextLoader("./sidamingzhu.txt", encoding="utf-8")
documents = loader.load()
docs = text_splitter.split_documents(documents)from langchain_text_splitters import SpacyTextSplitter
from langchain_text_splitters import RecursiveCharacterTextSplitter
with open("data/biology/contents/m44386.md") as f:state_of_the_union = f.read()text_splitter = RecursiveCharacterTextSplitter(chunk_size=100,chunk_overlap=20)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[10])
print(texts[11])from langchain_text_splitters import HTMLHeaderTextSplitter
html_string = """
<!DOCTYPE html>
<html>
<body><div><h1>Foo</h1><p>Some intro text about Foo.</p><div><h2>Bar main section</h2><p>Some intro text about Bar.</p><h3>Bar subsection 1</h3><p>Some text about the first subtopic of Bar.</p><h3>Bar subsection 2</h3><p>Some text about the second subtopic of Bar.</p></div><div><h2>Baz</h2><p>Some text about Baz</p></div><br><p>Some concluding text about Foo</p></div>
</body>
</html>
"""
headers_to_split_on = [("h1", "Header 1"),("h2", "Header 2"),("h3", "Header 3"),
]
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on)
html_header_splits = html_splitter.split_text(html_string)
html_header_splitsfrom langchain_text_splitters import MarkdownHeaderTextSplitter
markdown_document = "# Foo\n\n    ## Bar\n\nHi this is Jim\n\nHi this is Joe\n\n ### Boo \n\n Hi this is Lance \n\n ## Baz\n\n Hi this is Molly"
headers_to_split_on = [("#", "Header 1"),("##", "Header 2"),("###", "Header 3"),
]
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)
md_header_splits = markdown_splitter.split_text(markdown_document)
md_header_splitsfrom langchain_text_splitters import SpacyTextSplitter
SpacyTextSplitter(pipeline=’zh_core_web_sm‘)

自定义splitter需要实现下面的接口：

interface TextSplitter {chunkSize: number;chunkOverlap: number;createDocuments(texts: string[],metadatas?: Record<string, any>[],chunkHeaderOptions: TextSplitterChunkHeaderOptions = {}): Promise<Document[]>;splitDocuments(documents: Document[],chunkHeaderOptions: TextSplitterChunkHeaderOptions = {}): Promise<Document[]>;
}

4. embedding

VectorStore是使用embedding向量化之后的文档库。
这里介绍两种embedding的方法。第一种是直接从本地加载模型到内存：

from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain_core.vectorstores import InMemoryVectorStore
embedding_function = SentenceTransformerEmbeddings(model_name="embedding/")

第二种是自定义embedding：
在这里插入图片描述

from langchain_core.embeddings import Embeddings
class ParrotLinkEmbeddings(Embeddings):def __init__(self, model: str):self.model = modeldef embed_documents(self, texts: List[str]) -> List[List[float]]:"""Embed search docs."""return [[0.5, 0.6, 0.7] for _ in texts]def embed_query(self, text: str) -> List[float]:"""Embed query text."""return self.embed_documents([text])[0]

embedding模型可以调用embed_documents和embed_query方法：

embeddings = embeddings_model.embed_documents(["Hi there!","Oh, hello!","What's your name?","My friends call me World","Hello World!"]
)
len(embeddings), len(embeddings[0])embedded_query = embeddings_model.embed_query("What was the name mentioned in the conversation?")
embedded_query[:5]

5. vectorStore和retriver

5.1 常用vectorStore

这里介绍3种向量库，基本步骤：1. 建库from_documents；2. 向量搜索similarity_search或者similarity_search_by_vector

vector_store = InMemoryVectorStore.from_documents(pages, embedding_function)
docs = vector_store.similarity_search(" Humans have inhabited this planet for how long?", k=2)
for doc in docs:print(f'Page {doc.metadata["page_number"]}: {doc.page_content[:300]}\n')from langchain_community.vectorstores import Chroma
from langchain_community.vectorstores.utils import filter_complex_metadata
pages = filter_complex_metadata(pages)
db = Chroma.from_documents(pages, embedding_function)
db.similarity_search(" Humans have inhabited this planet for how long?", k=2)from langchain_community.vectorstores import FAISS
db = FAISS.from_documents(pages, embedding_function)
db.similarity_search(" Humans have inhabited this planet for how long?", k=2)

5.2 转为retriver

可以直接将vectorStore作为retriver，这样就可以调用invoke方法了：

retriever = vectorstore.as_retriever()
retriever = vectorstore.as_retriever(search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.5}
)
retriever = vectorstore.as_retriever(search_kwargs={"k": 1})
docs = retriever.invoke("what did the president say about ketanji brown jackson?")

5.3 MultiQueryRetriever

这里特别介绍一下MultiQueryRetriever和retriever_from_llm，可以把问题转为相似的几个问题:

import logging,json
question = "你是谁?"
logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)
unique_docs = retriever_from_llm.invoke(question,)
len(unique_docs)

5.4 自定义retriver

如果要自定义的话，需要实现parser和模板：

from langchain_core.output_parsers import BaseOutputParser
from langchain_core.prompts import PromptTemplate
from pydantic import BaseModel, Field
class LineListOutputParser(BaseOutputParser):def parse(self, text: str):lines = text.strip().split("\n")return list(filter(None, lines)) output_parser = LineListOutputParser()
QUERY_PROMPT = PromptTemplate(input_variables=["question"],template="""You are an AI language model assistant. Your task is to generate five different versions of the given user question to retrieve relevant documents from a vector database. By generating multiple perspectives on the user question, your goal is to helpthe user overcome some of the limitations of the distance-based similarity search. Provide these alternative questions separated by newlines.Original question: {question}""",
)
llm_chain = QUERY_PROMPT | llm | output_parser
retriever = MultiQueryRetriever(retriever=db.as_retriever(), llm_chain=llm_chain, parser_key="lines"
)  # "lines" is the key (attribute name) of the parsed output
retriever.invoke("What does the course say about regression?")import uuid
from langchain.retrievers.multi_vector import MultiVectorRetriever
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(vectorstore=vectorstore,byte_store=store,id_key=id_key,
)doc_ids = [str(uuid.uuid4()) for _ in docs]
child_text_splitter = RecursiveCharacterTextSplitter(chunk_size=400)
sub_docs = []
for i, doc in enumerate(docs):_id = doc_ids[i]_sub_docs = child_text_splitter.split_documents([doc])for _doc in _sub_docs:_doc.metadata[id_key] = _idsub_docs.extend(_sub_docs)
retriever.vectorstore.add_documents(sub_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))
retriever.vectorstore.similarity_search("justice breyer")[0]

自定义检索器需要：
在这里插入图片描述

from langchain_core.retrievers import BaseRetriever
class ToyRetriever(BaseRetriever):documents: List[Document]"""List of documents to retrieve from."""k: int"""Number of top results to return"""def _get_relevant_documents(self, query: str, *, run_manager: CallbackManagerForRetrieverRun) -> List[Document]:matching_documents = []for document in documents:if len(matching_documents) > self.k:return matching_documentsif query.lower() in document.page_content.lower():matching_documents.append(document)return matching_documentsretriever = ToyRetriever(documents=documents, k=3)
retriever.invoke("that")
await retriever.ainvoke("that")
retriever.batch(["dog", "cat"])
async for event in retriever.astream_events("bar", version="v1"):print(event)

5.5 基于metadata的结构化查询

下面是基于metadata的结构化查询例子，使用SelfQueryRetriever

from langchain_chroma import Chroma
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddingsdocs = [Document(page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose",metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"},),Document(page_content="Leo DiCaprio gets lost in a dream within a dream within a dream within a ...",metadata={"year": 2010, "director": "Christopher Nolan", "rating": 8.2},),Document(page_content="A psychologist / detective gets lost in a series of dreams within dreams within dreams and Inception reused the idea",metadata={"year": 2006, "director": "Satoshi Kon", "rating": 8.6},),Document(page_content="A bunch of normal-sized women are supremely wholesome and some men pine after them",metadata={"year": 2019, "director": "Greta Gerwig", "rating": 8.3},),Document(page_content="Toys come alive and have a blast doing so",metadata={"year": 1995, "genre": "animated"},),Document(page_content="Three men walk into the Zone, three men walk out of the Zone",metadata={"year": 1979,"director": "Andrei Tarkovsky","genre": "thriller","rating": 9.9,},),
]
vectorstore = Chroma.from_documents(docs, OpenAIEmbeddings())from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import ChatOpenAImetadata_field_info = [AttributeInfo(name="genre",description="The genre of the movie. One of ['science fiction', 'comedy', 'drama', 'thriller', 'romance', 'action', 'animated']",type="string",),AttributeInfo(name="year",description="The year the movie was released",type="integer",),AttributeInfo(name="director",description="The name of the movie director",type="string",),AttributeInfo(name="rating", description="A 1-10 rating for the movie", type="float"),
]
document_content_description = "Brief summary of a movie"
llm = ChatOpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(llm,vectorstore,document_content_description,metadata_field_info,
)retriever.invoke("I want to watch a movie rated higher than 8.5")

我们可以通过将 enable_limit=True来限制要获取的文档数量。

5.6 BM25检索

BM25 是一种基于词频和逆文档频率（TF-IDF）的传统检索算法，非常适合关键词匹配。我们使用 BM25Retriever.from_texts 方法来创建 BM25 检索器：

from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever
from langchain_community.vectorstores import FAISS
# 定义第一组文档，这些文档将用于 BM25 检索器
doc_list_1 = ["这是一个测试句子","温格高赢得了2023环法冠军","波士顿马拉松是历史悠久的一项比赛","何杰即将出战巴黎奥运会的马拉松项目","珍宝将不再赞助温格高所在的车队",
]# 定义第二组文档，这些文档将用于 FAISS 检索器
doc_list_2 = ["波加查擅长陡坡进攻，而温格高则更擅长长坡","温格高的最大摄氧量居然有97！","北京奥运会在2008年8月8日开幕","基普乔格是东京马拉松的金牌得主",
]
bm25_retriever = BM25Retriever.from_texts(doc_list_1, metadatas=[{"source": 1}] * len(doc_list_1)
)
bm25_retriever.k = 2  # 设置 BM25 检索器返回的文档数量
faiss_vectorstore = FAISS.from_texts(doc_list_2, embedding_function, metadatas=[{"source": 2}] * len(doc_list_2)
)
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})
ensemble_retriever = EnsembleRetriever(retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)
docs = ensemble_retriever.invoke("温格高")
print(docs)page_contents = [doc.page_content for doc in docs]
print(page_contents)

6. 结果压缩

上下文压缩检索器将查询传递给基础检索器，获取初始文档并将其传递给文档压缩器。文档压缩器接收文档列表，通过减少文档内容或完全删除文档来缩短列表。

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
compressor = LLMChainExtractor.from_llm(llm)
compression_retriever = ContextualCompressionRetriever(base_compressor=compressor, base_retriever=retriever)
compressed_docs = compression_retriever.invoke("Humans have inhabited this planet for how long?")

可以再加一个嵌入过滤器，通过对文档和查询进行嵌入，仅返回与查询具有足够相似嵌入的文档：

from langchain.retrievers.document_compressors import EmbeddingsFilter
embeddings_filter = EmbeddingsFilter(embeddings=embedding_function, similarity_threshold=0.6)
compression_retriever = ContextualCompressionRetriever(base_compressor=embeddings_filter, base_retriever=retriever)
compression_retriever.invoke("Humans have inhabited this planet for how long?")

使用文档压缩器管道，我们还可以轻松地将多个压缩器按顺序组合在一起：

from langchain.retrievers.document_compressors import DocumentCompressorPipeline
from langchain_community.document_transformers import EmbeddingsRedundantFilter
from langchain_text_splitters import CharacterTextSplittersplitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=0, separator=". ")
redundant_filter = EmbeddingsRedundantFilter(embeddings=embeddings)
relevant_filter = EmbeddingsFilter(embeddings=embeddings, similarity_threshold=0.76)
pipeline_compressor = DocumentCompressorPipeline(transformers=[splitter, redundant_filter, relevant_filter])
compression_retriever = ContextualCompressionRetriever(base_compressor=pipeline_compressor, base_retriever=retriever)compressed_docs = compression_retriever.invoke("What did the president say about Ketanji Jackson Brown")

深度学习系列78：使用langchain的api进行RAG

用起来很麻烦，看api的工夫都已经能自己写完代码了。但现在有些开源api用的是langchain的接口，还是了解一下。参考官方文档：https://www.langchain.com.cn/docs/how_to/ 1. LLM和langserve示例以openai接口为例，可以看到分为3步…...

编程日记 2025/8/27 5:21:56

海思Hi3516DV300交叉编译opencv

OpenCV是一个开源的跨平台计算机视觉库，支持C、Python等多种语言，适用于图像处理、目标检测、机器学习等任务。其核心由C编写，高效轻量，提供实时视觉处理功能，广泛应用于工业自动化、医疗影像等领域。 1 环境准备 1…...

编程日记 2025/8/23 13:33:44

责任链模式：优雅处理复杂流程的设计艺术

引言在软件设计中，我们经常会遇到需要按特定顺序处理请求的场景。例如，一个订单处理系统可能需要经过验证、付款、物流安排和客户通知等多个步骤。如果我们将这些步骤硬编码在一个方法中，代码将变得臃肿且难以维护。这时，责任链…...

编程日记 2025/8/23 23:59:41

【DeepSeek】5分钟快速实现本地化部署教程

一、快捷部署 （1）下载ds大模型安装助手，下载后直接点击快速安装即可。 https://file-cdn-deepseek.fanqiesoft.cn/deepseek/deepseek_28348_st.exe （2）打开软件，点击立即激活 （3）选…...

编程日记 2025/8/21 14:49:55

HTML前端手册

HTML前端手册记录前端框架在使用过程中遇到的各种问题和解决方案，供后续快速进行手册翻阅使用文章目录 HTML前端手册1-前端框架1-TypeScript框架2-CSS框架 2-前端Demo1-Html常用代码 2-知云接力3-Live2D平面动画 3-前端运维1-NPM版本管理 1-前端框架 1-TypeScrip…...

编程日记 2025/8/21 23:02:08

【uniapp】图片添加canvas水印

目录需求&背景实现地理位置添加水印 ios补充需求&背景需求：拍照后给图片添加水印, 水印包含经纬度、用户信息、公司logo等信息。效果图： 方案：使用canvas添加水印。具体实现：上传图片组件是项目里现有的&#xff…...

编程日记 2025/8/27 5:21:56

Java 大视界 -- Java 大数据在智能金融反欺诈中的技术实现与案例分析（114）

💖亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也…...

编程日记 2025/8/23 11:29:25

机器学习数学基础：43.外生变量与内生变量

外生变量与内生变量：模型中的因果角色在因果模型（像结构方程模型、回归分析这类）里，外生变量和内生变量是用来区分变量来源和相互关系的重要概念。下面从定义、实例、差异以及应用场景四个方面来详细介绍： 一、定义…...

编程日记 2025/8/26 14:56:19

Bean 的生命周期主要包括以下阶段：

Bean 的生命周期主要包括以下阶段： 定义 ：在配置文件或注解中定义 Bean，包括其类、作用域等信息。实例化 ：Spring 容器根据定义创建 Bean 的实例。属性赋值 ：容器为 Bean 设置配置的属性值。初始化 ：…...

编程日记 2025/8/16 12:28:12

Unity游戏开发中的网格简化与LOD技术(Mesh Simplification LOD)

在Unity游戏开发中，网格简化（Mesh Simplification）和LOD（Level of Detail）技术是优化渲染性能的关键手段，尤其在处理复杂场景和高精度模型时至关重要。以下是一套系统的实现方案与优化策略： 一、…...

编程日记 2025/8/25 21:17:10

3.7[Q]CV

对于一个由cmake构建的项目，什么时候应该执行cmake指令？什么时候执行make指令？即，一个cmake构建的项目，各步骤的意义是什么？当我修改了部分代码后，重启项目该执行什么命令？ view,mod…...

编程日记 2025/8/21 5:02:38

发行思考：全球热销榜的频繁变动

几点杂感： 1、单机游戏销量与在线人数的衰退是剧烈的，有明显的周期性，而在线游戏则稳定很多。如去年的某明星游戏，最高200多万在线，如今在线人数是48名，3万多。而近期热门的是MH，在线人数8…...

编程日记 2025/8/23 21:01:47

Springboot全局LocalDateTime时间格式化配置

我们对字段的日期格式化时一般会用注解: JsonFormat(pattern "yyyy-MM-dd HH:mm:ss", timezone "GMT8")private Date createDate;但是每个字段都要写也太麻烦了不是我的全局化作风在application.yml中配置全局时间格式化只会对Date类型有用: jackson:d…...

编程日记 2025/8/27 5:21:29

Redis主从复制

目录点单问题启动多个redis服务器配置主从结构查看主从结构信息断开主从结构修改主从结构主从复制的拓扑结构主从复制的基本流程全量复制和部分复制全量复制的流程部分复制的流程实时复制的流程主从复制总结主从复制是基于分布式系统进行讨论的&am…...

编程日记 2025/8/27 5:20:35

玩转python：掌握Python数据结构之栈Stack

栈（Stack）是计算机科学中一种非常基础且重要的数据结构。它的特点是后进先出（LIFO，Last In First Out），就像我们生活中叠盘子一样，最后放上去的盘子总是最先被拿走。本文将用通俗易懂的语言和丰…...

编程日记 2025/8/27 5:19:34

电脑如何拦截端口号，实现阻断访问？

如果你弟弟喜欢玩游戏，你可以查询该应用占用的端口，结合以下方法即可阻断端口号，让弟弟好好学习，天天向上！ 拦截端口可以通过防火墙和路由器进行拦截 ，以下是常用方法： 方法 1：使用…...

编程日记 2025/8/26 19:40:46

DeepSeek 医疗大模型微调实战讨论版（第一部分）

DeepSeek医疗大模型微调实战指南第一部分 DeepSeek 作为一款具有独特优势的大模型，在医疗领域展现出了巨大的应用潜力。它采用了先进的混合专家架构（MoE），能够根据输入数据的特性选择性激活部分专家，避免了不必要的计算，极大地提高了计算效率和模型精度。这种架构使得 …...

编程日记 2025/8/27 5:19:34

Apache Httpd 多后缀解析

目录 1.原因 2.环境 3.复现 4.防御 1.Apache Httpd 多后缀解析原因 Apache HTTP Server 在处理文件请求时，通常会根据文件的后缀来确定如何处理该文件。例如，.php文件会被交给 PHP 解释器处理，而.html文件则直接作为静态文件返回。然而…...

编程日记 2025/8/24 2:11:09

2025年03月07日Github流行趋势

项目名称：ai-hedge-fund 项目地址url：https://github.com/virattt/ai-hedge-fund项目语言：Python历史star数：12788今日star数：975项目维护者：virattt, seungwonme, KittatamSaisaard, andorsk, arsaboo项目…...

编程日记 2025/8/19 5:43:17

Jenkins在Windows上的使用（二）：自动拉取、打包、部署

（一）Jenkins全局配置访问部署好的Jenkins服务器网址localhost:8080，完成默认插件的安装后，接下来将使用SSH登录远程主机以实现自动化部署。 1. 配置插件选择dashboard->Manage Jenkins->plugins 安装下面两个插件　　…...

编程日记 2025/8/21 2:37:43

【JavaEE】-- 多线程（初阶）4

文章目录 8.多线程案例8.1 单例模式8.1.1 饿汉模式8.1.2 懒汉模式 8.2 阻塞队列8.2.1 什么是阻塞队列8.2.2 生产者消费者模型8.2.3 标准库中的阻塞队列8.2.4 阻塞队列的应用场景8.2.4.1 消息队列 8.2.5 异步操作8.2.5 自定义实现阻塞队列8.2.6 阻塞队列--生产者消费者模型 8.3 …...

编程日记 2025/8/20 8:58:55

测试直播postman+Jenkins所学

接口自动化什么是接口？本质上就是一个url，用于提供数据。后台程序提供一种数据地址，接口的数据一般是从数据库中查出来的。 postman自动化实操： 一般来说公司会给接口文档，如果没有，通过拦截&#xff0c…...

编程日记 2025/8/19 22:47:28

5人3小时复刻Manus？开源OpenManus项目全解剖，我的DeepSeek股票报告这样诞生

大家好，我是大 F，深耕AI算法十余年，互联网大厂技术岗。分享AI算法干货、技术心得。更多文章可关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！ OpenManus是什么 1. 项目背景 OpenManus 是由 MetaGPT 核心团队仅用 3 小时复刻而成的开源…...

编程日记 2025/8/22 14:06:32

【javaEE】多线程（基础）

1.❤️❤️前言~🥳🎉🎉🎉 Hello, Hello~ 亲爱的朋友们👋👋，这里是E绵绵呀✍️✍️。如果你喜欢这篇文章，请别吝啬你的点赞❤️❤️和收藏📖📖。如果你对我的…...

编程日记 2025/8/19 19:05:13

0.大模型开发知识点需求综述

文章目录一、机器学习与深度学习基础二、自然语言处理（NLP）基础三、大模型架构四、训练优化技术五、数据处理与预处理六、分布式训练与并行化策略七、微调方法与参数高效微调八、训练框架、工具与自动化流程九、评估与部署十、前沿技术与未来趋势已更新…...

编程日记 2025/8/23 19:41:35

WHAT - 前端阻塞场景梳理

目录前言场景梳理1. JavaScript 执行阻塞主线程场景优化思路具体代码示例1. 长时间运行的同步 JavaScript 代码2. 过多的主线程任务（如频繁的 setTimeout/setInterval）3. 未优化的第三方库或框架初始化逻辑总结 2. 样式计算与布局（Layout&am…...

编程日记 2025/8/22 15:29:53

微前端框架 Qiankun 的应用及问题分析

一、Qiankun 的核心应用场景与优势多技术栈共存与灵活集成 Qiankun 支持主应用与子应用使用不同技术栈（如 Vue、React、Angular 等），通过 HTML Entry 方式接入子应用，无需深度改造子应用即可实现集成，降低了技术迁移成…...

编程日记 2025/8/24 2:11:15

bash: uwsgi: 未找到命令

针对你提出的“bash: uwsgi: command not found”问题，以下是一些可能的解决方案，请按照步骤逐一排查： ‌1、检查uwsgi命令是否正确‌： 确保你输入的命令是uwsgi，而不是uWSGI或其他变体。 ‌2、确认uwsgi是否已安装‌&…...

编程日记 2025/8/22 20:58:52

HAL库，配置adc基本流程

1. 初始化阶段---cubemx (1) GPIO初始化函数：HAL_GPIO_Init() 作用：配置ADC引脚为模拟输入模式。代码示例： // 使能GPIOA时钟 __HAL_RCC_GPIOA_CLK_ENABLE();// 配置PA1为模拟输入 GPIO_InitTypeDef GPIO_InitStruct {0}; GPIO_InitStr…...

编程日记 2025/8/26 9:54:18

【Unity】 HTFramework框架（六十一）Project窗口文件夹锁定器

更新日期：2025年3月7日。 Github源码：[点我获取源码] Gitee源码：[点我获取源码] 索引 Project窗口文件夹锁定器框架文件夹锁定自定义文件夹锁定限制条件 Project窗口文件夹锁定器在Project窗口中，文件夹锁定器能够为任何文件夹加…...

编程日记 2025/8/25 23:04:19

网络安全技术整体架构一个中心三重防护

网络安全技术整体架构：一个中心三重防护在信息技术飞速发展的今天，网络安全的重要性日益凸显。为了保护信息系统不受各种安全威胁的侵害，网络安全技术整体架构应运而生。本文将详细介绍“一个中心三重防护”的概念，并结合代码示…...

编程日记 2025/8/25 14:21:34

《AJAX：前端异步交互的魔法指南》

什么是AJAX AJAX（Asynchronous JavaScript and XML，异步 JavaScript 和 XML） 是一种用于创建异步网页应用的技术，允许网页在不重新加载整个页面的情况下，与服务器交换数据并局部更新页面内容。尽管名称中包含 XML&…...

编程日记 2025/8/20 10:14:37

Elasticsearch 2025/3/7

高性能分布式搜索引擎。数据库模糊搜索比较慢，但用搜索引擎快多了。下面是一些搜索引擎排名 Lucene是一个Java语言的搜索引擎类库（一个工具包），apache公司的顶级项目。优势：易扩展、高性能（基于倒排索引…...

编程日记 2025/8/16 10:12:47

LLM论文笔记 19: On Limitations of the Transformer Architecture

Arxiv日期：2024.2.26机构：Columbia University / Google 关键词 Transformer架构幻觉问题数学谜题核心结论 1. Transformer 无法可靠地计算函数组合问题 2. Transformer 的计算能力受限于信息瓶颈 3. CoT 可以减少 Transformer 计算错误的概率&#x…...

编程日记 2025/8/20 23:10:56

那年周五放学

2025年3月7日，周五，天气晴，脑子一瞬间闪过02-05年中学期间某个周五下午，17:00即将放学的场景，那种激动，那种说不上的欣喜感，放学后，先走一段316国道，再走一段襄渝铁路&am…...

编程日记 2025/8/26 16:26:13

002-SpringCloud-OpenFeign(远程调用)

SpringCloud-OpenFeign 1.引入依赖2.编写一个远程调用接口3.测试 1.引入依赖 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign</artifactId> </dependency><dependencyManageme…...

编程日记 2025/8/24 22:19:30

SAP 顾问的五年职业规划

SAP 顾问的职业发展受到技术进步、企业需求变化和全球经济环境的影响，因此制定长远规划充满挑战。面对 SAP 产品路线图的不确定性，如向 S/4HANA 和 Business Technology Platform (BTP) 的转变，顾问必须具备灵活性，以保持竞争力和…...

编程日记 2025/8/27 0:41:51

Pandas使用stack和pivot实现数据透视

Pandas的stack和pivot实现数据透视经过统计得到多维度指标数据非常常见的统计场景，指定多个维度，计算聚合后的指标案例：统计得到“电影评分数据集”，每个月份的每个分数被评分多少次：（月份，分…...

编程日记 2025/8/24 15:50:28

图像生成-ICCV2019-SinGAN: Learning a Generative Model from a Single Natural Image

图像生成-ICCV2019-SinGAN: Learning a Generative Model from a Single Natural Image 文章目录图像生成-ICCV2019-SinGAN: Learning a Generative Model from a Single Natural Image主要创新点模型架构图生成器生成器源码判别器判别器源码损失函数需要源码讲解的私信我 S…...

编程日记 2025/8/22 21:40:49

c++ 操作符重载详解与示例

c 操作符重载详解与示例操作符重载详解一、基本规则二、必须作为成员函数重载的运算符1. 赋值运算符 2. 下标运算符 []3. 函数调用运算符 ()4. 成员访问运算符 ->5. 转型运算符三、通常作为非成员函数重载的运算符1. 算术运算符 2. 输入/输出运算符 << >> 四、…...

编程日记 2025/8/23 15:55:09

在Spring Boot项目中分层架构

常见的分层架构包括以下几层： 1. Domain 层（领域层）作用：领域层是业务逻辑的核心，包含与业务相关的实体类、枚举、值对象等。它是对业务领域的抽象，通常与数据库表结构直接映射。主要组件：实体类（Entity）：与数据库表对应的Java类，通常使用JPA或MyBatis等ORM框架…...

编程日记 2025/8/25 4:46:04

upload-labs详解（1-12）文件上传分析

目录 uploa-labs-main upload-labs-main第一关前端防御绕过前端防御禁用js Burpsuite抓包改包 upload-labs-main第二关上传测试错误类型 upload-labs-env upload-labs-env第三关上传测试查看源码解决方法重命名，上传 upload-labs-env第四关…...

编程日记 2025/8/22 13:31:30

无人机应用探索：玻纤增强复合材料的疲劳性能研究

随着无人机技术的快速发展，轻量化已成为其结构设计的核心需求。玻纤增强复合材料凭借高强度、低密度和优异的耐环境性能，成为无人机机身、旋翼支架等关键部件的理想选择。然而，无人机在服役过程中需应对复杂多变的环境：高空飞行时…...

编程日记 2025/8/22 4:52:32

计算机毕业设计Python+DeepSeek-R1大模型空气质量预测分析(源码+文档+PPT+讲解)

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 作者简介：Java领…...

编程日记 2025/8/24 21:58:58

【渗透测试】基于时间的盲注（Time-Based Blind SQL Injection）

发生ERROR日志告警查看系统日志如下： java.lang.IllegalArgumentException: Illegal character in query at index 203: https://api.weixin.qq.com/sns/jscode2session?access_token90_Vap5zo5UTJS4jbuvneMkyS1LHwHAgrofaX8bnIfW8EHXA71IRZwsqzJam9bo1m3zRcSrb…...

编程日记 2025/8/26 11:22:02

学习threejs，Animation、Core、CustomBlendingEquation、Renderer常量汇总

👨‍⚕️ 主页： gis分享者 👨‍⚕️ 感谢各位大佬点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏：threejs gis工程师文章目录一、🍀前言1.1 ☘️Animation常量汇总1.1.1 循…...

编程日记 2025/8/26 22:17:41

2、数据库的基础学习（中）：分组查询、连接查询有小例子

二、分组函数功能：用作统计使用，又称为聚合函数或者统计函数或组函数 1、分类： sum 求和、avg 平均值、max最大值、min 最小值、count 计算个数 2、参数支持哪些类型 Sum\avg 一般处理数值型数据 max、min 可以数值型也可以字符型…...

编程日记 2025/8/26 11:13:34

Ubuntu搭建最简单WEB服务器

安装apache2 sudo apt install apache2 检查状态 $ sudo systemctl status apache2 ● apache2.service - The Apache HTTP ServerLoaded: loaded (/lib/systemd/system/apache2.service; enabled; vendor prese>Active: active (running) since Thu 2025-03-06 09:51:10…...

编程日记 2025/8/25 9:41:07