⸻ [DÉFI TECHNIQUE – SplitInBatches & Chunking dans workflow IA avec Pinecone]
Hello à tous, Je suis en train de bosser sur un agent IA basé sur un pipeline assez costaud (via n8n), avec de l’ingestion de documents, du chunking manuel (je ne passe pas par le splitter natif de Pinecone) et de la vectorisation dans Pinecone. Le truc, c’est que je veux garder la main sur la découpe (taille, overlap, structure sémantique, etc.) avant d’envoyer quoi que ce soit au vector store. Donc je fais le splitting moi-même, je nettoie les chunks, je les enrichis, je les reformule, etc. Jusque-là, tout va bien. Là où ça bloque, c’est que j’utilise un SplitInBatches pour traiter les chunks un par un dans n8n (batchSize = 1). Sauf qu’il ne traite qu’un seul chunk et ne passe jamais au suivant. Pourtant : • Les chunks sont bien présents (72 au total par exemple) • La boucle est censée se faire automatiquement une fois chaque batch traité • J’ai testé des boucles de retour, Merge, NoOp, etc. En plus, parfois, même un seul chunk se transforme en 10 items vides ou fragmentés en sortie, sans raison claire. Je soupçonne un mauvais comportement du traitement post-LLM ou un effet de bord au moment de la transformation du contenu. Je cherche : • Des retours d’expérience sur ce type de boucle SplitInBatches dans n8n (vous gérez comment la fin d’une boucle proprement ?) • Comment vous sécurisez le traitement d’un chunk unique sans explosion en plusieurs faux items ? • Et surtout, comment vous gérez la logique de “je veux chunker moi-même”, sans être parasité par les outils natifs ou des interprétations erronées dans la chaîne ? Merci d’avance aux bricoleurs du split et aux architectes de workflows costauds. J’adore creuser, donc balancez tout ce que vous avez : astuces, pièges, patterns intelligents.