perf: dataset import params code (#4875)

* perf: dataset import params code * perf: api dataset code * model
2025-05-23 10:40:25 +08:00
parent 9af92d1eae
commit fae76e887a
23 changed files with 366 additions and 295 deletions
--- a/packages/service/core/dataset/collection/controller.ts
+++ b/packages/service/core/dataset/collection/controller.ts
@@ -74,6 +74,15 @@ export const createCollectionAndInsertData = async ({
    llmModel: getLLMModel(dataset.agentModel)
  });
  const chunkSplitter = computeChunkSplitter(createCollectionParams);
+  if (trainingType === DatasetCollectionDataProcessModeEnum.qa) {
+    delete createCollectionParams.chunkTriggerType;
+    delete createCollectionParams.chunkTriggerMinSize;
+    delete createCollectionParams.dataEnhanceCollectionName;
+    delete createCollectionParams.imageIndex;
+    delete createCollectionParams.autoIndexes;
+    delete createCollectionParams.indexSize;
+    delete createCollectionParams.qaPrompt;
+  }

  // 1. split chunks
  const chunks = rawText2Chunks({
--- a/packages/service/core/dataset/read.ts
+++ b/packages/service/core/dataset/read.ts
@@ -163,7 +163,7 @@ export const readApiServerFileContent = async ({
  title?: string;
  rawText: string;
 }> => {
-  const data = (
+  return (
    await getApiDatasetRequest({
      apiServer,
      yuqueServer,
@@ -175,10 +175,6 @@ export const readApiServerFileContent = async ({
    apiFileId,
    customPdfParse
  });
-  if (data) {
-    return data;
-  }
-  return Promise.reject(Error);
 };

 export const rawText2Chunks = ({
--- a/packages/service/core/dataset/schema.ts
+++ b/packages/service/core/dataset/schema.ts
@@ -1,10 +1,12 @@
 import { getMongoModel, Schema } from '../../common/mongo';
 import {
  ChunkSettingModeEnum,
+  ChunkTriggerConfigTypeEnum,
  DataChunkSplitModeEnum,
  DatasetCollectionDataProcessModeEnum,
  DatasetTypeEnum,
-  DatasetTypeMap
+  DatasetTypeMap,
+  ParagraphChunkAIModeEnum
 } from '@fastgpt/global/core/dataset/constants';
 import {
  TeamCollectionName,
@@ -15,12 +17,22 @@ import type { DatasetSchemaType } from '@fastgpt/global/core/dataset/type.d';
 export const DatasetCollectionName = 'datasets';

 export const ChunkSettings = {
-  imageIndex: Boolean,
-  autoIndexes: Boolean,
  trainingType: {
    type: String,
    enum: Object.values(DatasetCollectionDataProcessModeEnum)
  },
+
+  chunkTriggerType: {
+    type: String,
+    enum: Object.values(ChunkTriggerConfigTypeEnum)
+  },
+  chunkTriggerMinSize: Number,
+
+  dataEnhanceCollectionName: Boolean,
+
+  imageIndex: Boolean,
+  autoIndexes: Boolean,
+
  chunkSettingMode: {
    type: String,
    enum: Object.values(ChunkSettingModeEnum)
@@ -29,6 +41,13 @@ export const ChunkSettings = {
    type: String,
    enum: Object.values(DataChunkSplitModeEnum)
  },
+  paragraphChunkAIMode: {
+    type: String,
+    enum: Object.values(ParagraphChunkAIModeEnum)
+  },
+  paragraphChunkDeep: Number,
+  paragraphChunkMinSize: Number,
+  paragraphChunkMaxSize: Number,
  chunkSize: Number,
  chunkSplitter: String,

@@ -115,9 +134,7 @@ const DatasetSchema = new Schema({

  // abandoned
  autoSync: Boolean,
-  externalReadUrl: {
-    type: String
-  },
+  externalReadUrl: String,
  defaultPermission: Number
 });