Merge pull request #356 from ruvnet/fix/large-dataset-training

fix: skip triplet JSON export for large datasets (>100K)
2026-04-03 09:37:30 -04:00 · 2026-04-03 09:37:30 -04:00 · aae01a2be8
parent 21fd7c84e2 828d0599d7
commit aae01a2be8
1 changed files with 7 additions and 3 deletions
--- a/scripts/train-ruvllm.js
+++ b/scripts/train-ruvllm.js
@ -1257,9 +1257,13 @@ async function main() {
  contrastiveResult.finalLoss = finalContrastiveLoss;
  contrastiveResult.improvement = contrastiveImprovement;

-  // Export contrastive training data
-  const contrastiveOutDir = contrastiveTrainer.exportTrainingData();
-  console.log(`  Training data exported to: ${contrastiveOutDir}`);
+  // Export contrastive training data (skip for large datasets to avoid JSON string limit)
+  if (contrastiveTrainer.getTripletCount() < 100000) {
+    const contrastiveOutDir = contrastiveTrainer.exportTrainingData();
+    console.log(`  Training data exported to: ${contrastiveOutDir}`);
+  } else {
+    console.log(`  Skipping triplet export (${contrastiveTrainer.getTripletCount()} triplets too large for JSON)`);
+  }

  // -----------------------------------------------------------------------
  // Phase 2: Task head training via TrainingPipeline