Added functions

mleming · mleming · commit 22e258332d6c · 2024-12-16T13:25:47.000-05:00
diff --git a/pyproject.toml b/pyproject.toml
@@ -2,7 +2,7 @@
 
 name = "general_class_balancer"
 
-version = "0.0.6"
+version = "0.0.7"
 
 dependencies = [
   "numpy>=1.22.0",
diff --git a/src/general_class_balancer/__init__.py b/src/general_class_balancer/__init__.py
@@ -1,3 +1,3 @@
 import importlib.metadata
 
-__version__ = "0.0.6" #importlib.metadata.version(__package__ or __name__)
+__version__ = "0.0.7" #importlib.metadata.version(__package__ or __name__)
diff --git a/src/general_class_balancer/general_class_balancer.py b/src/general_class_balancer/general_class_balancer.py
@@ -47,6 +47,37 @@ def is_nan(k,inc_null_str=False):
 		else:
 			return False
 
+def bucketize(arr,n_buckets):
+	non_arr_list = []
+	max_ = -np.Inf
+	min_ = np.Inf
+	for i in range(len(arr)):
+		if not is_nan(arr[i]):
+			if isinstance(arr[i],str): return arr
+			non_arr_list.append(arr[i])
+			if arr[i] > max_: max_ = arr[i]
+			if arr[i] < min_: min_ = arr[i]
+	bucketized_list = np.array(["NaN" for i in range(len(arr))],
+			dtype=np.dtype(object))
+	non_arr_list = sorted(non_arr_list)
+	skips = int(len(non_arr_list)/float(n_buckets)) + 1
+	buckets = np.array(non_arr_list[::skips])
+	range_dist=((np.arange(n_buckets)/float(n_buckets-1))*(max_-min_))+min_
+	while len(buckets) < n_buckets:
+		print(buckets)
+		buckets = np.array([buckets[0]] + list(buckets))
+	buckets = (range_dist + buckets) / 2
+	for i in range(len(arr)):
+		if not is_nan(arr[i]):
+			for j in range(len(buckets)-1):
+				if arr[i] > buckets[j] and \
+						arr[i] <= buckets[j+1]:
+					bucketized_list[i] = str(j)
+					break
+	return bucketized_list
+
+#
+
 # This method uses prime numbers to speed up datapoint matching. Each bucket
 # gets a prime number, and each datapoint is assigned a product of these primes.
 # These are then matched with one another.

Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,3 @@`
`1`	`1`	`import importlib.metadata`
`2`	`2`
`3`		`-__version__ = "0.0.6" #importlib.metadata.version(__package__ or __name__)`
	`3`	`+__version__ = "0.0.7" #importlib.metadata.version(__package__ or __name__)`