Jak używać XGboost.cv z optymalizacją hiperparametrów?

Klausos

2015-11-28 16:42:18 UTC

view on stackexchange narkive permalink

Chcę zoptymalizować hiperparametry XGboost za pomocą krzyżowej walidacji. Jednak nie jest jasne, jak uzyskać model z xgb.cv . Na przykład dzwonię do objective (params) z fmin . Następnie model jest zakładany na dtrain i sprawdzany na dvalid . Co jeśli chcę użyć krzyżowej walidacji KFold zamiast uczenia się na dtrain?

  z hyperopt import fmin, tpeimport xgboost as xgbparams = {'n_estimators': hp.quniform ( 'n_estimators', 100, 1000, 1), 'eta': hp.quniform ('eta', 0,025, 0,5, 0,025), 'max_depth': hp.quniform ('max_depth', 1, 13, 1) #. ..} best = fmin (objective, space = params, algo = tpe.suggest) def goal (params): dtrain = xgb.DMatrix (X_train, label = y_train) dvalid = xgb.DMatrix (X_valid, label = y_valid) watchlist = [(dtrain, 'train'), (dvalid, 'eval')] model = xgb.train (params, dtrain, num_boost_round, evals = watchlist, feval = myFunc) # xgb.cv (param, dtrain, num_boost_round, nfold = 5, seed = 0, # feval = myFunc)

from scipy import stats from xgboost import XGBClassifierfrom sklearn.model_selection import RandomizedSearchCV, KFoldfrom sklearn.metrics import f1_scoreclf_xgb = XGBClassifier (objective = 'b : logistic ') param_dist = {' n_estimators ': stats.randint (150, 500),' learning_rate ': stats.uniform (0,01, 0,07),' subsample ': stats.uniform (0,3, 0,7),' max_depth ': [3, 4, 5, 6, 7, 8, 9], „colsample_bytree”: stats.uniform (0,5, 0,45), „min_child_weight”: [1, 2, 3]} clf = RandomizedSearchCV (clf_xgb, param_distributions = param_dist , n_iter = 25, scoring = 'f1', error_score = 0, verbose = 3, n_jobs = -1) numFolds = 5folds = KFold (n_splits = numFolds, shuffle = Tr ue) estymatory = [] wyniki = np.zeros (len (X)) wynik = 0,0 dla train_index, test_index in folds.split (X): X_train, X_test = X.iloc [train_index ,:], X.iloc [test_index ,:] y_train, y_test = y.iloc [train_index] .values.ravel (), y.iloc [test_index] .values.ravel () clf.fit (X_train, y_train) estymatory.append (clf.best_estimator_) [ test_index] = clf.predict (X_test) score + = f1_score (y_test, results [test_index]) score / = numFolds