国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

<span id="db1qt"></span>

<i id="db1qt"></i>

コミュニティ

學(xué)ぶ

ツールライブラリ

AIツール

レジャー

日本語

python - sklearnが大規(guī)模なデータセットをトレーニングする方法

typecho

typecho 2017-06-28 09:22:17

0

3

1241

質(zhì)問 1:

現(xiàn)在、400,000 個を超えるデータがあり、ある種の機(jī)械學(xué)習(xí)分類アルゴリズムを使用して、このデータのモデルを構(gòu)築する必要があります。私が直面した問題は、データが大きすぎてモデルを構(gòu)築できないことです。一度に読むことができるので、データの処理方法を知りたいですか?

＃＃＃質(zhì)問2：＃＃＃

sklearn 相互検証について質(zhì)問があります。10,000 個のトレーニングデータがある場合、これらの 10,000 個のトレーニングデータセットは、相互検証原理 (トレーニングデータ) に基づいて KFold メソッドを使用して n 個のトレーニンググループに分割できます。ここで理解できないのは、最初のグループのトレーニングセットを fit() してから、テストセットに対して予測検証を?qū)g行して予測精度を取得したことです。しかし、予測を取得することは何の役に立つのでしょうか?正確さ？次回のトレーニングに影響はありますか？また、最後にトレーニングされたモデルは次の fit() 関數(shù)で使用されますか?

typecho

typecho

Following the voice in heart.

全員に返信(3)

三叔2017-06-28 09:24:17 3棟

最近、ビッグデータのデータマイニングと分析について勉強(qiáng)しています。質(zhì)問1に関して、一度に読み込むことができないので、分散データモデルを構(gòu)築し、データをバッチで読み込んで判斷することができます。アドレスのdatanode（変數(shù)名でも可）、namenode（名前とアドレスに対応するテーブル）を作成し、データを取得する際には、まずnamenode內(nèi)のアドレス（どの変數(shù)がどのデータに対応しているのか）を確認(rèn)します。必要）を取得し、そのアドレスにアクセスしてデータを取得します。初心者なので、個人的な意見を述べているだけなので、參考程度にしてください。気に入らない場合は批判しないでください。

いいねを押す +0

返信を追加

僅有的幸福

僅有的幸福2017-06-28 09:24:17 2棟

400,000 は多くなく、せいぜい數(shù)ギガバイトです...
メモリが実際に 8G ほど小さい場合でも、たとえば、単純に tf-idf、1 つのジェネレーター、最後の tf のみをカウントするだけで、特定のシナリオに依存します。 -idf 辭書はメモリ內(nèi)にあります。

相互検証は、誤差が最も小さいものを選択することです。先ほど述べた影響の背後には、ブースティングの概念があります。

いいねを押す +0

返信を追加

僅有的幸福

僅有的幸福2017-06-28 09:24:17 1棟

この種の Q&A ウェブサイトでは、質(zhì)問が 1 つとピットが 1 つであることが最善であり、必要に応じて 2 つの別々の質(zhì)問を使用してリンクを接続し、二重構(gòu)造の質(zhì)問を避けることができます。

(1) 「速度を最適化する方法」を參照すると、(a) できるだけ単純なアルゴリズムを使用する (b) 実際の狀況に基づいてメモリ使用量と速度をプロファイリングするなど、実験を制御する多くの方法があることがわかります。 c) すべてのネストされたループを Numpy 配列に置き換えてみます。 (d) 必要に応じて Cython Wrapper を使用して、より効率的な C/C++ 関數(shù)ライブラリを調(diào)整します。これらは単なる基本的な原則と方向性です。実際には、コードを最適化した後、並列コンピューティングや他の方法を使用するかどうかは、操作したい問題のボトルネック分析に依存します。

(2) あなたの質(zhì)問は數(shù)學(xué)的要件と経験的要件を區(qū)別する必要があります。ここでの質(zhì)問と回答は非常に役立ちます。

いいねを押す +0

返信を追加

人気のトピック

詳細(xì)>

人気の記事

人気のチュートリアル

詳細(xì)>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細(xì)>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート

<label id="743hz"></label><label id="743hz"></label>

<i id="743hz"></i>