質(zhì)問 1:
###質(zhì)問2:### sklearn 相互検証について質(zhì)問があります。10,000 個のトレーニング データがある場合、これらの 10,000 個のトレーニング データ セットは、相互検証原理 (トレーニング データ) に基づいて KFold メソッドを使用して n 個のトレーニング グループに分割できます。ここで理解できないのは、最初のグループのトレーニング セットを fit() してから、テスト セットに対して予測検証を?qū)g行して予測精度を取得したことです。しかし、予測を取得することは何の役に立つのでしょうか?正確さ?次回のトレーニングに影響はありますか?また、最後にトレーニングされたモデルは次の fit() 関數(shù)で使用されますか?現(xiàn)在、400,000 個を超えるデータがあり、ある種の機(jī)械學(xué)習(xí)分類アルゴリズムを使用して、このデータのモデルを構(gòu)築する必要があります。私が直面した問題は、データが大きすぎてモデルを構(gòu)築できないことです。一度に読むことができるので、データの処理方法を知りたいですか?
Following the voice in heart.
最近、ビッグデータのデータマイニングと分析について勉強(qiáng)しています。質(zhì)問1に関して、一度に読み込むことができないので、分散データモデルを構(gòu)築し、データをバッチで読み込んで判斷することができます。アドレスのdatanode(変數(shù)名でも可)、namenode(名前とアドレスに対応するテーブル)を作成し、データを取得する際には、まずnamenode內(nèi)のアドレス(どの変數(shù)がどのデータに対応しているのか)を確認(rèn)します。必要)を取得し、そのアドレスにアクセスしてデータを取得します。初心者なので、個人的な意見を述べているだけなので、參考程度にしてください。気に入らない場合は批判しないでください。
400,000 は多くなく、せいぜい數(shù)ギガバイトです...
メモリが実際に 8G ほど小さい場合でも、たとえば、単純に tf-idf、1 つのジェネレーター、最後の tf のみをカウントするだけで、特定のシナリオに依存します。 -idf 辭書はメモリ內(nèi)にあります。
相互検証は、誤差が最も小さいものを選択することです。先ほど述べた影響の背後には、ブースティングの概念があります。
この種の Q&A ウェブサイトでは、質(zhì)問が 1 つとピットが 1 つであることが最善であり、必要に応じて 2 つの別々の質(zhì)問を使用してリンクを接続し、二重構(gòu)造の質(zhì)問を避けることができます。
(1) 「速度を最適化する方法」を參照すると、(a) できるだけ単純なアルゴリズムを使用する (b) 実際の狀況に基づいてメモリ使用量と速度をプロファイリングするなど、実験を制御する多くの方法があることがわかります。 c) すべてのネストされたループを Numpy 配列に置き換えてみます。 (d) 必要に応じて Cython Wrapper を使用して、より効率的な C/C++ 関數(shù)ライブラリを調(diào)整します。これらは単なる基本的な原則と方向性です。実際には、コードを最適化した後、並列コンピューティングや他の方法を使用するかどうかは、操作したい問題のボトルネック分析に依存します。(2) あなたの質(zhì)問は數(shù)學(xué)的要件と経験的要件を區(qū)別する必要があります。ここでの質(zhì)問と回答は非常に役立ちます。