密検索用日本語資源構築

上保秀夫 @joho_hideo

#denseir_ja プロジェクト始まる。まずはMS MARCOの英日翻訳から。がんばろう。

2021-11-13 14:48:18

上保秀夫 @joho_hideo

#denseir_ja ASPECに申請した。先人の尽力に感謝。OpenNMTとfairseqのどちらがいいのか分からない・・・。アドバイスください。

2021-11-13 14:52:51

上保秀夫 @joho_hideo

#denseir_ja 部局から予算をつけていただいたので、密検索技術に焦点を当てた意見交換会（mini-SWIRJ）を計画中です。産官学ステークホルダーから日本語密検索研究開発やサービス展開に関する資源ニーズ・シーズをお伺いできると嬉しいです。まずは宣言まで。 twitter.com/joho_hideo/sta…

2021-11-13 15:07:05

上保秀夫 @joho_hideo

情報検索と推薦に関する戦略ワークショップ（SWIRJ：Strategic Workshop on Information Retrieval and Recommender Systems in Japan）の機運。産学の研究者とエンジニアの方々が楽しく真剣に今後の課題を議論できる場が欲しい。3日間ぐらいがっつりと。報告書も出す。 sites.google.com/view/swirl3/ho…

2021-07-16 15:09:12

上保秀夫 @joho_hideo

#denseir_ja 入手させていただいたASPECコーパスをsentencepieceでトークナイズして、openMNT-pyで訓練を開始するところまで到達。手持ちのGPUだと50ステップに40秒。20万ステップに160K秒。45時間か。@hcir_research メンバーからのサポートにも感謝しかない。

2021-11-15 20:20:16

上保秀夫 @joho_hideo

#denseir_ja でも停電でやり直し。しくしく。UPSに欠陥が見つかる。買い換えよう。

2021-11-16 11:30:48

上保秀夫 @joho_hideo

おぉA6000速い。2080tiの倍のスピードだ。きっと値段もそれぐらいの差なのだろう。

2021-11-17 20:25:48

上保秀夫 @joho_hideo

#denseir_ja ASPECのtrain-1.txt（1M文）を訓練データに使ったところ、最終ステップモデルがBLEU=30.78に到達。SentencePieceの語彙数は英日合計32K、その他訓練のハイパーパラメータは、OpenNMTのFAQにある値を使用。 opennmt.net/OpenNMT-py/FAQ…

2021-11-20 09:27:51

上保秀夫 @joho_hideo

#denseir_ja 現在、訓練データを1.5M文に増やして訓練中。その他パラメータに変更はないが、early_stoppingを有効にしたのと、保存step数を5000と小刻みにした（デフォルトは10000）。

2021-11-20 09:27:52

上保秀夫 @joho_hideo

#denseir_ja Best Checkpoint: 80000 steps, BLEU (SentencePiece): 32.67. 対1M訓練データ+9%くらいかな。一旦、この辺りで翻訳に入るべきか。特殊なことはしていないつもりだし。並行して、JparaCrawlでFine-tuningしたモデルも生成したい。元文書がウェブなので。比較評価は検索ベースかな。

2021-11-20 22:51:20

上保秀夫 @joho_hideo

#denseir_ja 並行してDeepLでの翻訳を開始。ir_datasetsの使い方も少しずつ分かってきた。 github.com/allenai/ir_dat…

2021-11-22 17:46:15

上保秀夫 @joho_hideo

#denseir_ja いよいよ訓練したNMTモデルでMS MARCOの翻訳を開始。1000文書に23秒かかっているので、完了までに56時間か。頑張ってくれa6000とその他の部品達よ。

2021-11-22 21:47:36

上保秀夫 @joho_hideo

#denseir_ja DeepLの方は翻訳にものすごい時間がかかることが判明したので、効率的なやり方を模索中。

2021-11-22 21:47:36

上保秀夫 @joho_hideo

#denseir_ja あぶない、あぶない。翻訳はパッセージ単位ではなくセンテンス単位で実行する必要があった。やり直し。今回は5000文書に3分かかっているので、処理時間は88時間か。頑張れ部品たち。

2021-11-23 15:19:10

上保秀夫 @joho_hideo

#denseir_ja train/judgedのクエリ翻訳も開始した。こちらは文を成していないキーワードのみの入力もあり、NMT翻訳器は苦戦している様子。妥当な事後処理を検討する必要がありそう。

2021-11-23 16:19:53

上保秀夫 @joho_hideo

#denseir_ja 100万文書の翻訳が完了した辺りで、翻訳用に分割したセンテンスの再結合処理にバグを発見した。やり直し・・・。これぞ大規模データ処理。

2021-11-24 19:04:14

上保秀夫 @joho_hideo

#denseir_ja train/judged, dev/judged, eval/small 各セットのクエリの翻訳が完了した。それぞれ50万件、5.5万件、6.8千件。例の文をなさないキーワード型クエリで発生する繰り返し翻訳は、同一トークンの出現頻度を2回までに制限することで対応した。別案求む。

2021-11-25 09:11:29

上保秀夫 @joho_hideo

#denseir_ja 一方で私のような素人がアドホックな後処理をしない方が良い気もしてきた。説明に注記を入れて、素の翻訳結果を含めようかな。後処理は各自の方針で行う。

2021-11-25 09:57:27

上保秀夫 @joho_hideo

#denseir_ja NMTによる文書翻訳は順調に進んでおり、およそ24時間経過した時点で220万件の翻訳が完了した。あと72時間。頑張れ、部品達。

2021-11-25 17:43:42

上保秀夫 @joho_hideo

#denseir_ja Deepl APIによる翻訳はクエリを先に行うことにした。1件の翻訳にかかる時間は実測でおよそ0.675秒。eval/smallが6.8K件で76分かかったので、dev/judgedは55K件でおよそ10時間、train/judgedは500K件でおよそ94時間かかる計算。

2021-11-26 10:44:26

上保秀夫 @joho_hideo

#denseir_ja 気になるお値段は、API利用料（月額利用料を除く）が2500円／1M字。eval/smallの合計文字数はおよそ225Kなので563円。クエリ平均文字数は33か。そうするとdev/judgedは4500円、train/judgedは41250円ぐらいか。やはり翻訳にかかる時間の方が問題。

2021-11-26 10:44:26

上保秀夫 @joho_hideo

#denseir_ja あなたの研究室は何のためにオンプレのKubernetesクラスターをお持ちなのですか、イメージ作成して分散処理しなさい、という声がどこからか聞こえてきた。

2021-11-26 12:23:44

上保秀夫 @joho_hideo

#denseir_ja NMTによるMS MARCOコーパス（v1）の翻訳第1弾が完了した。

2021-11-29 08:28:41

上保秀夫 @joho_hideo

#denseir_ja まずはPyseriniでBM25用に索引付け開始。

2021-11-29 19:47:16

上保秀夫 @joho_hideo

#denseir_ja 検索有効性を比較している間に、mMARCOで使われているNMTモデルで翻訳を開始。だが、420時間かかると言われている。420時間？さすがにUPSを使わないとダメか。