YANSに参加してきました
YANS参加したよ!ってブログ書こうと思ったけど、24時間しか参加してないし夜はお酒飲みすぎて記憶が飛んでるから書けることがあんまりない
— でりひろ (@delihiros) 2015, 9月 5
大体上に書いてあるとおりなんですが、そういうわけにもいかないので絞り出しました。
YANSとはNLP若手の会の別名らしく、その名のとおり若い自然言語処理erが集まってワイワイ発表とかをする会です(たぶん)。
まずなんですけれど、これが初参加です。
実は昨年も参加登録して楽しみにしてたんですけど、そのときにインターンしていた研究所でのシンチョクが出ておらず、泣く泣くキャンセルしたという過去があります。
今回は他の学会と日程がかぶってしまったので、2日目から参加しました。
2日目のポスター発表でおもしろいなと思ったのは、機械翻訳向け前編集に有効な書き換えルールに関する調査でした。
機械翻訳の精度向上の手段の一つとして、原文が機械翻訳されやすい文を入力するというものがあります。 ただこの機械翻訳されやすい文というのが何なのか、またどうしたらそういった文を得られるかなどというのが分かっていなかったのですが、この研究はそれを調査しています。
手法自体はすごく地道で、英語、日本語どちらにも精通した被験者に文とそれに対応する機械翻訳結果を見せて、うまく機械翻訳されるまで意味が保たれる範囲で文を書き換えてもらう、というのを繰り返し行うものでした。
これによって得られた改変履歴から、どのような性質を持った文が機械翻訳されやすいかまで分析していてかっこいいなあと思いました。
この改変履歴を使って文の書き換えを自動で行えたりするとさらにおもしろそうだなあ…などと思って見てました。
夜になると旅館の一室が飲み会会場になり、お酒をグビグビ飲みました。結果、誰と飲んだのかすら、うっすらとしか覚えていません。
朝起きたらちゃんと自分の部屋で布団にくるまって寝ていたので本当によかったです。 なにか粗相をしてしまったのではないかとビクビクして一日過ごしましたので、お酒はほどほどにがいいですね…。
3日目にポスター発表を行いました。 僕の発表は自然言語からプログラミング言語のソースコードを生成する手法についての検討で、奨励賞をいただきました。 僕の発表と同じ時間に発表されていたいくつかのおもしろそうな発表が見れなかったのは残念です。
金沢駅でラーメンを食べて帰りました。
「迷子になったら動くな」を検証してみた
今日友達とホームセンターに行ったら迷子になってしまった。
いや、はぐれちゃっただけなんだけど、僕は携帯を持ってなかったし、この年で迷子センターに行くのもなーってことでしばらくウロウロして探した。
そこでふと幼い頃「迷子になったらそこから動くな、探される方がウロウロしてしまうと見つけにくくなるから」とママンに言われたのを思い出したんだけど、これって本当だろうかと思って検証してみた。
コードはgistにある。
動作させるとこんな感じ。
迷子になったホームセンターを模したマップを作って、それに対して人を2人だけ用意してランダムに配置し、見つけられるまでに行動した回数をカウントする。
「双方動いた場合」っていうのと「ママンだけが動いた場合」っていう2つの状況を100,000回ずつ試して、その行動回数の分布を見てみる。
このシミュレーションでは、ひとはステップごとに移動と向きを変えることができて、向いている方向に対象の人がいたら見つけたことになる。
結果はこんな感じ。 横軸が試行回数、縦軸がその試行回数で発見できた回数。 試行回数の最高値は16,811なんだけど、双方動いた場合の最高値は1,995なのでこのグラフは全体の一部だけの表示。
双方動いたときの平均試行回数が131.15286であるのに対し、動かなかったときの平均回数が536.75194。 ちなみに分散はそれぞれ27,592.7712938と692,246.087266。
双方動いたほうが圧倒的に早い!!!!!!!!!!
真面目に考察するなら、「ここにはいなかったからきっとあっちだ」っていう予想をAIがするようになれば、移動しないほうが探索回数の上限が決まるので早いと思う。
無限の大きさを持つホームセンターならどうなるんだろう。
簡単に人の顔に泥を塗る方法
僕は人の顔に泥を塗るのを得意とするのですが、泥を塗るのにも労力がかかるんですよ。 なので常日頃からこの作業を自動化できないかと思っていたので、論文の息抜きにやってみました。
import sys, cv2, random imagefilename = sys.argv[1] image = cv2.imread(imagefilename) gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) gray = cv2.equalizeHist(gray) faceCascade = cv2.CascadeClassifier("./lbpcascade_animeface.xml") faces = faceCascade.detectMultiScale(gray) for (x, y, w, h) in faces: points = [] for i in range(1, 8): points.append((x+x/4+random.randint(-w/20,w/20), y+i*h/8+random.randint(-h/20,h/20))) points.append((x+w-x/4+random.randint(-w/20,w/20), y+i*h/8+random.randint(-h/20,h/20))) for i in range(1, len(points)): cv2.line(image, points[i-1], points[i], (64, 122, 170), 40) cv2.imwrite("mud_"+imagefilename, image)
これであなたも人の顔に泥をぬれる!!!!!!!!
※lbpcascade_animeface.xml
はこちらからいただきました。
大学のメールアドレスにスパムメールが届いた人へ
おはようございます。
昨日酔った勢いでスパムメールを書いてしまいました。
大学のメアド宛にこんなメールが pic.twitter.com/7CI1v45l3k
— Shunichi (@FreeForAll_FAL) 2014, 9月 3
今は公開している。
そもそもなぜこんなことをしたかというと、大学からフィッシングメールに対する注意勧告のメールが来たので、ちょっとしたジョークということで試してみました。
送った先は冗談のわかってくれそうな教員方数名と生成した学籍番号全員です。
もし迷惑であると感じたなら 大変申し訳ございませんでした。 delihiros@gmail.com までご連絡ください。申し訳ねぇ!くらいは謝罪させていただきます。
本当は以前諸事情で手に入れた全学生のメールアドレスのリストを使おうと思っていたのですが、データがどこかに行ってしまっていて(多分大学の研究室に置きっぱなしのPCの中)、仕方がないのでリストを生成することにしました。
大学のメールアドレスは基本的には以下の構造をしています。
年度番号 学部アルファベット(工学部の場合T) 学科番号(情報工学科の場合5) 3桁の学籍番号 アルファベット
最後のアルファベットはチェックディジットのようなもので、ISBNのような計算式で求めることができます。以前式を求めたのですが、そのメモも見つからなかったし考えるのも面倒だったので、アルファベット総当りする実装になっています。
gmailの仕様として、一定時間内に多くのログインがされるとメールが出せなくなったり、1日に遅れるメールの数に制限があったりするので、Thread/sleepなんかを入れています。
実際に送ったのは教員の方々と11年度生のみです。
ちなみになぜこの記事を書いているのかというと、朝起きたら酔いが冷めていたからです。
大変申し訳ございませんでした。
東京大学大学院情報理工学系研究科合格しました
無事合格しました。
関係者の皆様、特に研究室のメンバーとアルバイト先の方々、ありがとうございました。
入学した場合は創造情報学専攻の千葉研究室でプログラミング言語の研究などをすると思います。
先月NAISTの窓口に問い合わせたところ、悩む猶予をいただけるとの事だったので、できるだけ早くどちらに入学するかを決めたいと思います。
試験はTOEFLの提出、実技(プログラミング)または数学、筆記試験、面接という感じです。
以下は参考にした本です(といっても一冊しかないのですが……)。
過去問を見た限りだと広い範囲が出題されそうだったので、過去問を解きつつこれをパラパラと見て、ちょいちょい何かを実装して、……という感じで対策?しました。
ピンチだったのはTOEFLで、6月半ばに$200の受験料を払ってTOEFLを受験しにわざわざ新潟まで行ってきたんですが、試験終了後のダイアログメッセージをよく読まずキャンセルボタンを押してしまいました。 これ実は「試験の結果自体をキャンセルしますか」というメッセージだったらしく、$200が泡になる+TOEFL提出が間に合わなくなる事態に陥りました。 結局東京大学で受験できるTOEFL iBTを受験し事なきを得ました。
試験結果をキャンセルしたいひとなんているわけないでしょ!!!
僕は数学ダメマンなので迷わず実技を選びました。 プログラミングコンテストのような問題が出題されたので、Clojureでちまちま解きました(言語自由)。 REPLで出力結果を確認しながら解けるし、全探索書いてもそこそこ速いし、core.match強力だし、なによりメモリ管理気にしなくていいのでこういう試験には便利です。
筆記は全部解けたんじゃないかと思います。 距離測定器について述べよ的な問題が出たのですが、うちの研究室はレーザー屋なので楽勝でした。
面接はやたら早く終わったから落ちたかと思った。
あと苦労したことは合格発表ですね。 書類には掲示板に合否を貼りだすと書いてあったのですが、掲示板どこだよまじファック。 警備員のおじさんに聞いたら本部へ行けと言われたので本部棟に向かったら、本部棟2号へ行けと言われ、本部棟2号のおばさんには「私は知らないですね、管轄じゃないです」みたいなこと言われた。
結局研究科の入試課に問い合わせました。最初からそうすればよかった。
NAIST合格しました
奈良先端科学技術大学院大学情報科学研究科に合格しました。
みなさんには大変お世話になりました。ありがとうございました。
僕は言語処理とかに興味があったのですが、うちの大学ではそのへんを扱っている研究室はなかったので外部の院を探していたところ、NAISTの中村研究室が面白そうだと知って受験しました。
試験は数学、英語(TOEICまたはTOEFL)、面接です。また出願時に小論文を提出します。
小論文は提出期限当日の昼に慌てて書き始めたので、ひどいものでした。 しかし友人と教員が真っ青になりながら深夜まで添削を重ねてくれたおかげで、かなりまともなものになりました。
当日消印有効だったのですが、小論文をイチから書きなおしたりしたため、日付の変わる頃に郵便局に駆け込むなどというギリギリの世界を楽しみました。
数学の過去問は有志の方々が公開されているものがあるので、それを一つの目安として以下の参考書に取り組みました。試験一週間前になるまで出題範囲を勘違いしていたので、実質的な勉強時間はあまりありませんでした。受験される方は、お気をつけ下さい(?)
ちなみに微分積分は大学一年生のときに勉強した程度で、完全に忘れていたので結構ピンチでした。
基本的にはやさしいシリーズをざっと解いて、友人に教えてもらいつつ大学院への数学で出題範囲の演習をしていました。
やさしく学べるシリーズは1日あれば一周できるので本当に役に立ちます。
- 作者: 石村園子
- 出版社/メーカー: 共立出版
- 発売日: 1999/12/01
- メディア: 単行本
- 購入: 6人 クリック: 145回
- この商品を含むブログ (17件) を見る
- 作者: 石村園子
- 出版社/メーカー: 共立出版
- 発売日: 2003/11/15
- メディア: 単行本
- 購入: 1人 クリック: 37回
- この商品を含むブログ (15件) を見る
- 作者: 石村園子
- 出版社/メーカー: 共立出版
- 発売日: 2000/10/25
- メディア: 単行本
- 購入: 8人 クリック: 64回
- この商品を含むブログ (15件) を見る
- 作者: 平岡和幸,堀玄
- 出版社/メーカー: オーム社
- 発売日: 2004/10/01
- メディア: 単行本
- 購入: 27人 クリック: 278回
- この商品を含むブログ (90件) を見る
- 作者: 東京図書編集部
- 出版社/メーカー: 東京図書
- 発売日: 1992/06
- メディア: 単行本
- 購入: 3人 クリック: 18回
- この商品を含むブログ (11件) を見る
TOEICは875点だったので、あんまり心配はしていなかったです。
友人たちにおんぶにだっこな人間性がかいま見える大学院受験となりましたが、これから精進していきたいと思います、うんぬんかんぬん。