画像検索の新技術

グーグル、画像検索の新技術「VisualRank」の詳細を公開
 気になったので、メモ。最近はこの手の仕事してないけどね orz
第1に、ウェブ上にあるすべての画像の類似性測度を判定することは、計算のための費用が高くつく。概算の利用や代替の計算手法が求められている。第2 に、代替のクラスタリング手法が最近たくさん提案されているが、これらとわれわれのアプローチを比較評価したいと考えている。
 この辺は、理解が簡単。
純粋に画像情報を元に計算すると、計算量が増えるので、擬似的にそれらを計算する方法を考えて、計算量を減らすという事。
 そういう方法はgoogle以外も多く発明しているので、他の発明と比較するという事。
 で、問題は以下。
第3に、PageRankの多くのバリエーションは、非常に興味深い方法で画像検索に応用できる。たとえば、これまでに発表されたこうした手法の一部を利用して、 VisualRankのアルゴリズムが削除したテキスト情報を意味に応じて再び挿入することができる
 特に太字の部分が良く分からんです。しょうがないので、後で元記事論文に目を通す事にします。

googleの広告改善:タスクベースweb広告

 一時期、googleのアフェリエイトをやっていたんですが、やめました。
 なぜかといえば折角、広告がないページを借りて、自分が広告を入れて読みづらくしてどうするんだ、と言う素朴な自己突込みゆえです。
 アフェリエイトを止めた時に、Amazonのアソシエイトも止めたんですが、本の紹介などをやると、残しても良かったかなと、少し後悔があります(笑)
 ただし、見栄えの好き嫌いはあっても、この手の技術に興味があるのは事実。
グーグル製品管理担当バイスプレジデント、広告戦略を語る
Googleはこの数週間、1セッションにおける複数検索に基づいたターゲット別広告について、その方法をテスト中であるという。
 これは面白いですね。
行動分析型ターゲット広告の簡単な形式とみなすことのできるものである。Wojcicki氏は、例えば「イタリアのバケーション」や「天気」を検索した人には、イタリアの天気に関連する広告を提供することができると述べた。
 成る程。
 連続して行った検索履歴を文脈的に判断して処理する方法ですね。
 これはちょっといいかもしれません。
 同氏は、行動分析型ターゲット広告とは異なり、データが保存されたり記憶されたりすることはないとすぐに付け加えた。行動分析型ターゲット広告とは、ユーザーのオンライン活動に基づいた広告を提供するもので、ライバル企業であるYahooやMicrosoftが実験しているものである。同氏は、「われわれはユーザーのプライバシーを大切にしたいと考えており、現時点ではタスクベースの情報が、ユーザーの検索活動に最も関連性が高いと信じている」と述べた。「2週間前に自動車を購入したいと思って、実際に購入した人は、今日になっても自動車の広告を見たいとは思わないだろう」
 最近は、どうにもちょっと元気の無く見えてしまうgoogleですが、YahooやらMicrosoftに対抗すべく頑張っていますね。
 興味があるのでのでメモしておきます。

質の高い検索結果自体は、もはやありふれている

今年一番の痛烈なせりふかもしれないと思ったので、メモ。
グーグル独占にはさせない-- 創設者が挑む、オープンソース検索エンジンの世界

 ポストgoogleの争いは熾烈を極めています。
今のところgoogleが先頭なのは間違いないですが、これはいつどうやってひっくり返るか分からないと感じています。
最大ポイントは、データセンターと言う物理制約の突破を成し遂げるのは何処か、と思っていたのですが…。

質の高い検索結果自体は、もはやありふれています。ですから、我々の強みは「透明性がある」というブランドイメージです。これにより、より多くのトラフィックを集めたいと考えています。


質の高い検索結果自体は、もはやありふれています

…ソフト開発屋には痛すぎる台詞です(笑
痛いと感じると言うことは、きっと的を得た内容なのだとも直感します。

wikipedia発のサーチエンジンをもう少し注視していきたいと思います。

情報戦争と弁護士のお仕事

[ 株式日記と経済展望 ]より「元慰安婦に米国で日本政府を相手どって訴訟を起こさせ、勝訴して日本政府から補償金をせしめられれば、弁護士は儲かる。

情報の信頼性は低いと思いますが、こういう予想もありますと言うことで、メモ。
むしろコラム子が思うに、米国の弁護士連中が、慰安婦をネタに日本政府を相手どった訴訟を起こせるような環境を整えようとしているのだと思う。

 米国では日本軍に虐待された(とされる)捕虜への個別補償を求める訴訟が、いっときブームだった。 米国の弁護士連中は、騒げば日本政府からカネがふんだくれるかもしれないと、博打(ばくち)を打ったのだ。

単純にこれだけではないでしょうが、中国・朝鮮が日本に仕掛けた情報戦争に上記の観点で一枚噛んでいる、という見方はそれ程うがった見方ではないように思えます。

新技術に対する世の中の見方の類型

 インターネット創成期に、ネット上で爆薬の作り方を調べられるのは危険だと言う話がありましたが、これもその類型でしょう。

グーグルと英軍、テロリストによるGoogle Earthの利用について協議

Daily Telegraphのサイトに掲載された記事によると、制圧したテロリスト宅で押収した書類の中にGoogle Earthから取り出した画像のプリントアウトがあり、建物、テント、便所、軽装甲車両などが写っていたという。ある画像の裏には、Staffordshire Regimentの兵士1000人が配置されたShatt Al Arab Hotelの正確な緯度と経度が書き込まれていた、と記事は述べている。

 Royal Green Jackets部隊のインテリジェンスオフィサーは「英軍の見解では、これはテロリストが攻撃を計画していた証拠だ。テロリストは、テントなど防御の弱い場所を特定するためにGoogle Earthを利用しているのだと考えている」と述べた。


 振り込め詐欺マニュアルのように、「今後もgoogle earthを利用できるようにするため、google erathを利用した痕跡は必ず消す事」などと書いてあれば笑う。

Basra Palace基地を拠点とするRoyal Green Jacketsの兵士たちは、Google Earthの航空写真を利用した攻撃によって負傷者が出た場合、Googleの告訴を検討するだろうと話した。


 自爆テロで使われた車などに関しては、自動車会社を告訴しないのに、情報検索会社は告訴する不思議(笑

以上です。

検索技術の恩恵

グーグルが奪う「本質を考える力」

 何時も思うが、新しい技術が生まれると旧来勢力がその技術を「●●を壊す」「●●を奪う」と言う。
しかし、いつの時代もどんな道具も、「●●を壊す」のも、「●●を奪う」のも、その道具を利用して人間が行うことであり、その技術なり道具なりが悪いわけではない。

 この記事のgoogleも一緒。googleに代表されるweb検索エンジンを使えば、家にいながらにしてwebサイト上の情報の概略やそこまでのパスを簡単に見つけられる。

 本当は、集めた情報を元に検討し、考察し、結論を得る必要がある。しかし、それが出来るまでに訓練できている人は少ない。したがって、今まで「集められもしなかった」人が「集められるようになった」ため、集められもしなかった人が集める所までは出来るようになった、と言うだけ。人はもともと無能で、現在ことさら無能になったわけではないんであろうね。

 検索技術の恩恵は、誰もが受ける。

・分析できる能力を持つ人は、収集にかける時間を短縮できる。
・分析できない人は、とりあえず集めるところまで出来るようになる。

 ただそれだけ、と。
あと、探しやすくなると、自分が後で利用するために情報を残しておこうとする人が増えるので、万人にためになりやすいと言うメリットもありそう。
以上、雑感。

歌詞を無料閲覧

 気になるニュース発見。
某著作権ヤクザ団体にいくら払っているのだろうか。
また、その金額は著作権者に分配されるのだろうか?

4万9,000曲の歌詞を無料閲覧、goo 音楽でサービス開始

 少し追跡調査をしてみよう…。
http://help.goo.ne.jp/info/detail/892/
有限会社ページワンが運営する「歌ネット」の協力を得ているようですね。

NTT レゾナント株式会社は15日、インターネットポータルサイト「goo」で提供中の音楽情報サイト「goo 音楽」にて、歌詞の検索および閲覧ができるサービスを提供開始した。


 15日から出来ていたのか。
気付かなかった。

google特許検索、起動

いずれ来るだろうと思っていましたが、やはり来ました。
googleによる特許検索サイトです。
彼らの最も得意とするテキスト分析フィールドですので、やはり出来もいいですね。

グーグル、特許検索サイト「Google Patent Search」を公開

米国時間12月13日夜にベータ版としてサービスが開始された特許検索用の同サイトでは、およそ700万件におよぶ米国の特許を、出願日や発行日、特許番号や考案者などのさまざまな条件で調べることができる。


 7M件×10KBとして、およそ70GBのテキストなら、割と余裕のようですね。
ヒットしやすいターム(computerなどのターム)を入力すると、1250件前後ヒット件数で止まるみたいなので(本当はもっと多いハズ)、まだ開発中の要素は多そうですね。

 すごい点は、特別なプラグインを使わずにきれいな特許画像を表示して見せるところかも。

 あと、19世紀に書かれた特許もヒットするね。少し感動しました(笑

また、現時点では海外の特許や2006年半ば以降に発行された特許は検索できないが、現在はこれらをサイトに追加する作業を進めているところだとGoogleは述べた。


 三極対応は流行りだし、US特許(アメリカ)だけでなく、ヨーロッパ、日本にも必ず近いうちに対応してくるでしょう。

 特許検索サービスは、割といろいろある分野なので業界再編が進みそうですね。私も身の振り方を考える必要が出るかもしれません(笑

検索サーバーの国内設置可能に向けた著作権法改正の動き

 ひどい風邪を引いて、3日寝込んで、そのあと3日たちますが、まだまだマスクが手放せません。
…喉が痛い。

 ところで、個人的には朗報なので下記ニュースをメモ。
新聞社の記事なのですぐ消されてしまうと予想されます。
そのため、全文をメモもします。

検索サーバー:国内に設置 実現へ著作権法改正方針
 政府は9日、インターネットの検索サービスに使うサーバーコンピューターを国内に設置できるようにするため、著作権法を改正する方針を固めた。現行法では、著作物の権利者に無断で検索用サーバーに著作物を保存したり、編集することは違法となる。このため、国内向けの検索サービス事業者もサーバー自体は海外に設置している。日本独自の検索ビジネスを後押しするため、遅ればせながら法改正に取り組むことになった。同法をデジタル社会に対応させるための他の項目と合わせ、改正案を08年の通常国会に提出する。

 ヤフーやグーグルなど米国の大手検索事業者の多くは、瞬時に検索結果を提供するため、保有する大量のサーバーに世界中のホームページの内容などを蓄積し、キーワードや内容などの索引(インデックス)を付けている。日本の著作権法では、著作権のある情報を蓄積することは「複製」、索引を付けることは「編集」と解釈され、ビジネスに利用することは違法だ。事業者はサーバーを日本に置くことができず、適法としている米国などの海外に設置している。

 国内では、経済産業省が主導し、グーグルなどに対抗する国産の検索技術を開発する取り組みが始まっているが、情報を蓄積するサーバーを海外にしか置けないのでは、将来のビジネス展開に支障が出ると政府は判断した。国内設置が認められれば、荷物の情報追跡や医療カルテの検索など広範囲の応用も容易になり、ビジネス創出が期待できるという。【小林理】

毎日新聞 2006年12月9日 15時00分


 日本の著作権を管理する人は、著作者ではなく、その上前を撥ねる人なので性質が悪いです。これがひとつの突破口となればいいのですが。

日の丸検索エンジンの効用と問題

 とりあえず国のやることは批判しておけば正義という風潮が強い中、敢えて国策に組する記事を書いたことは評価に値する気がする。
個人的には、この計画は「日の丸検索エンジン」といわない方が良かったと考えている。何故かと言えば、google対抗に勘違いされやすいからだ。
本質的には「googleの次を狙う」技術の開発に見えるからだ。

「日の丸検索エンジン」は何を狙っているのか(上)
「日の丸検索エンジン」は何を狙っているのか(下)

その観点から見れば、経済産業省の打ち上げた情報大航海プロジェクトの本当の狙いが浮かび上がってくる。情報大航海プロジェクトでは、リアル社会のいかのような分野での新たな情報収集・解析技術の実用化を狙っている。


 YouTubeの買収から判るように、googleは社会的責任を持たない非インフラ側に走っていくようですし、インフラ側に走れば大規模なシェアを取れる可能性があると思う。

 もっとも、googleがインフラを捨てている理由は、インフラが苦労の割りに儲からないと判断しているからでしょう。実に米国的だと思う。日本人はこの手の苦労をいとわないので悪くないと思う。この計画がシェアに直結しなくとも、間違いなく技術者を育てることにはわずかであれ貢献するので、無駄ではないでしょう。

 …効率は悪いかもしれませんが(笑

 国家プロジェクトで役人や会社の上層部に中間マージンを取らせずに、技術者にまわす方法があると、より良いのです。しかし、それはこのプロジェクトに限ったことではなく、全体的な課題でしょう。役人や会社の上層部のモラルをあげると良いのですが、これは数十年貯まりまくった澱ですから、一歩一歩すすめるしかないでしょうな。
Calendar
<< November 2017 >>
SunMonTueWedThuFriSat
   1234
567891011
12131415161718
19202122232425
2627282930  
latest_entries
categories
archives
recent comments
recent trackbacks
profile
基本写真
others